EXCEL原始数据,本文章附件,下面介绍两种处理方式:EXCEL&R
一、EXCEL清洗数据格式
点分列的第一个分列
填入其他一个#,点击下一步完成
分列后的表格如图
按下ctrl+F,点击替换全部
此时此刻处理完成FirstName,开始处理LastName
选中C列
CTRL+F,输入(*),点击全部替换
处理结果如下 上一步用的是通配符替换,*代表任意字符
(*)的意识是吧(任意字符)替换为空字符,即完成数据整理
二、R语言清洗数据格式
读取本地文件
data <- read_csv("D:/学习/hfda_ch13_raw_data.csv")
如果报错记得导入csv的包
install.packages("readr") # 安装 readr 包
library(readr) # 加载 readr 包
查看文档
head(data)
下面是做一个清洗LastName的操作
NewLastName <- sub("\\(.*\\)","",data$LastName)
head (NewLastName)
NewLastName <- sub("\\(.*\\)","",data$LastName)
head (NewLastName)
data$LastName<-NULL
data$LastName <- NewLastName
write.csv(data, file = "D:/学习/hfda_ch13_raw_data_modified.csv")
结果如图:
三、清洗重复数据
dataSorted <-data[order(data$PersonID),]
head(dataSorted,n=50)
删除重复数据
unique(data)
重新创建一个表格,并输出
dataNamesOnly<-dataSorted
dataNamesOnly$CallID<-NULL
dataNamesOnly$Time<-NULL
dataNamesOnly<-unique(dataNamesOnly)
head(dataNamesOnly,n=50)
write.csv(dataNamesOnly,file="D:/学习/dataNamesOnly.csv")
标签:CH13,分列,深入浅出,EXCEL,readr,清洗,data,替换
From: https://blog.csdn.net/Adore_rui/article/details/137049695