确定数据分析的目的,获取数据,清洗数据,探索数据,建模分析,结果交流
本篇主要采用python进行处理数据的方法进行描述
数据处理顺序:数据读写 , 数据探索与描述, 数据简单处理, 重复值的处理,缺失值的处理,异常值的处理,文本字符串的处理,
数据读写:
pd.read_csv('文件路径') pd.read_excel('文件路径')
数据的探索欲描述:(使用pandas读入进来的数据全部都是datefreim的格式数据简写为df)
df.info() df.describe() #简单的统计描述
数据的简单处理:
去除数据间的空格,英文字母的大小写转换
重复值的处理:
duplicate() #重复值寻找函数 drop_duplicates() #删除重复值
缺失值处理:
删除缺失值、均值填补,向前填充、模型填补(如随机森林法)
异常值处理:删除异常值的记录
作为缺失值处理、平均值修正缺失值、不处理但作为业务分析挖掘价值
文本字符串处理:去除前后空格
去除中间有逗号或括号的数据,采用replace(',','')
正则表达式提取所需要数据
时间格式序列的处理:将系统时间格式化、系统时间和时间戳相互转化,年月日提取
标签:处理,df,清洗,描述,数据,缺失,重复 From: https://www.cnblogs.com/222wan/p/18063226