一、数据清洗
为什么进行数据预处理:初始数据的质量或多或少都存在问题
现实世界中的数据是“脏”的:不完整、噪声、不一致
如何处理缺失数据:忽略元组(直接删),手动添加(工作量大)、自动填写(常用)
如何处理噪声数据:箱线图,删除离群点
如何处理不一致数据:计算推理、替换
二、数据集成
数据集成:将来自多个数据源的数据组合成一个连贯的数据源
面临的问题:模式集成(不同数据库同一个属性但是有不同的表示方式)、实体识别问题(不同数据库,同一个实体不同表示需要合成)、数据冲突检测和解决(不同数据库的单位换算可能不一样)
数据集成中冗余信息的处理:进行合并(缩小数据量的存储)
如何合并:通过相关性分析和协方差分析来检测冗余的属性
相关性分析(离散变量):
计算相关性
相关并不意味着因果关系
标签:集成,数据源,数据库,相关性,数据挖掘,数据,预处理 From: https://www.cnblogs.com/jiezstudy/p/16988313.html