首页 > 其他分享 >数据挖掘3:数据预处理

数据挖掘3:数据预处理

时间:2022-12-16 21:22:22浏览次数:41  
标签:集成 数据源 数据库 相关性 数据挖掘 数据 预处理

一、数据清洗

为什么进行数据预处理:初始数据的质量或多或少都存在问题

现实世界中的数据是“脏”的:不完整、噪声、不一致

如何处理缺失数据:忽略元组(直接删),手动添加(工作量大)、自动填写(常用)

如何处理噪声数据:箱线图,删除离群点

如何处理不一致数据:计算推理、替换

二、数据集成

数据集成:将来自多个数据源的数据组合成一个连贯的数据源

面临的问题:模式集成(不同数据库同一个属性但是有不同的表示方式)、实体识别问题(不同数据库,同一个实体不同表示需要合成)、数据冲突检测和解决(不同数据库的单位换算可能不一样)

数据集成中冗余信息的处理:进行合并(缩小数据量的存储)

如何合并:通过相关性分析和协方差分析来检测冗余的属性

相关性分析(离散变量):

计算相关性

 

相关并不意味着因果关系

 

标签:集成,数据源,数据库,相关性,数据挖掘,数据,预处理
From: https://www.cnblogs.com/jiezstudy/p/16988313.html

相关文章