第四章数据预处理

时间：2023-02-23 15:00:47浏览次数：28

4.1 数据清洗

4.1.1 缺失值处理

下面结合具体案例介绍拉格朗日插值法
餐饮系统中的销量数据可能会出现缺失值，表4-3为某餐厅一段时间内的销量数据其中2015年2月14日的数据缺失，用拉格朗日插值法对缺失值进行插补，如代码清单4-1所示。

4.1.2 异常值处理

4.2 数据集成

数据挖掘需要的数据往往分布在不同的数据源中，数据集成就是将多个数据源合并存放在一个一致的数据存储位置(如数据仓库)中的过程
在数据集成时，来自多个数据源的现实世界实体的表达形式是不一样的，有可能不匹配，要考虑实体识别问题和属性冗余问题，从而将源数据在最底层上加以转换、提炼和集成。

4.2.1 实体识别

　　实体识别：是数据挖掘中60%的工作量，因为需要检测和解决数据单位不统一、同名异义、异名同义的冲突

4.2.2 冗余属性识别

　　涉及到用pandas工作

4.2.3 数据变换

　　数据变换主要是对数据进行规范化处理，将数据转换成“适当的”形式，以适用于挖掘任务及算法的需要

　　新概念：数据终台

4.2.4 简单函数变换

　　简单函数变换是对原始数据进行某些数学函数变换，常用的包括平方、开方、取对数、差分运算等，往往会有很好的效果

4.2.5 规范化

　　数据标准化（归一化）处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲，数值间的差别可能很大，不进行处理可能会影响数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响，需要进行标准化处理，将数据按照比例进行缩放，使之落入一个特定的区域，便于进行综合分析，如将工资收人属性值映射到 [-1,1] 或者 [0,1] 内。

　　数据规范化对于基于距离的挖掘算法尤为重要。

　　下面介绍三种规范化方法：最小-最大规范化，零-均值规范化、小数定标规范化。

　　注意事项：

　　根据公式进行分析——

　　　　最小-最大规范化：max-min不能太小

　　　　零-均值规范化：标准差不能太小

　　　　小数定标规范化

4.2.6 连续属性离散化

　　思考：如何将各个属性映射到分类值上，分几类最合适

　　一些数据挖掘算法，特别是某些分类算法，如ID3 算法、Apriori算法等，要求数据是分类属性形式。这样，常常需要将连续属性变换成分类属性，即连续属性离散化。

4.2.7 属性构造

　　在数据挖掘过程中，为了帮助用户提取更有用的信息，挖掘更深层次的模式，提高挖掘结果的精度，需要利用已有的属性集构造出新的属性，并加入到现有的属性集合中。

　　根据现实情况具体构造新属性。

4.2.8 小波变换

　　泛函、复变函数，对噪声处理

4.3 数据归约

4.3.1 属性归约
4.3.2 数值归约

4.4 Python主要数据预处理函数

4.5 小结

标签：4.2,变换,数据挖掘,规范化,数据,预处理,第四章,属性
From： https://www.cnblogs.com/CiciXuanblog/p/17147971.html

数据治理如何做？火山引擎DataLeap帮助这款产品3个月降低计算成本20%
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群本文讲述字节跳动一款App产品的数据治理故事。该产品随着用户体量和数据体量不......
js计算树形数据最大层级数
已知树形结构数据通过递归方式结合Math.max方法计算出树形结构最大层级数。consttreeData=[{title:"0-0",key:"0-0",children:[{......
SpringBoot21 - 数据层解决方案 SQL
数据层解决方案-SQL SSMP整合的时候数据层解决方案涉及到了哪些技术？MySQL数据库与MyBatisPlus框架，后面又学了Druid数据源的配置，所以现在数据层解决方案可以说是Mysql......
SpringBoot19 - 数据类型转换
数据类型转换先把问题描述一下，这位开发者连接数据库正常操作，但是运行程序后显示的信息是密码错误。java.sql.SQLException:Accessdeniedforuser'root'@'localho......
云南天文台：基于分布式存储，为天文观测构建新数据底座
晴空万里、群星璀璨的丽江高美古，在纳西语中的释义是“天气好、星星多、离天最近的地方”。这里的年平均晴天超200天，视宁度达到世界优良台址的水平，大气洁净透明，抬头可见满......
redis（1）NoSQL数据库简介
1.1技术发展redis是用来解决性能问题的数据库技术的分类：解决功能性问题：Java、Jsp、RDBMS、Tomcat、HTML、Linux、JDBC、SVN解决扩展性问题：Struts、Spring、SpringMVC......
Oracle数据库迁移
准备工作：原库上定位dmp文件导出路径：$ORACLE_HOME/oradata/dump新库的存放dmp文件的路径：$ORACLE_HOME/oradata/dump整理需要迁移的表空间：dbuser/password按照用户模式导......
Mysql数据库增量备份与恢复
一、MySQL增量备份概念使用mysqldump进行完全备份，备份的数据中有重复数据，备份时间与恢复时间长。而增量备份就是备份自上一次备份之后增加或改变的文件或内容。1、增量......
java 数据流
Example10_11.javaimportjava.io.*;publicclassExample10_11{publicstaticvoidmain(Stringargs[]){Filefile=newFile("apple.txt");try......
Mysql插入数据从指定选项中随机选择、插入时间从指定范围随机生成、Navicat使用存储过
场景Navicat通过存储过程批量插入mysql数据：https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/87855148上面使用过Navicat借助存储过程批量插入数据。但是插......

第四章数据预处理

4.1 数据清洗

4.1.1 缺失值处理

4.1.2 异常值处理

4.2 数据集成

4.2.1 实体识别

4.2.2 冗余属性识别

4.2.3 数据变换

4.2.4 简单函数变换

4.2.5 规范化

4.2.6 连续属性离散化

4.2.7 属性构造

4.2.8 小波变换

4.3 数据归约

4.3.1 属性归约
4.3.2 数值归约

4.4 Python主要数据预处理函数

4.5 小结

相关文章

赞助商

阅读排行

第四章 数据预处理

4.1 数据清洗

4.1.1 缺失值处理

4.1.2 异常值处理

4.2 数据集成

4.2.1 实体识别

4.2.2 冗余属性识别

4.2.3 数据变换

4.2.4 简单函数变换

4.2.5 规范化

4.2.6 连续属性离散化

4.2.7 属性构造

4.2.8 小波变换

4.3 数据归约

4.3.1 属性归约4.3.2 数值归约

4.4 Python主要数据预处理函数

4.5 小结

相关文章

赞助商

阅读排行

第四章数据预处理

4.3.1 属性归约
4.3.2 数值归约