首页 > 其他分享 >第四章 数据预处理

第四章 数据预处理

时间:2023-02-23 15:00:47浏览次数:28  
标签:4.2 变换 数据挖掘 规范化 数据 预处理 第四章 属性

4.1 数据清洗

4.1.1 缺失值处理

下面结合具体案例介绍拉格朗日插值法
餐饮系统中的销量数据可能会出现缺失值,表4-3为某餐厅一段时间内的销量数据其中2015年2月14日的数据缺失,用拉格朗日插值法对缺失值进行插补,如代码清单4-1所示。

 

 

 

4.1.2 异常值处理

4.2 数据集成

数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储位置(如数据仓库)中的过程
在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,有可能不匹配,要考虑实体识别问题和属性冗余问题,从而将源数据在最底层上加以转换、提炼和集成。

4.2.1 实体识别

  实体识别:是数据挖掘中60%的工作量,因为需要检测和解决数据单位不统一、同名异义、异名同义的冲突

4.2.2 冗余属性识别

  涉及到用pandas工作

4.2.3 数据变换

  数据变换主要是对数据进行规范化处理,将数据转换成“适当的”形式,以适用于挖掘任务及算法的需要

  新概念:数据终台

4.2.4 简单函数变换

  简单函数变换是对原始数据进行某些数学函数变换,常用的包括平方、开方、取对数、差分运算等,往往会有很好的效果

    

4.2.5 规范化

  数据标准化(归一化)处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析,如将工资收人属性值映射到 [-1,1] 或者 [0,1] 内。

  数据规范化对于基于距离的挖掘算法尤为重要。

  下面介绍三种规范化方法:最小-最大规范化,零-均值规范化、小数定标规范化。

  注意事项:

  根据公式进行分析——

    最小-最大规范化:max-min不能太小

    零-均值规范化:标准差不能太小

    小数定标规范化

4.2.6 连续属性离散化

  思考:如何将各个属性映射到分类值上,分几类最合适

  一些数据挖掘算法,特别是某些分类算法,如ID3 算法、Apriori算法等,要求数据是分类属性形式。这样,常常需要将连续属性变换成分类属性,即连续属性离散化。

4.2.7 属性构造

  在数据挖掘过程中,为了帮助用户提取更有用的信息,挖掘更深层次的模式,提高挖掘结果的精度,需要利用已有的属性集构造出新的属性,并加入到现有的属性集合中。

  根据现实情况具体构造新属性。

4.2.8 小波变换

  泛函、复变函数,对噪声处理

4.3 数据归约

4.3.1 属性归约
4.3.2 数值归约

4.4 Python主要数据预处理函数

4.5 小结

标签:4.2,变换,数据挖掘,规范化,数据,预处理,第四章,属性
From: https://www.cnblogs.com/CiciXuanblog/p/17147971.html

相关文章

  • 数据治理如何做?火山引擎DataLeap帮助这款产品3个月降低计算成本20%
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 本文讲述字节跳动一款App产品的数据治理故事。该产品随着用户体量和数据体量不......
  • js计算树形数据最大层级数
    已知树形结构数据通过递归方式结合Math.max方法计算出树形结构最大层级数。consttreeData=[{title:"0-0",key:"0-0",children:[{......
  • SpringBoot21 - 数据层解决方案 SQL
    数据层解决方案-SQL​ SSMP整合的时候数据层解决方案涉及到了哪些技术?MySQL数据库与MyBatisPlus框架,后面又学了Druid数据源的配置,所以现在数据层解决方案可以说是Mysql......
  • SpringBoot19 - 数据类型转换
    数据类型转换​ 先把问题描述一下,这位开发者连接数据库正常操作,但是运行程序后显示的信息是密码错误。java.sql.SQLException:Accessdeniedforuser'root'@'localho......
  • 云南天文台:基于分布式存储,为天文观测构建新数据底座
    ​晴空万里、群星璀璨的丽江高美古,在纳西语中的释义是“天气好、星星多、离天最近的地方”。这里的年平均晴天超200天,视宁度达到世界优良台址的水平,大气洁净透明,抬头可见满......
  • redis(1)NoSQL数据库简介
    1.1技术发展redis是用来解决性能问题的数据库技术的分类:解决功能性问题:Java、Jsp、RDBMS、Tomcat、HTML、Linux、JDBC、SVN解决扩展性问题:Struts、Spring、SpringMVC......
  • Oracle数据库迁移
    准备工作:原库上定位dmp文件导出路径:$ORACLE_HOME/oradata/dump新库的存放dmp文件的路径:$ORACLE_HOME/oradata/dump整理需要迁移的表空间:dbuser/password按照用户模式导......
  • Mysql数据库增量备份与恢复
    一、MySQL增量备份概念使用mysqldump进行完全备份,备份的数据中有重复数据,备份时间与恢复时间长。而增量备份就是备份自上一次备份之后增加或改变的文件或内容。1、增量......
  • java 数据流
    Example10_11.javaimportjava.io.*;publicclassExample10_11{publicstaticvoidmain(Stringargs[]){Filefile=newFile("apple.txt");try......
  • Mysql插入数据从指定选项中随机选择、插入时间从指定范围随机生成、Navicat使用存储过
    场景Navicat通过存储过程批量插入mysql数据:https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/87855148上面使用过Navicat借助存储过程批量插入数据。但是插......