数据预处理

1. 数据清理（缺失值、异常值、无关值、噪声和重复值）

a. 缺失值

删除：缺失的数据较少时，将缺失这一属性的样本删除，前提是对整体数据没有较大的影响
插补：利用统计学的一些性质来填补这一数据，常见的方法有中值、中位数、平均数、众数等等
领近插补：使用和缺失样本最接近的样本的该属性值作为插补
回归法（建模预测）：对所有的样本进行一定处理后进行回归建模来预测缺失数据的值作为缺失数据（这种方法处理的工作量较大，且对数据的统计特征具有一定的依赖性）
其他：牛顿插值法、拉格朗日插值法

b. 异常值

找到异常值：比较实用的方法是利用Matlab做箱线图

下四分位数（Q1）=（数据个数+1）0.25
上四分位数（Q3）=（数据个数+1）0.75
盒子长度IQR = Q3-Q1
最小观测值（下边缘）=Q1 - 1.5IQR
最大观测值（上边缘）=Q3+ 1.5IQR
不在最小最大观测值范围内的视为异常值
处理方法：1. 删除 2. 当作缺失值处理 3. 不处理

c. 无关值

整体样本中的无关属性（像ID等等）可以直接删除，但是要根据题目情况进行具体分析

d. 噪声

分箱：通过考察相邻数据来确定最终值。实际上就是按照属性值划分的子区间，如果一个属性值处于某个子区间范围内，就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据（某列属性值）按照一定的规则放进一些箱子中，考察每一个箱子中的数据，采用某种方法分别对各个箱子中的数据进行处理。分箱的方法一般有等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。数据平滑方法：按平均值平滑、按边界值平滑和按中值平滑。按平均值平滑：对同一箱值中的数据求平均值，用平均值替代该箱子中的所有数据。按边界值平滑：用距离较小的边界值替代箱中每一数据。按中值平滑：取箱子的中值，用来替代箱子中的所有数据。
聚类：将物理的或抽象对象的集合分组为由类似的对象组成的多个类。找出并清除那些落在簇之外的值（孤立点），这些孤立点被视为噪声。
回归：试图发现两个相关的变量之间的变化模式，通过使数据适合一个函数来平滑数据，即通过建立数学模型来预测下一个数值，包括线性回归和非线性回归。

e. 重复值

对于重复项的判断，基本思想是“排序与合并”，先将数据集中的记录按一定规则排序，然后通过比较邻近记录是否相似来检测记录是否重复，
这里面其实包含了两个操作，一是排序，二是计算相似度。一般过程中主要是用duplicated方法进行判断，然后将重复的样本进行简单的删除处理。
需要注意：

数据去重是处理重复值的主要方法，但如下几种情况慎重去重

样本不均衡时，故意重复采样的数据重复记录用户检测业务规则问题
- 分类模型，某个分类训练数据过少，可以采取简单复制样本的方法来增加样本数量
重复记录用户检测业务规则问题

事务型数据，尤其与钱相关的业务场景下出现重复数据时，如重复订单，重复出库申请

2. 数据集成

在赛题中，给出的数据来自于多个数据集，需要对这几个数据集中的数据进行整合
需要注意：

属性的意义问题：在不同的数据集中，相同的属性名对应的实际意义是有所差异的
字段的结构问题：在不同的数据集中，相同的属性使用的量纲、记录格式可能存在差异，需要进行统一
字段冗余问题：集成后的字段有较强的相关性，可以相互推导出，即有冗余表示的若干个属性

所以，一般在集成前可以对多个数据集中的所有属性进行统计然后再处理

3. 数据变换

目的：

方便置信区间分析和可视化（缩放数据、将数据压缩进更有对称性的分布里）
为了获得更容易解释的特征
降低数据的维度或者数据的复杂度（降低数据矩阵的维度），也即剔除部分属性
方便使用简单的回归模型

常见的一般操作有归一化->标准化->规范化
更多变化规律参见这里

4. 数据归约

类似与数据压缩，常见的方法是减少数据的维度或者减少数据的数量，来达到降低数据规模的目的
常见方法：
- 维度规约（Dimensionality Reduction）：减少所需自变量的个数。代表方法为WT、PCA与FSS。
- 数量规约（Numerosity Reducton）：用较小的数据表示形式替换原始数据。代表方法为对数线性回归、聚类、抽样等。

标签：重复,方法,平滑,样本,数模,数据,预处理,属性
From： https://www.cnblogs.com/Tatsukyou/p/17589767.html

在 SQL Server 中获取数据库备份历史记录
有多种方法可以获取SQLServer中的数据库备份历史记录。这里我列出了两种获取备份历史记录的最快方法。我经常使用这些方法。这些方法将有助于在对数据库进行重大更改之前确认最新的备份是否已成功进行。使用备份和恢复事件报告如果您使用SQLServerManagementStudio (SSMS......
Redis从入门到放弃（4）：3种新数据类型
1、介绍前面的文章已经介绍了redis的5种基本数据类型，redis6中另外还有3种特殊的数据类型，分别是Bitmaps(位图)、HyperLogLogs（基数统计）和geospatial（地理位置）。本文将继续探讨它们的特性、原理以及应用场景。2、Bitmaps（位图）Bitmaps是一种位图数据结构，用于存储位的集合。在Red......
新能源动力电池隔热垫行业市场规模调研及数据分析报告2023
2023年全球及中国新能源动力电池隔热垫行业头部企业市场占有率及排名调研报告2022年全球新能源动力电池隔热垫市场规模约亿元，2018-2022年年复合增长率CAGR约为%，预计未来将持续保持平稳增长的态势，到2029年市场规模将接近亿元，未来六年CAGR为%。从核心市场看，中国新能源动力电池......
嵌入式开发解决方案行业市场规模调研及数据分析报告2023
2023年全球及中国嵌入式开发解决方案行业头部企业市场占有率及排名调研报告2022年全球嵌入式开发解决方案市场规模约亿元，2018-2022年年复合增长率CAGR约为%，预计未来将持续保持平稳增长的态势，到2029年市场规模将接近亿元，未来六年CAGR为%。从核心市场看，中国嵌入式开发解决方案......
复合环氧覆铜板行业市场规模调研及数据分析报告2023
2023年全球及中国复合环氧覆铜板行业头部企业市场占有率及排名调研报告2022年全球复合环氧覆铜板市场规模约亿元，2018-2022年年复合增长率CAGR约为%，预计未来将持续保持平稳增长的态势，到2029年市场规模将接近亿元，未来六年CAGR为%。从核心市场看，中国复合环氧覆铜板市场占据全球......
屏蔽复合套管行业市场规模调研及数据分析报告2023
2023年全球及中国屏蔽复合套管行业头部企业市场占有率及排名调研报告2022年全球屏蔽复合套管市场规模约亿元，2018-2022年年复合增长率CAGR约为%，预计未来将持续保持平稳增长的态势，到2029年市场规模将接近亿元，未来六年CAGR为%。从核心市场看，中国屏蔽复合套管市场占据全球约%的......
热离子阴极行业市场规模调研及数据分析报告2023
2023年全球及中国热离子阴极行业头部企业市场占有率及排名调研报告2022年全球热离子阴极市场规模约亿元，2018-2022年年复合增长率CAGR约为%，预计未来将持续保持平稳增长的态势，到2029年市场规模将接近亿元，未来六年CAGR为%。从核心市场看，中国热离子阴极市场占据全球约%的市场份......
在代码段中使用数据
包含多个段的程序数据段在汇编程序中，会遇到dw，这个的含义是定义一个字型数据(defineword)。假设有以下的汇编代码：assumecs:codecodesegment;datadw0000h,0001h,0002h,0003h,0010h;programmovax,0hmovbx,axmovcx,axmovdx,ax......
openGauss学习笔记-24 openGauss 简单数据管理-模式匹配操作符
openGauss学习笔记-24openGauss简单数据管理-模式匹配操作符数据库提供了三种独立的实现模式匹配的方法：SQLLIKE操作符、SIMILARTO操作符和POSIX-风格的正则表达式。除了这些基本的操作符外，还有一些函数可用于提取或替换匹配子串并在匹配位置分离一个串。24.1LIKE描述：判断字......
传奇数据库dbc2000如何卸载呢？
在之前的文章里，多多亲笔写了dbc2000数据库安装、汉化、破解视频教程，今天给大家写一个一dbc2000如何卸载的图文教程，其实对于软件的卸载和安装是差不多的，只要看得懂中文的都能够完成，只是完整的时间不一样，但我可不是为了写一篇如何卸载DBC2000的，而是另有作用的。如果你的电脑上安装了3......

数模——数据预处理

数据预处理

1. 数据清理（缺失值、异常值、无关值、噪声和重复值）

a. 缺失值

b. 异常值

c. 无关值

d. 噪声

e. 重复值

2. 数据集成

3. 数据变换

4. 数据归约

相关文章

赞助商

阅读排行