首页 > 其他分享 >数据挖掘——数据预处理

数据挖掘——数据预处理

时间:2025-01-05 19:02:50浏览次数:3  
标签:bar Cov min 数据挖掘 frac 数据 预处理 属性

数据挖掘——数据预处理

数据预处理

数据预处理 ——主要任务

  • 数据清理
    • 填写缺失值,平滑噪声数据,识别或删除离群,并解决不一致问题
  • 数据集成
    • 整合多个数据库,多维数据集或文件
  • 数据规约
    • 降维
    • 降数据
    • 数据压缩
  • 数据转换
    • 规范化
    • 离散化

数据清洗

  • 属性值缺失:
    • 例如,职业=“ ”(丢失)
  • 噪音,错误或离群
    • 例如,工资=“-10”(错误)
  • 不一致的代码或不符的名称
    • 年龄=“42”生日=“03/07/1997”
    • 曾经评级“1,2,3”,现在评级“A,B,C”

如何处理丢失的数据

  • 忽略元组:当类标号缺少时通常这么做(监督式机器学习中训练集缺乏类标签)。当每个属性缺少值比例比较大时,效果比较差
  • 手动填写遗漏值:工作量大
  • 自动填写
    • 使用属性的平均值填充空缺值
    • 最有可能的值:基于诸如贝叶斯公式或决策树推理

如何处理噪声数据

箱线图检测离群数据:删除离群点
在这里插入图片描述

如何处理不一致数据

  • 不一致的代码或不符的名称
    • 年龄=“42”生日=“09/24/1998”
    • 曾经评级“1,2,3”,现在评级“A,B,C”
  • 方法
    • 计算推理、替换
    • 全局替换

数据集成

将来自多个数据源的数据组合成一个连贯的数据源
在这里插入图片描述

  • 整合多个数据库经常发生数据冗余
    • Object identification:相同的属性或对象可能有不同的名字在不同的数据库中
    • Derivable data:一个属性可能是“派生”的另一个表中的属性,例如,跑步能力
  • 通过相关性分析和协方差分析可以检测到冗余的属性
  • 仔细集成来自多个数据源,可能有助于减少/避免冗余和不一致的地方,并提高读取速度和质量

相关分析

相关系数(也成为皮尔逊相关系数)

r p , q = ∑ ( p − p ˉ ) ( q − q ˉ ) ( n − 1 ) σ p σ q = ∑ ( p q ) − n p q ‾ ( n − 1 ) σ p σ q r_{p, q}=\frac{\sum(p-\bar{p})(q-\bar{q})}{(n-1) \sigma_{p} \sigma_{q}}=\frac{\sum(p q)-n \overline{p q}}{(n-1) \sigma_{p} \sigma_{q}} rp,q​=(n−1)σp​σq​∑(p−pˉ​)(q−qˉ​)​=(n−1)σp​σq​∑(pq)−npq​​
其中 n n n是元组的数目,而 p p p和 q q q是各属性的具体值, σ p σ_p σp​和 σ q σ_q σq​是各自的标准偏差。

  • 当r>0时,表示两变量正相关,r<0时,两变量为负相关。
  • 当|r|=1时,表示两变量为完全线性相关,即为函数关系。
  • 当r=0时,表示两变量间无线性相关关系。
  • 当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1, 两
    变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。
  • 一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;
    0.7≤|r|<1为高度线性相关。
协方差

Cov ⁡ ( p , q ) = E ( ( p − p ˉ ) ( q − q ˉ ) ) = ∑ i = 1 n ( p i − p ˉ ) ( q i − q ˉ ) n r p , q = Cov ⁡ ( p , q ) σ p σ q \begin{array}{c}\operatorname{Cov}(p, q)=E((p-\bar{p})(q-\bar{q}))=\frac{\sum_{i=1}^{n}\left(p_{i}-\bar{p}\right)\left(q_{i}-\bar{q}\right)}{n} \\r_{p, q}=\frac{\operatorname{Cov}(p, q)}{\sigma_{p} \sigma_{q}}\end{array} Cov(p,q)=E((p−pˉ​)(q−qˉ​))=n∑i=1n​(pi​−pˉ​)(qi​−qˉ​)​rp,q​=σp​σq​Cov(p,q)​​

  • 其中n是元组的数目,p和q是各自属性的具体值, σp和σq是各自的标准差
    • 正相关: C o v ( p , q ) > 0 Cov(p,q)>0 Cov(p,q)>0
    • 负相关: C o v ( p , q ) < 0 Cov(p,q) <0 Cov(p,q)<0
    • 不相关: C o v ( p , q ) = 0 Cov(p,q) =0 Cov(p,q)=0
  • 可具有某些对随机变量的协方差为0,但不是独立的。一些额外的假设(例如,数据是否服从多元正态分布)做了协方差为0意味着独立。

它可以简化计算:
C o v ( A , B ) = E ( ( A − A ˉ ) ( B − B ˉ ) ) = ∑ i = 1 n ( a i − A ˉ ) ( b i − B ˉ ) n = E ( A B ) − A ˉ B ˉ Cov(A,B)=E((A-\bar{A})(B-\bar{B}))=\frac{\sum_{i=1}^n(a_i-\bar{A})(b_i-\bar{B})}{n}=E(AB)-\bar{A}\bar{B} Cov(A,B)=E((A−Aˉ)(B−Bˉ))=n∑i=1n​(ai​−Aˉ)(bi​−Bˉ)​=E(AB)−AˉBˉ

数据规约

为什么数据规约(datareduction)
由于数据仓库可以存储TB的数据,因此在一个完整的数据集上运行时,复杂的数据分析可能需要一个很长的时间。

数据规约三种方法

  1. 降维
  2. 降数据
  3. 数据压缩

降维法:PCA主成分分析

在这里插入图片描述

  • PCA主成分分析法核心idea
    • 数据中很多属性之间可能存在这样或那样的相关性
    • 能不能找到一个方法,将多个相关性的属性组合仅仅形成一个属性

降数据——抽样法

在这里插入图片描述

  • 简单随机抽样(SimpleRandomSampling)
    • 相等的概率选择
    • 不放回抽样(Samplingwithout replacement)
      • 一旦对象被选中,则将其删除
    • 有放回抽样(Samplingwithreplacement)
      • 选择对象不会被删除
  • 分组抽样
    • 每组抽相近个数
    • 用于偏斜数据

样本大小对数据质量的影响:

  • 从8000个点分别抽2000和500个点
    • 2000个点的样本保留了数据集的大部分结构
    • 500个点的样本丢失了许多结构
      在这里插入图片描述

数据压缩

在这里插入图片描述

  • 函数映射:给定的属性值更换了一个新的表示方法,每个旧值与新的值可以被识别
  • 方法
    • 规范化:按比例缩放到一个具体区间
      • 最小 - 最大规范化
      • Z-得分正常化
      • 小数定标规范化
    • 离散化

最小-最大规范化
v ′ = v − min ⁡ A m a x A − min ⁡ A ( n e w _ m a x A − n e w − min ⁡ A ) + n e w − min ⁡ A v^{\prime}=\frac{v-\min A}{max A-\min A}\left(\right. \left.new\_max A-n e w_{-} \min A\right)+ new_{-} \min A v′=maxA−minAv−minA​(new_maxA−new−​minA)+new−​minA
v v v即需要规范的数据

z-分数规范化
v ′ = v − 均值 A 标准 差 A v'=\frac{v-均值A}{标准差_A} v′=标准差A​v−均值A​

离散化方法

  • 非监督离散化法
    • 等宽法:根据属性的值域来划分,使每个区间的宽度相等
    • 等频法:根据取值出现的频数来划分,将属性的值域划分成个小区间,并且要求落在每个区间的样本数目相等
    • 聚类:利用聚类将数据划分到不同的离散类别

在这里插入图片描述

标签:bar,Cov,min,数据挖掘,frac,数据,预处理,属性
From: https://blog.csdn.net/m0_74259787/article/details/144871342

相关文章

  • 基于Python+flask的电影数据可视化分析
    项目概述该项目基于Python的Flask框架开发,用于电影数据的分析与可视化,主要功能包括用户管理、数据采集与分析、可视化展示。运行环境开发语言:Python3.8+主要依赖库:Flask(Web框架)PyMySQL(数据库连接)BeautifulSoup(HTML解析)Jieba/NLTK/SnowNLP(自然语言处理)W......
  • 【MATLAB】自学记录之读取DEM高程数据文件并渲染成三维地形图
    1.前言近日在学习MATLAB编程以及地理高程数据处理等相关知识时,希望通过MATLAB的绘图等相关函数,读取高程数据文件,最后以可视化的方式展示全球陆地范围内的三维高程数据图。2.运行环境及数据序号配置项说明1CPUInteli5-12490F2内存16G*2,3600MHz3磁盘2......
  • 图层级GIS数据格式概述
    图层级GIS数据格式概述1.GEOJSON的优缺点优点:开放标准:GEOJSON是一个开放的标准,这意味着它可以被任何支持JSON的平台或工具使用。易于理解和使用:由于GEOJSON基于JSON,它的结构清晰,易于阅读和编写。支持多种地理数据类型:GEOJSON支持多种地理数据类型,包括点、线、多边形等。广......
  • Redpanda Console - 流数据管理控制台
    RedpandaConsole-流数据管理控制台简介Redpanda是一个与Kafka兼容的流媒体数据平台,该平台具有高性能、操作友好和云就绪性。这家总部位于旧金山的公司成立于2019年,专注于Kafka公司关键任务系统的替代产品。Redpanda使用C++重写Kafka,与KafkaAPI完全兼容,可以与所有Kafka流媒......
  • 25考研王道数据机构课后习题-----顺序表链表部分
    文章目录1.顺序表题目2.链表相关题目3.我的个人总结声明:以下内容来自于B站知名up主白话拆解数据结构,望获悉;1.顺序表题目下面的这个说的是:下面的哪一个是组成我们的顺序表的有限序列,这个应该是数据元素,n个字符组成的这个内容我们称之为字符,数据项表示的是我们的这......
  • SAP物料主数据界面增加客制化字段、客制化页签的方式
    文章目录前言一、不增加页签,只增加客制化字段二、增加物料主数据页签前言【SAP系统MM模块研究】#SAP#MM#物料#客制化#物料主数据项目上难免会遇到客户要在物料主数据的界面上,增加新字段的需求。实现方式有:(1)在系统现有的页签上,增加客制化的字段;(2)在现有页签......
  • PostGIS数据库操作简介
    PostGIS数据库操作简介PostGISDocker安装dockerpullpostgis/postgisdockerrun--namepostgis-ePOSTGRES_PASSWORD=123456-d-p5432:5432postgis/postgisPostGIS数据库连接DataGripNavicatpgAdmin4QGISHeidiSQLDBeaverPostGIS数据库操作空间查询:PostGIS提供......
  • 不可不知的MySQL配置参数,让数据库“稳如狗”
    为了提高MySQL服务器的性能和稳定性,我们需要对其配置参数进行调整,主要包含OS配置参数和MySQL数据库配置参数,需要的小伙伴可以参考一下。OS配置部分(1)在BIOS及内核层面关闭NUMA(2)在BIOS层面将CPU、内存均设置最大性能模式(3)在BIOS层面关闭CPU节能模式(4)修改IOScheduler为deadline或......
  • Python数据结构与算法分析 第3版PDF、EPUB免费下载
    适读人群:1.希望学习数据结构和算法的Python用户;2.计算机专业的学生和老师。只有洞彻数据结构与算法,才能真正精通Python!热门计算机科学教材,华盛顿大学、北京大学等多家高校采用,让你在代码编写的战场上所向披靡!电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版......
  • [数据结构学习笔记4] 堆栈(Stack)
    堆栈,我们总是把新的数据加在堆栈的最顶端,移除的时候也是从最顶端开始移除。也叫LIFO(lastinfirstout)。代码实现(javascript)classStack{constructor(...items){this.items=items;}clear(){this.items.length=0;}clon......