首页 > 其他分享 >数据挖掘概念与技术 - chapter 2 - 认识数据

数据挖掘概念与技术 - chapter 2 - 认识数据

时间:2024-01-30 18:46:28浏览次数:31  
标签:chapter 中位数 概念 位数 众数 数据挖掘 范数 数据 属性

数据特性:

均值 中位数 众数 中心趋势度量

这些基本统计量有助于 数据预处理时 填补空缺值、光滑噪声、识别离群点。

考察数据对象的"相似性/相异性" 可以用于检测最近邻分类

数据对象:一个实体(样本 实例 数据点)

属性:一个数据字段 特征 变量 维度 单变量 双变量

标称属性:与名称相关,是一些符号或者事物的名称,代表某种类别、编码或者状态,是分类的;在计算机科学中可视为枚举类型。

标称属性的数学运算没有意义,一般不定量使用;可以观察”众数“,是一种中心趋势度量。

二元属性:一种标称属性,只有两个类别或者状态:0或者1,0通常表示属性不出现,1表示出现。二元属性称为“布尔属性”,对应ture与false值。

对称的二元属性:如果两种状态具有等价值并且携带相同的权重,关键结果用0或者1编码 无偏好(如男或者女)

非对称的二元属性:状态结果不是同样重要,用1用于最重要的结果。用0编码另一个结果。

序数属性:可能的值之间具有意义的序或者秩,但是相继值之间的差未知。如:饮料店的值小、中 、大,具有有意义的先后次序;grade:A、B、C、D等,职位可以按照顺序枚举,对于教师按照列兵、军事、下士等。序数属性是有用的,一般按照顺序排列:如0-很不满意,1-不太满意,2-中性,3-满意,4-和满意。

序数属性可以通过数质量划分优先有序类别,将数值属性离散化得到。

中心趋势可以使用众数或者中位数进行表示,不能用于定义均值。

数值属性:提供对象的定量度量,属性可以以区间的标度或者比率标度的。

区间标度属性:用相等的单位尺度度量,区间属性的值有序,可以为0、或者负值,允许我们比较与定量评估值之间的差。如温度(区间标度)除了中心趋势度度量中位数与众数之外,可以计算他们的均值。

比率标度属性:比率标度:是具有固有零点的数值属性,如果度量是比率标度,可以说一个值是另一个的倍数或者比率。值是有序的,可以计算值之间的差、均值、中位数、众数。如员工工作年限、字数(有计数属性的特征)、重量、货币量等。

离散属性与连续属性:使用许多方法组织属性类型,类型不是互斥的。开发分类算法通常把属性分成离散或者连续,离散属性具有有限或者无限可数个值。如果属性不是离散的,则是连续的。经典意义下,连续值是实数,数值类型是整数或者实数。

 

数据基本统计描述

中心趋势度量:均值、中位数、众数、中列数

均值:加权算数均值、加权平均,对极端值很敏感,可以使用截尾均值进行观测排序。

中位数:是有序数据值的均值,把数据较高的一半与较低的一半分开。

n如果是偶数,则中位数不唯一,是最中间的两个值与他们之间任意值。

当观测的数量很大时,中位数的计算开销非常大,对于数值属性可以计算中位数的近似值。

假设他们xi值划分区间,并且对每个区间频率可以将人划分为区间,每个区间频率数据值个数,令包含中位数频率的区间为中位数区间。

众数:集合里频繁出现的词语,可以对定性与定量属性确定众数,最高频率对应多个不同值,导致多个众数,具有一个、两个、三个众数的数据集成为单峰的、双峰的、三峰的,具有两个或者更多众数的数据集为多峰的;极端情况下没如果每个数据只出现一次,它没有众数。

中列数:完全对称的单峰频率曲线中,均值、中位数、众数都是相同的中心值

大部分应用中,数据是不对称的,可能是正倾斜,众数出现在小于中位数的值上,或者是负倾斜的

 

除了估计均值中心趋势之外,可以从以下维度了解数据散布:极差、四分位数、四分位数极差、五数概括、盒图、数据的标准差与方差

可以通过基本的统计描述:条图、饼图、线图进行描述。

极差:最大值与最小值的差

分位数:取自数据分布每间隔一定位置上的点,把数据划分成基本上大小相等的连贯集合。

四分位数:把数据划分为4个相等部分

100-分位数:划分为100个相等部分

四分位数极差:IQR =Q3-Q1

 

通常识别离群点的规则:挑选落在第三个四分位数之上或者第一个四分位数下至少1.5*IQR的值

五数概括:由中位数Q2、四分位数Q1与Q3、最小与最大观测值组成,按照次序minimum、Q1、Median、Q3、Maximum给出。

盒图:一种流行的分布直观表示 体现了五数概括

-盒的端点一般在四分位数上,使得盒的长度为四分位数极差IQR

-中位数用盒内的线标记

-盒外的两条线延伸到最小与最大观测值

 

方差与标准差:用于描述数据散度的程度

方差:单样本减去观测均值 平方 求和 除以总样本

标准差:方差的平方根

 

标准差 用于度量均值的发散,仅仅选择均值作为中心度量时使用

仅当不存在发散的时候,所有的观测值都有相同值时为0 (很好的数据集发散指示器)

 

分位数图:观察单变量数据最有效的方法 可以基于分位数比较Q1、中位数、Q3、其他fi值

分位数-分位数图:q-q图 对着另一个对应分数绘制单个变量分布的分位数,是一种强有力的可视化工具,可以使得用户观察从一个分布到另一个分布是否有漂移。

 

直方图:频率直方图,概括给定属性X的分布的图形画法。如果X是标称的,对于每一个已知值,画一个柱或者竖形条,代表高度,X值出现的频率。

桶:对于比较单变量观测组可能不如分位数图 q-q图

 

散点图:确定两个数值变量之间看山去是否存在联系、模式或者趋势的最有效图形方法之一,为了构造散点图可以每一个值对视为一个代数坐标对。

散点图是观测双变量数据的有效方法,可以用于观察点簇与离群点,考察相关性联系可能性。两个属性是X与Y,如果一个属性蕴含另外一个则是相关的,相关可能是正相关、负相关(零相关)。

有助于识别噪声与离群点,对于数据清理很有用。

 

数据可视化

通过图形表示清晰有效数据。

基于像素的可视化技术:热力图

几何投影技术:帮助用户发现多维空间数据集的有趣投影。

基于图符的可视化技术:用少量图符表示多维数据值

人物线条画 切尔诺夫脸

标签云

 

数据的相似性与相异性(邻近性):相似值越高,对象之间的相似性越大

 

数据矩阵:对象 属性矩阵 一行对应一个对象 一列代表一个属性 二模矩阵

相异性矩阵:对象-对象结构 存放了对象两两之间的邻近度 包含一类实体,单模矩阵

sim(i,j)=1-d(i,j)

对象之间的相异性:可以用不匹配率来计算

 

二元属性的邻近性度量:考察对称与非对称二元属性刻画对象间的相异性与相似性度量

jaccard 二元属性之间的相异性

 

 

最流行的距离度量:欧几里得距离

点间差的平方 和 开平方

曼哈顿距离

点间 绝对值 和

 

距离的数学性质:

非负性 同一性 对称性 三角不等式

闵可夫斯基距离 :点间差的h方和 开h方 范数

当p=1的时候,表示曼哈顿距离;p=2的时候,表示欧几里得距离

h趋向于无穷的时候,是上确界距离:使用相同的数据对象记录,对象的最大值差,为上确界距离

此外还可以附加权重,计算 加权的欧几里得距离

序数属性的邻近性度量

可以通过将数值属性离散化后,将其组织为排位

数值属性的值域可以划分为有限个类别,每个序数属性都有不同的状态数,序数型属性间的相异性

将数据离散化后使用欧几里得距离进行相异性矩阵的计算

 

混合类型属性的相异性

可取方法:将所有类型一起进行兼容做聚类分析

混合类型的相异性

考虑所有属性,具有不同类型:单独算类型相异性 后 累加 求单点平均

 

余弦相似性

在稀疏度特别高的情况下,对于稀疏数值数据,需要忽略0匹配的数值数据度量,所以提出使用余弦相似性 进行计算

image-20240124190301604

欧几里得范数:自身平方和开平方

余弦值越接近1,夹角越小,向量之间匹配度越大,是非度量测度

 

当属性是二值属性时,余弦相似度函数可以共享特征或者属性解释

表示所共有的属性个数与比率,Tanimoto 系数/Tanimoto距离 ,常用于信息检索 生物学分类。

**近似中位数的计算

中位数是一组数据中的中间值,可以用于描述数据的集中趋势。以下是几种常见的中位数近似计算方法:

  1. 中位数的估计值可以通过对数据进行排序,然后选择排序后的中间值来获得。如果数据量很大,这种方法可能会变得非常耗时。

  2. 中位数的估计值也可以通过使用分位数来计算。例如,可以使用四分位数来估计中位数。四分位数将数据分为四个等分,其中第二个等分即为中位数的估计值。

  3. 另一种方法是使用插值法来估计中位数。插值法基于数据的分布情况,通过在数据点之间进行插值来估计中位数的位置。

  4. 还可以使用统计模型来估计中位数。例如,可以使用线性回归模型或非参数模型来拟合数据,并从模型中获取中位数的估计值。

关于平衡准确性与复杂性的启发式策略,一种常见的方法是使用加权中位数。加权中位数考虑了数据点的权重,使得在计算中位数时更加平衡准确性和复杂性。通过调整权重,可以根据具体情况来平衡准确性和复杂性的需求。

数据点的范数:是用来衡量数据点的大小或者长度的一种数学概念。在向量空间中,数据点可以表示为一个向量,而范数就是对这个向量进行度量的方法。

常见的范数有多种,包括0范数、1范数、2范数等。不同的范数有不同的定义和计算方式。

  • 0范数:表示向量中非零元素的个数。即向量中非零元素的个数。

  • 1范数:表示向量中各个元素绝对值之和。即向量中各个元素绝对值之和。

  • 2范数:表示向量的欧几里德长度。即向量各个元素的平方和的平方根。

标签:chapter,中位数,概念,位数,众数,数据挖掘,范数,数据,属性
From: https://www.cnblogs.com/AKsnoopy/p/17997736

相关文章

  • 上个厕所的时间了解链路追踪基本概念
    大家好,我是蓝胖子,随着微服务的普及,在面对日益复杂的架构和请求链路时,链路追踪技术就显得更加重要,今天我们花5分钟的时间,来掌握和链路追踪相关的基本概念。不会涉及到具体的技术框架和落地,本文主要是对链路追踪中涉及的专业术语做一个简短的介绍。不同链路追踪的SDK可能对相关的......
  • CSAPP学习笔记——chapter8 异常控制流
    CSAPP学习笔记——chapter8异常控制流简介异常控制流(ExceptionalControlFlow,ECF)是在计算机系统中处理不寻常或异常情况的一种机制。它允许系统跳出正常的顺序控制流,响应那些并不直接由程序的控制流逻辑触发的事件。ECF在硬件、操作系统和应用程序层面都有体现,并且是现代计算......
  • 系统科学方法概念
    阅读《系统科学方法概论》第一章后,我深刻体会到了系统科学的跨学科特性和它在解决复杂问题中的重要性。这一章节为我打开了一个全新的视角,让我开始思考如何从整体和相互联系的角度来理解世界。作者在第一章中对系统科学的基本概念进行了阐述,包括系统的定义、分类以及系统科学的历......
  • 【计网笔记】物理层的基本概念
    物理层的基本概念物理层考虑的是怎样才能在连接各种计算机的传输媒体上传输数据比特流,而不是指具体的传输媒体。现有的计算机网络中的硬件设备和传输媒体的种类非常繁多,而通信手段也有许多不同方式。物理层的作用正是要尽可能地屏蔽掉这些传输媒体和通信手段的差异,使物理层上面......
  • 【ElasticSearch】入门-基础概念
    什么是ES?是一个高可用分布式的搜索引擎。可以用于实时存储、检索数据。底层是使用Lucene全文检索框架。基本概念存储结构:由_index_type和_id标识唯一的一个文档_index:指向一个或多个物理分片的逻辑命名空间_type:用于区分同一个集合中的不同的细分(ES6.X中只允许一个i......
  • 综合概念映射与图像识别方法提高学生科学探究课程成绩
    (Anintegratedconceptmappingandimagerecognitionapproachto improvingstudents'scientificinquirycourseperformance) DOI:10.1111/bjet.13177一、摘要研究目的:学者和研究者普遍认为,科学探究是培养学生应用知识和高级思维能力的重要活动。科学探究的过程可以......
  • 【学习笔记】部分树上算法(概念篇)
    本文包括:轻重链剖分(done)线段树合并(done)tobeupd:长链剖分DSUontree(树上启发式合并)点分治边分治LCT有待更新本文非例题代码大多未经过编译,谨慎使用本文本来只有重剖长剖dsu,但是发现不会写,另外几个甚至更简单就带歪了.jpgpart1轻重链剖分树剖是一类算法的总......
  • CSAPP学习笔记——Chapter12 并行编程
    CSAPP学习笔记——Chapter12并行编程并发编程有着其独特的魅力,之前接触cuda编程的时候,感受到一些,没想到书里还有相关的内容。今天我们主要围绕进程,I/O多路复用,线程三种并发的方式,介绍并发编程的相关概念。并最终拓展chapter11讲中的echo服务器,使其能够处理多个客户端的连接请求......
  • 八上数学概念
    八年级上学期数学概念在某个变化过程中有两个变量,设为x和y,如果在变量x的允许取值范围内,变量y随着变量x的变化而变化,它们之间存在确定的依赖关系,那么变量y叫做变量x的函数,x叫做自自变量表达两个变量之间依赖关系的数学式子称为函数解析式如果两个变量的每一组对应值的比值是一......
  • CSAPP学习笔记——Chapter10,11 系统级I/O与网络编程
    CSAPP学习笔记——Chapter10,11系统级I/O与网络编程Chapter10系统级I/O系统级I/O这一章的内容,主要可以通过这张图概括:UnixI/O模型是在操作系统内核中实现的。应用程序可以通过诸如open、close、lseek、read、write和stat这样的函数来访UnixI/O。较高级别的RIO和标......