首页 > 其他分享 >数据挖掘:认识数据

数据挖掘:认识数据

时间:2022-12-13 20:35:48浏览次数:29  
标签:标称 认识 二进制 对象 数据挖掘 度量 数据 属性

一、数据类型和统计

1、数据对象

数据集是由数据对象组成,一个数据对象代表一个实体

数据库里通常每行代表一个数据对象,每列通常代表一个属性

1)常见的四类属性:

A、标称:一种类型的数据状态是可以列举的,比如颜色,婚姻状态等

二进制是特殊的标称数据

二进制类型的分为对称二进制(两种类型规模相当)和不对称二进制(两种类型规模相差比较大)

B、序数:有一个有意义的顺序,但不知道差距大小,比如大小,等级等等

C、区间

通常不存在零点,倍数没有意义

D、比率

具有固定零点,有序且可以计算倍数,如长度等

2、数据统计汇总

1)、中性化趋势度量:均值,中位数,众数

2)、分布趋势度量:方差和标准差,分位数,箱线图(最小值,1/4位数,中位数,3/4位数,最大值)

二、数据可视化

1、箱线图

能分析多个属性数据的分布差异性,能找到离群点

例:鸾尾花数据集

 

 四个特征:花瓣长度,花瓣宽度,花萼长度,花萼宽度

类别:三种类型的花

以上是训练集

 

首先对四个特征分别画上箱线图,可以非常直观看到四个属性分布的差异性,圆圈表示箱线图里的离群点,即可能是噪音数据

2、直方图

来分析单个属性在各个区间变化分布

再次使用鸾尾花数据集

 

对四个特征画直方图,可以看出单个属性在各个区间变化的分布

直方图可视化可以发现特征对类别的区分度

例:

花萼宽度在一定程度上可以区分不用类型的花

3、散点图

用来分析两组数据的相关性分布

数据通常有三种相关性:正相关、负相关、不相关

还是鸾尾花数据集

 

 

 第二个图相关性更强

案例分析:房价预测

预测房价,最基本的idea就是看哪个属性和房价相关

 

 越是强相关,说明该属性对房价预测更有作用

三、数据相似性

1、相似性和相异性

数据矩阵:N个数据,p个维度

相异矩阵:N个数据,记录两点之间的距离

相似性:度量两个数据对象有多相似,值越大越相似,取值0-1

相异性

近邻性:指相似度和相异度

2、标称属性的邻近性度量

标称属性可以取两个或者多个状态

标称类型的属性如何计算相异性:简单匹配d(i,j),即对象i和对象j之间的距离,所谓距离就是指它们的相异性

 

 分子指的是有多少个属性不一样

3、二值属性的邻近性度量

例如:体检数据

 

数据挖掘中1通常代表阳性

通常先把两个对象的数据形成一个邻接表

 

 

q表示两个数据里面阳性有多少个,r表示数据i为1而数据j为0的情况有多少个,s表示数据i为0而数据j为1的情况有多少个,t表示两个数据中都是0的情况有多少个

对称二进制数据按照以上计算,非对称二进制数据会少一个t,因为通常会关注阳性的数据,表示阴性的t会非常大,造成分母太大

4、数值属性的邻近性度量

例:

 

 

闵可夫斯基距离进一步细化

 

 上确界距离是每个属性的数据它们差的绝对值的最大值

 

 

 

标签:标称,认识,二进制,对象,数据挖掘,度量,数据,属性
From: https://www.cnblogs.com/jiezstudy/p/16980533.html

相关文章