数据挖掘：认识数据

标签：标称认识二进制对象数据挖掘度量数据属性

一、数据类型和统计

1、数据对象

数据集是由数据对象组成，一个数据对象代表一个实体

数据库里通常每行代表一个数据对象，每列通常代表一个属性

1）常见的四类属性：

A、标称：一种类型的数据状态是可以列举的，比如颜色，婚姻状态等

二进制是特殊的标称数据

二进制类型的分为对称二进制（两种类型规模相当）和不对称二进制（两种类型规模相差比较大）

B、序数：有一个有意义的顺序，但不知道差距大小，比如大小，等级等等

C、区间

通常不存在零点，倍数没有意义

D、比率

具有固定零点，有序且可以计算倍数，如长度等

2、数据统计汇总

1）、中性化趋势度量：均值，中位数，众数

2）、分布趋势度量：方差和标准差，分位数，箱线图（最小值，1/4位数，中位数，3/4位数，最大值）

二、数据可视化

1、箱线图

能分析多个属性数据的分布差异性，能找到离群点

例：鸾尾花数据集

四个特征：花瓣长度，花瓣宽度，花萼长度，花萼宽度

类别：三种类型的花

以上是训练集

首先对四个特征分别画上箱线图，可以非常直观看到四个属性分布的差异性，圆圈表示箱线图里的离群点，即可能是噪音数据

2、直方图

来分析单个属性在各个区间变化分布

再次使用鸾尾花数据集

对四个特征画直方图，可以看出单个属性在各个区间变化的分布

直方图可视化可以发现特征对类别的区分度

例：

花萼宽度在一定程度上可以区分不用类型的花

3、散点图

用来分析两组数据的相关性分布

数据通常有三种相关性：正相关、负相关、不相关

还是鸾尾花数据集

第二个图相关性更强

案例分析：房价预测

预测房价，最基本的idea就是看哪个属性和房价相关

越是强相关，说明该属性对房价预测更有作用

三、数据相似性

1、相似性和相异性

数据矩阵：N个数据，p个维度

相异矩阵：N个数据，记录两点之间的距离

相似性：度量两个数据对象有多相似，值越大越相似，取值0-1

相异性

近邻性：指相似度和相异度

2、标称属性的邻近性度量

标称属性可以取两个或者多个状态

标称类型的属性如何计算相异性：简单匹配d(i,j)，即对象i和对象j之间的距离，所谓距离就是指它们的相异性

分子指的是有多少个属性不一样

3、二值属性的邻近性度量

例如：体检数据

数据挖掘中1通常代表阳性

通常先把两个对象的数据形成一个邻接表

q表示两个数据里面阳性有多少个，r表示数据i为1而数据j为0的情况有多少个，s表示数据i为0而数据j为1的情况有多少个，t表示两个数据中都是0的情况有多少个

对称二进制数据按照以上计算，非对称二进制数据会少一个t，因为通常会关注阳性的数据，表示阴性的t会非常大，造成分母太大

4、数值属性的邻近性度量

例：

闵可夫斯基距离进一步细化

上确界距离是每个属性的数据它们差的绝对值的最大值

标签：标称,认识,二进制,对象,数据挖掘,度量,数据,属性
From： https://www.cnblogs.com/jiezstudy/p/16980533.html

相关文章

赞助商

阅读排行