一、数据类型和统计
1、数据对象
数据集是由数据对象组成,一个数据对象代表一个实体
数据库里通常每行代表一个数据对象,每列通常代表一个属性
1)常见的四类属性:
A、标称:一种类型的数据状态是可以列举的,比如颜色,婚姻状态等
二进制是特殊的标称数据
二进制类型的分为对称二进制(两种类型规模相当)和不对称二进制(两种类型规模相差比较大)
B、序数:有一个有意义的顺序,但不知道差距大小,比如大小,等级等等
C、区间
通常不存在零点,倍数没有意义
D、比率
具有固定零点,有序且可以计算倍数,如长度等
2、数据统计汇总
1)、中性化趋势度量:均值,中位数,众数
2)、分布趋势度量:方差和标准差,分位数,箱线图(最小值,1/4位数,中位数,3/4位数,最大值)
二、数据可视化
1、箱线图
能分析多个属性数据的分布差异性,能找到离群点
例:鸾尾花数据集
四个特征:花瓣长度,花瓣宽度,花萼长度,花萼宽度
类别:三种类型的花
以上是训练集
首先对四个特征分别画上箱线图,可以非常直观看到四个属性分布的差异性,圆圈表示箱线图里的离群点,即可能是噪音数据
2、直方图
来分析单个属性在各个区间变化分布
再次使用鸾尾花数据集
对四个特征画直方图,可以看出单个属性在各个区间变化的分布
直方图可视化可以发现特征对类别的区分度
例:
花萼宽度在一定程度上可以区分不用类型的花
3、散点图
用来分析两组数据的相关性分布
数据通常有三种相关性:正相关、负相关、不相关
还是鸾尾花数据集
第二个图相关性更强
案例分析:房价预测
预测房价,最基本的idea就是看哪个属性和房价相关
越是强相关,说明该属性对房价预测更有作用
三、数据相似性
1、相似性和相异性
数据矩阵:N个数据,p个维度
相异矩阵:N个数据,记录两点之间的距离
相似性:度量两个数据对象有多相似,值越大越相似,取值0-1
相异性
近邻性:指相似度和相异度
2、标称属性的邻近性度量
标称属性可以取两个或者多个状态
标称类型的属性如何计算相异性:简单匹配d(i,j),即对象i和对象j之间的距离,所谓距离就是指它们的相异性
分子指的是有多少个属性不一样
3、二值属性的邻近性度量
例如:体检数据
数据挖掘中1通常代表阳性
通常先把两个对象的数据形成一个邻接表
q表示两个数据里面阳性有多少个,r表示数据i为1而数据j为0的情况有多少个,s表示数据i为0而数据j为1的情况有多少个,t表示两个数据中都是0的情况有多少个
对称二进制数据按照以上计算,非对称二进制数据会少一个t,因为通常会关注阳性的数据,表示阴性的t会非常大,造成分母太大
4、数值属性的邻近性度量
例:
闵可夫斯基距离进一步细化
上确界距离是每个属性的数据它们差的绝对值的最大值
标签:标称,认识,二进制,对象,数据挖掘,度量,数据,属性 From: https://www.cnblogs.com/jiezstudy/p/16980533.html