属性
离散/连续
离散属性:具有有限或无限可数个值,不一定为整数。属性hair_color、smoker、medical_test和drink_size都有有限个值,因此是离散的。
离散属性可以具有数值。如对于二元属性取 0 和 1 ,对于年龄属性取 0 到 110 。如果一个属性可能的值集合是无限的,但是可以建立一个与自然数的一一对应,则这个属性是无限可数的。例如,属性customer_ID是无限可数的。顾客数量是无限增长的,但事实上实际的值集合是可数的。
定性/定量
定量属性:指以数量形式存在着的属性,因此可以对其进行测量。测量的结果用一个具体的量(称其为单位)和一个数的乘积来表示。以物理量为例,距离、质量、时间等都是定量属性。
定性是指通过非量化的手段来探究事物的本质。其概念与定量相对应。定性的手段可以包括观测、实验和分析等,以此来考察研究对象是否具有这种或那种属性或特征以及它们之间是否有关系。
二元属性:对称/非对称
对称属性:如果它的两个状态有相同的权重, 那么该二元变量是对称的,也就是两个取值 0 或 1 ,没有优先权。例如,属性“性别”就是这样的一个例子,它有两个值:“女性”和“男性”。
非对称属性:如果两个状态的输出不是同样重要,那么该二元变量是不对称的。例如一个疾病检查的肯定和否定的结果。根据惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为 1(例如,HIV阳性),而将另一种结果编码为 0(例如 HIV 阴性)。给定两个不对称的二元变量,两个都取值 1 的情况(正匹配)被认为比两个都取值 0 的情况(负匹配)更有意义。
属性的类型
- 标称:标称值只提供足够的信息以区别对象。例如,性别。
- 序数:序数值提供足够的信息确定对象的序。例如,矿石硬度[好、较好、最好]。
- 区间:值之间的差是有意义的。例如,日历等。
- 比率:值之间的差和比率都有意义。例如,货币量、年龄、质量等。
变换
属性类型 | 变换 |
---|---|
标称 | 任何一对一的变换 |
序列 | 值的保序变换,即新值=f(旧值),其中是单调函数 |
区间 | 新值=a×旧值+b,其中a、b是常数 |
比率 | 新值=a×旧值 |
数据集的类型
记录矩阵
- 记录数据
- 数据矩阵
- 稀疏数据矩阵
- 事务数据矩阵
基于图形的数据
带有对象之间联系的数据,如万维网。
具有图形对象的数据,如蛋白质分子数据。
有序数据
空间数据、时序数据、序列数据、时间序列数据。
Transformer
<iframe allowfullscreen="true" border="0" frameborder="no" framespacing="0" scrolling="no" src="//player.bilibili.com/player.html?aid=1052892976&bvid=BV1XH4y1T76e&cid=1500217695&p=1&Autoplay=0"> </iframe>原理:相同语义的词,上下文关系类似。eg:香蕉