第一章 绪论
1.1 引言
在计算机系统中,“经验”通常以"数据"形式存在。书中采用"模型"泛指从数据中学得的结果。
1.2 基本术语
记录的集合称为一个 "数据集",每条记录是关于一个事件或对象的描述,称为一个 "示例"(instance) 或 "样本"(samp1e)。(注意:有时候整个数据集也被称为一个”样本“,因为它可以看作对样本空间的一个采样,故需要通过上下文判断”样本“为单个示例还是整个数据集。)
反映事件或对象在某方面的表现或性质的事项,称为 "属性值"(attribute va1ue)。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个 "特征向量" (feature vector)。
一般地,令D={x1,x2,...,xm}表示包含m个示例的数据集,每个示例由d个属性描述,每个示例 Xi = (Xi1; Xi2; . . . ; Xid) 是d维样本空间χ中的一个向量,Xi∈χ,其中Xij是Xi在第i个属性上的取值, d称为样本Xi的 "维数"。
从数据中学得模型的过程称为 "学习"或 "训练", 这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为"训练数据",其中每个样本称为一个“训练样本", 训练样本组成的集合称为"训练集"。
学得模型对应了关于数据 的某种潜在的规律,因此亦称"假设" , 这种潜在规律自身,则称为 "真相" 或 "真实" ,学习过程就是为了找出或逼近真相.
关于示例结果的信息,称为 "标记" ; 拥有了标记信息的示例,则称为 "样例" 。 一般地,用 (Xi,Yi) 表示第i个样例,其中Yi∈γ是示例 Xi 的标记,γ是所有标记的集合, 亦称 "标记空间" 或 "输出空间”。
分类:若预测的是离散值,例如“1”“0”,此类学习任务称为分类(classification)。
回归:若预测的是连续值,则该学习任务称为回归(regression)。输出空间为实数集。
分类中又可分为二分类与多分类任务。二分类顾名思义,只需分2类,一般分别称为“正类”与“反类”(也可以称“负类”),且一般正类用“1”表示,反类用“0”或“-1”表示。多分类,输出空间绝对值大于2。
学得模型后,用其进行预测的过程称为测试(test),被预测的样本称为测试样本(test sample)。
此时引入聚类(clustering)概念,即将训练集中样本分为若干组,每一组称为一 “簇”(cluster)。
监督学习:训练数据有标记信息的学习过程。亦称:有导师学习。
无监督学习:训练数据没有标记信息的学习过程。亦称:无导师学习。
注意:分类和回归属于典型的监督学习问题,而聚类属于无监督学习问题。
分类与聚类的区别,如下:
- 分类是训练数据已有人为标记信息,计算机通过学习这些训练数据,将未出现在训练样本中的陌生的数据分到已有的类别中的过程。
- 聚类是训练数据没有任何标记信息,计算机需要自行寻找特征,将这些数据分为几个簇,然后将陌生的数据分到计算机自己划分的几个簇中的过程。
泛化:机器学习所学得模型适用于陌生数据的能力。一般情况下,训练样本越多,我们得到的关于该分布的信息就越多,这样就越有可能找到这个函数,也就越有可能通过学习获得具有强泛化能力的模型。
1.3 假设空间
归纳与演绎是科学推理的两大基本手段, 前者是从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的“特化”,即从基础原理推导出具体状况。例如,在数学公理系统中,基于一组公理和推理规则推导出与之 相洽的定理,这是演绎; 而"从样例中学习"显然是一个归纳的过程,因此亦称 "归纳学习" 。
学习过程可以看作是一个在所有假设组成的空间中进行搜索的过程,目的是找到与训练集匹配的假设。而现实中,可能会有多个假设与训练集一致,即存在一个与训练集一致的“假设集合”,称之为“版本空间”。
1.4 归纳偏好
机器学习算法在学习过程中对某种假设类型的偏好,称为归纳偏好。
注意:任何一个机器学习算法都必有其归纳偏好,否则将无法产生确定的学习结果。
一个神奇的结论:对于算法A来说,若其在某些方面比算法B好,那么必然存在一些方面B比A好。这个结论对任何算法均成立,无一例外!
“没有免费的午餐”定理(No Free Lunch Theorem, NFL):无论学习算法A多么聪明,学习算法B多么笨拙,它们的期望性能完全一样(总误差与学习算法无关)。
但是需要注意,NFL定理的前提是所有问题出现的机会相同或者所有问题同等重要,但是实际情形并不是这样。NFL定理最重要的寓意是让我们意识到:脱离具体问题,空泛的谈论哪一个算法更好毫无意义!