第一章绪论

1.1 引言

在计算机系统中，“经验”通常以"数据"形式存在。书中采用"模型"泛指从数据中学得的结果。

1.2 基本术语

记录的集合称为一个 "数据集"，每条记录是关于一个事件或对象的描述，称为一个 "示例"(instance) 或 "样本"(samp1e)。（注意：有时候整个数据集也被称为一个”样本“，因为它可以看作对样本空间的一个采样，故需要通过上下文判断”样本“为单个示例还是整个数据集。）
反映事件或对象在某方面的表现或性质的事项，称为 "属性值"(attribute va1ue)。由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个 "特征向量" (feature vector)。
一般地，令D={x1,x2,...,xm}表示包含m个示例的数据集，每个示例由d个属性描述，每个示例 Xi = (Xi1; Xi2; . . . ; Xid) 是d维样本空间χ中的一个向量，Xi∈χ，其中Xij是Xi在第i个属性上的取值, d称为样本Xi的 "维数"。
从数据中学得模型的过程称为 "学习"或 "训练", 这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为"训练数据"，其中每个样本称为一个“训练样本", 训练样本组成的集合称为"训练集"。
学得模型对应了关于数据的某种潜在的规律，因此亦称"假设" ，这种潜在规律自身，则称为 "真相" 或 "真实" ，学习过程就是为了找出或逼近真相.
关于示例结果的信息，称为 "标记" ; 拥有了标记信息的示例，则称为 "样例" 。一般地，用 (Xi，Yi) 表示第i个样例，其中Yi∈γ是示例 Xi 的标记，γ是所有标记的集合，亦称 "标记空间" 或 "输出空间”。

分类：若预测的是离散值，例如“1”“0”，此类学习任务称为分类(classification)。
回归：若预测的是连续值，则该学习任务称为回归(regression)。输出空间为实数集。
分类中又可分为二分类与多分类任务。二分类顾名思义，只需分2类，一般分别称为“正类”与“反类”（也可以称“负类”），且一般正类用“1”表示，反类用“0”或“-1”表示。多分类，输出空间绝对值大于2。

学得模型后，用其进行预测的过程称为测试(test)，被预测的样本称为测试样本(test sample)。
此时引入聚类(clustering)概念，即将训练集中样本分为若干组，每一组称为一 “簇”(cluster)。

监督学习：训练数据有标记信息的学习过程。亦称：有导师学习。
无监督学习：训练数据没有标记信息的学习过程。亦称：无导师学习。
注意：分类和回归属于典型的监督学习问题，而聚类属于无监督学习问题。

分类与聚类的区别，如下：

分类是训练数据已有人为标记信息，计算机通过学习这些训练数据，将未出现在训练样本中的陌生的数据分到已有的类别中的过程。

聚类是训练数据没有任何标记信息，计算机需要自行寻找特征，将这些数据分为几个簇，然后将陌生的数据分到计算机自己划分的几个簇中的过程。

泛化：机器学习所学得模型适用于陌生数据的能力。一般情况下，训练样本越多，我们得到的关于该分布的信息就越多，这样就越有可能找到这个函数，也就越有可能通过学习获得具有强泛化能力的模型。

1.3 假设空间

归纳与演绎是科学推理的两大基本手段，前者是从特殊到一般的“泛化”过程，即从具体的事实归结出一般性规律；后者则是从一般到特殊的“特化”，即从基础原理推导出具体状况。例如，在数学公理系统中，基于一组公理和推理规则推导出与之相洽的定理，这是演绎; 而"从样例中学习"显然是一个归纳的过程，因此亦称 "归纳学习" 。
学习过程可以看作是一个在所有假设组成的空间中进行搜索的过程，目的是找到与训练集匹配的假设。而现实中，可能会有多个假设与训练集一致，即存在一个与训练集一致的“假设集合”，称之为“版本空间”。

1.4 归纳偏好

机器学习算法在学习过程中对某种假设类型的偏好，称为归纳偏好。
注意：任何一个机器学习算法都必有其归纳偏好，否则将无法产生确定的学习结果。
一个神奇的结论：对于算法A来说，若其在某些方面比算法B好，那么必然存在一些方面B比A好。这个结论对任何算法均成立，无一例外！

“没有免费的午餐”定理(No Free Lunch Theorem, NFL)：无论学习算法A多么聪明，学习算法B多么笨拙，它们的期望性能完全一样（总误差与学习算法无关）。
但是需要注意，NFL定理的前提是所有问题出现的机会相同或者所有问题同等重要，但是实际情形并不是这样。NFL定理最重要的寓意是让我们意识到：脱离具体问题，空泛的谈论哪一个算法更好毫无意义！

标签：训练,示例,称为,笔记,第一章,学习,算法,数据
From： https://www.cnblogs.com/msn-y-blog/p/18450771

机器学习第一章学习笔记

第一章绪论

1.1 引言

1.2 基本术语

1.3 假设空间

1.4 归纳偏好

相关文章

赞助商

阅读排行

机器学习第一章学习笔记

第一章 绪论

1.1 引言

1.2 基本术语

1.3 假设空间

1.4 归纳偏好

相关文章

赞助商

阅读排行

第一章绪论