机器学习基本术语
主要的基本术语
数据集、样本、样本空间、属性、属性空间、特征向量、维数、训练样本、训练集、标记空间、测试样本、有监督学习、无监督学习、泛化能力。
数据集
记录了一系列关于某个事物或对象的特征描述。
例如:西瓜的一个数据集
色泽 | 根蒂 | 敲声 | 瓜的好坏(label) |
---|---|---|---|
青绿 | 乌黑 | 清脆 | 好瓜 |
... | ... | ... | ... |
以上的多条数据组成了一个数据集
样本
数据集中的任意一条记录都是一个样本,众多样本共同组成了数据集。
样本空间即多个样本组成的集合。
属性
属性即样本的某一属性(也称为特征),例如西瓜的色泽是西瓜的一个属性。
属性空间
属性空间即机器学习研究的事物的多个属性共同组成的一个集合。也称为样本空间/输入空间。
特征向量
上述西瓜的数据集中,可知有三个属性值:色泽、根蒂、敲声。
将其作为数据分别输入到x,y,z轴用于描述西瓜。可以知道每个西瓜都能在这个空间之中找到唯一的坐标向量。因此一个实例也可以成为特征向量。
维数
属性的数目
训练样本
从数据集中提取一部分样本用于模型的训练,每一个参与模型训练的样本都称为训练样本,众多训练样本共同组成了训练集。
标记
在模型的训练之中,我们需要获得样本的结果信息。例如西瓜的例子中对于瓜好坏的判断即是标记
标记空间
所有标记的集合即标记空间
测试样本
即用于测试训练过后的模型拟合优劣程度的样本。
众多测试样本共同组成了测试集。
有监督学习/无监督学习
根据训练数据是否有标记信息可将学习任务分为有监督学习和无监督学习。
有监督学习有标记信息,如分类、回归等;
无监督学习没有标记信息,如聚类。
泛化能力
即经历过训练后的模型对于新数据的适用程度。具有强泛化能力的模型能够较好的适用于整个样本空间。
标签:术语,西瓜,机器,标记,样本,学习,数据,属性 From: https://www.cnblogs.com/shineyun/p/17055190.html