诸论及模型评估与选择
基本术语
数据集(data set)
实例(instance)、样本(sample):每条记录是关于一个事件或者要给对象的描述
属性(attribute)、特征(feature):反映事件或对象在某方面的表现或性质的事项
属性值(attribute value):属性上的取值
属性空间(attribute space)、样本空间(sample space)、输入空间:以样本的属性为坐标轴张成的多维空间
特征向量(feature vector)):属性空间内每个点对应的一个坐标向量
从数据中学得模型的过程称为"学习" (learning) 或"训练" (training)
样例(example):拥有了标记信息的示例
分类:欲预测的是离散值
回归:欲预测的是连续值
二分类任务:正类 负类
聚类:物以类聚,人以群分
监督学习:分类和回归
无监督学习:聚类(训练机器使用既未分类也未标记的数据的方法)
泛化:模型适用于新样本的能力
演绎:从基础原理推演 出具体状况
归纳:从具体的事实归结出一般性规律
假设空间:可以生成的所有函数的集合
机械学习(死记硬背式学习):把外界输入的信息全部记录下来,在需要时原封不动地取出来使用
归纳学习(从样例中学习):从训练样例中归纳出学习结果
模型评估与选择
经验误差与过拟合
过拟合:巳经把训练样本自身的一些特点当作了所有潜在样本都 会具有的一般性质,这样就会导致泛化性能下
欠拟合:指对训练样本的一般性质尚未学好
模型选择:对候选模型的泛化误差进行评估 然后选择泛化误差最小的那个模型
评估方法
留出法
直接将数据集发分为两个互斥的集合,其中一个做训练集,一个做测试集
⚠️ 训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响
⚠️因为原始数据集存在多种分割划分方式,所以不同的划分将导致模型评估的结果也会有误差,单次使用留出法得到的估计结果往往不够稳定可靠
标签:frac,macro,模型,TP,times,诸论,micro,评估 From: https://www.cnblogs.com/hywasd/p/17058783.html