首页 > 其他分享 >诸论与模型评估与选择

诸论与模型评估与选择

时间:2023-01-17 22:13:10浏览次数:38  
标签:frac macro 模型 TP times 诸论 micro 评估

诸论及模型评估与选择

基本术语

数据集(data set)

实例(instance)、样本(sample):每条记录是关于一个事件或者要给对象的描述

属性(attribute)、特征(feature):反映事件或对象在某方面的表现或性质的事项

属性值(attribute value):属性上的取值

属性空间(attribute space)、样本空间(sample space)、输入空间:以样本的属性为坐标轴张成的多维空间

特征向量(feature vector)):属性空间内每个点对应的一个坐标向量

从数据中学得模型的过程称为"学习" (learning) 或"训练" (training)

样例(example):拥有了标记信息的示例

分类:欲预测的是离散值

回归:欲预测的是连续值

二分类任务:正类 负类

聚类:物以类聚,人以群分

监督学习:分类和回归

无监督学习:聚类(训练机器使用既未分类也未标记的数据的方法)

泛化:模型适用于新样本的能力

演绎:从基础原理推演 出具体状况

归纳:从具体的事实归结出一般性规律

假设空间:可以生成的所有函数的集合

机械学习(死记硬背式学习):把外界输入的信息全部记录下来,在需要时原封不动地取出来使用

归纳学习(从样例中学习):从训练样例中归纳出学习结果

模型评估与选择

经验误差与过拟合

过拟合:巳经把训练样本自身的一些特点当作了所有潜在样本都 会具有的一般性质,这样就会导致泛化性能下

欠拟合:指对训练样本的一般性质尚未学好

模型选择:对候选模型的泛化误差进行评估 然后选择泛化误差最小的那个模型

评估方法

留出法

直接将数据集发分为两个互斥的集合,其中一个做训练集,一个做测试集

⚠️ 训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响

⚠️因为原始数据集存在多种分割划分方式,所以不同的划分将导致模型评估的结果也会有误差,单次使用留出法得到的估计结果往往不够稳定可靠

标签:frac,macro,模型,TP,times,诸论,micro,评估
From: https://www.cnblogs.com/hywasd/p/17058783.html

相关文章