首页 > 其他分享 >绪论,模型评估与选择

绪论,模型评估与选择

时间:2022-12-13 01:11:13浏览次数:37  
标签:误差 机器 泛化 绪论 模型 学习 算法 性能 评估

绪论

1、西瓜书的使用方法

1.通读,速读,细节不懂处略过 (观其大略)

2.阅读其他关于机器学习具体分支的读物(三月,半年)

3.再读,对关键点理解  (提纲挈领)

4.对机器学习多个分支有所了解 (1-3年)

5. 再读,细思;  (疏通经络)

 

2、关于科学,技术,工程,应用的概念

科学:是什么,为什么

技术:怎么做

工程:做得多快好省

应用:字面意思

 

3、机器学习经典定义:利用经验改善自身的性能(经验指的是数据)

在大数据时代,大数据不等于大价值,要靠智能分析,得到价值,智能分析的过程就是机器学习。

 

4、机器学习的理论基础:PAC(Probably Approximately Correct, 概率近似正确)

 

 x表示数据,f(x)表示模型学到的假设,f(x) - y 表示误差,取绝对值表示误差,期望其误差越小越好,P表示误差取到无限小的概率值,期望P越大越好。

 

5、基本术语:

数据集:训练,测试

示例 (instance),样例 (example)

样本 (sample)

未见样本 (unseen instance) :

未知分布:

独立同分布:

泛化 (generalization) : 未见样本体现泛化能力

属性 (attribute),特征  (feature),属性值

属性空间,样本空间,输入空间:表示属性在二维或多维空间上的表示

特征向量

标记空间,输出空间

假设 (hypothesis) :机器学习都基于数据属于独立同分布的假设

真相 (ground-truth)

学习器 (learner)

类别标记 (label)

分类,回归

二分类,多分类

正类,反类

 

6、归纳偏好(Inductive Bias)

任何一个有限的机器学习算法必有其偏好。一般原则,奥卡姆剃刀(Occam‘s razor),若非必要,勿增实体,选最简单的。但想要知道哪个是简单的,这件事本身就不简单。

学习算法的归纳偏好是否与问题本身匹配,大多数时候决定了算法能否取得好的性能。

 

7、NFL定理:没有免费的午餐,一个算法a若在某些问题上比另一个b算法好,必存在另一些问题b比a好。

前提:所有问题出现的机会相同,或所有问题同等重要。

实际情况并非如此,我们通常只关注自己正在试图解决的问题,脱离具体问题,空泛地谈论“什么学习算法更好” 毫无意义。

 

8、机器学习并非“十大套路”,“二十大招数” 简单堆积,现实任务千变万化,以有限的“套路”应对无限的“问题”,焉有不败? 最优方案往往来自:按需设计,度身定制。

 

9、泛化能力:能很好的适用于 unseen instance, 例如,错误率低,精度高。然而,我们手上没有 unseen instance,只有不断明确问题:你到底想要什么,我给你的是不是你要的?

 

10、泛化误差:在“未来”样本上的误差

经验误差:在训练集上的误差,亦称“训练误差”

泛化误差越小越好,经验误差越小越好?  No,会出现 过拟合 (overfitting)

 

11、三个问题:

如何获得测试结果?评估方法

如何评估性能优劣?性能度量

如何判断实质差别?比较检验

 

12、评估方法,关键:怎么获得“测试集”(test set) ?

测试集应该与训练集“互斥”

常见方法:留出法(hold-out),  交叉验证法(cross validation),自助法 (bootstrap)

 

13、留出法:数据集包括训练集合测试集,

保持数据分布一致性(例如:分层采样);

多次重复划分(例如100次随机划分);

测试集不能太大,不能太小(例如 : 1/5, 1/3)

 

14、k-折交叉验证法

 

 

 

15、自助法:

 

 

16、调参与最终模型:

算法的参数:一般由人工设定,亦称 “超参数”

模型的参数:一般由学习确定

调参过程相似,先产生若干模型,然后基于某种评估方法进行选择;

参数调的好不好对性能有关键影响

 

17、性能度量:

性能度量(performance measure)是衡量模型泛化能力的评价标准,反应了任务需求使用不同的性能度量往往会导致不同的评判结果

回归任务常用均方误差:

 

 

18、错误率,精度:

 

 19、混淆矩阵

 

 

20、F1度量:

 

 

21、 比较经验:在某种度量下取得评估结果后,是否可以直接比较以评判优劣? No 

测试性能不等于泛化性能

测试性能随着测试集的变化而变化

很多机器学习算法本身有一定的随机性

总之:机器学习,概率近似正确。

 

22、统计假设检验(hypothesis test)为学习器性能提供了重要依据。

两个学习器比较方法:

交叉验证t检验(基于成对t检验),k折交叉验证, 5x2交叉验证

McNemar检验 (基于列联表,卡方检验)

 

标签:误差,机器,泛化,绪论,模型,学习,算法,性能,评估
From: https://www.cnblogs.com/wangpengcufe/p/16977554.html

相关文章