绪论
1、西瓜书的使用方法
1.通读,速读,细节不懂处略过 (观其大略)
2.阅读其他关于机器学习具体分支的读物(三月,半年)
3.再读,对关键点理解 (提纲挈领)
4.对机器学习多个分支有所了解 (1-3年)
5. 再读,细思; (疏通经络)
2、关于科学,技术,工程,应用的概念
科学:是什么,为什么
技术:怎么做
工程:做得多快好省
应用:字面意思
3、机器学习经典定义:利用经验改善自身的性能(经验指的是数据)
在大数据时代,大数据不等于大价值,要靠智能分析,得到价值,智能分析的过程就是机器学习。
4、机器学习的理论基础:PAC(Probably Approximately Correct, 概率近似正确)
x表示数据,f(x)表示模型学到的假设,f(x) - y 表示误差,取绝对值表示误差,期望其误差越小越好,P表示误差取到无限小的概率值,期望P越大越好。
5、基本术语:
数据集:训练,测试
示例 (instance),样例 (example)
样本 (sample)
未见样本 (unseen instance) :
未知分布:
独立同分布:
泛化 (generalization) : 未见样本体现泛化能力
属性 (attribute),特征 (feature),属性值
属性空间,样本空间,输入空间:表示属性在二维或多维空间上的表示
特征向量
标记空间,输出空间
假设 (hypothesis) :机器学习都基于数据属于独立同分布的假设
真相 (ground-truth)
学习器 (learner)
类别标记 (label)
分类,回归
二分类,多分类
正类,反类
6、归纳偏好(Inductive Bias)
任何一个有限的机器学习算法必有其偏好。一般原则,奥卡姆剃刀(Occam‘s razor),若非必要,勿增实体,选最简单的。但想要知道哪个是简单的,这件事本身就不简单。
学习算法的归纳偏好是否与问题本身匹配,大多数时候决定了算法能否取得好的性能。
7、NFL定理:没有免费的午餐,一个算法a若在某些问题上比另一个b算法好,必存在另一些问题b比a好。
前提:所有问题出现的机会相同,或所有问题同等重要。
实际情况并非如此,我们通常只关注自己正在试图解决的问题,脱离具体问题,空泛地谈论“什么学习算法更好” 毫无意义。
8、机器学习并非“十大套路”,“二十大招数” 简单堆积,现实任务千变万化,以有限的“套路”应对无限的“问题”,焉有不败? 最优方案往往来自:按需设计,度身定制。
9、泛化能力:能很好的适用于 unseen instance, 例如,错误率低,精度高。然而,我们手上没有 unseen instance,只有不断明确问题:你到底想要什么,我给你的是不是你要的?
10、泛化误差:在“未来”样本上的误差
经验误差:在训练集上的误差,亦称“训练误差”
泛化误差越小越好,经验误差越小越好? No,会出现 过拟合 (overfitting)
11、三个问题:
如何获得测试结果?评估方法
如何评估性能优劣?性能度量
如何判断实质差别?比较检验
12、评估方法,关键:怎么获得“测试集”(test set) ?
测试集应该与训练集“互斥”
常见方法:留出法(hold-out), 交叉验证法(cross validation),自助法 (bootstrap)
13、留出法:数据集包括训练集合测试集,
保持数据分布一致性(例如:分层采样);
多次重复划分(例如100次随机划分);
测试集不能太大,不能太小(例如 : 1/5, 1/3)
14、k-折交叉验证法
15、自助法:
16、调参与最终模型:
算法的参数:一般由人工设定,亦称 “超参数”
模型的参数:一般由学习确定
调参过程相似,先产生若干模型,然后基于某种评估方法进行选择;
参数调的好不好对性能有关键影响
17、性能度量:
性能度量(performance measure)是衡量模型泛化能力的评价标准,反应了任务需求使用不同的性能度量往往会导致不同的评判结果
回归任务常用均方误差:
18、错误率,精度:
19、混淆矩阵
20、F1度量:
21、 比较经验:在某种度量下取得评估结果后,是否可以直接比较以评判优劣? No
测试性能不等于泛化性能
测试性能随着测试集的变化而变化
很多机器学习算法本身有一定的随机性
总之:机器学习,概率近似正确。
22、统计假设检验(hypothesis test)为学习器性能提供了重要依据。
两个学习器比较方法:
交叉验证t检验(基于成对t检验),k折交叉验证, 5x2交叉验证
McNemar检验 (基于列联表,卡方检验)
标签:误差,机器,泛化,绪论,模型,学习,算法,性能,评估 From: https://www.cnblogs.com/wangpengcufe/p/16977554.html