Chapter1 绪论
文章目录
1.1 简介
-
机器学习定义:
A computer program is said to learn from experience E with respect to some class of tasks T and performance P, if it’s performance at tasks in T, as measured by P, improves with experience E.
一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。
“我认为经验E就是程序上万次的自我练习的经验,而任务T就是下棋,性能度量值P就是它在与一些新对手比赛时的获胜的概率。”
-
人工智能是一门学科:
人工智能 A I { 机器学习 M L { 神经网络 N N { 深度学习 D L . . . . . . . . . 人工智能AI \left\{ \begin{matrix} 机器学习ML \left\{ \begin{matrix} 神经网络NN \left\{ \begin{matrix} 深度学习DL \\... \end{matrix} \right. \\... \end{matrix} \right. \\ ... \end{matrix} \right. 人工智能AI⎩ ⎨ ⎧机器学习ML⎩ ⎨ ⎧神经网络NN{深度学习DL......... -
怎么实现机器学习:
数据集 ⟶ 方法 训练 ⟶ 预测 数据集 \stackrel{方法}{\longrightarrow} 训练 \longrightarrow 预测 数据集⟶方法训练⟶预测 -
机器学习四大方向:
机器学习 { Classical learning { Supervised Unsupervised Reinforcement learning Neural nets and Deep learning Ensemble methods 机器学习 \left\{ \begin{array}{l} \text{Classical learning} \left\{ \begin{array}{l} \text{Supervised} \\ \text{Unsupervised} \end{array} \right. \\ \text{Reinforcement learning} \\ \text{Neural nets and Deep learning} \\ \text{Ensemble methods} \end{array} \right. 机器学习⎩ ⎨ ⎧Classical learning{SupervisedUnsupervisedReinforcement learningNeural nets and Deep learningEnsemble methods
四大方向,百花齐放,一家独大,算力为先。
1.2 常用算法 & 实际应用
-
机器学习十大算法
-
基本术语:
- 数据:训练集、测试集、特征、标签
- 任务:预测目标 { 回归:连续 分类:离散 聚类:无标记 \begin{cases} \text{回归:连续} \\ \text{分类:离散} \\ \text{聚类:无标记} \end{cases} ⎩ ⎨ ⎧回归:连续分类:离散聚类:无标记 、 有无标记 { 监督 无监督 半监督 \begin{cases} \text{监督} \\ \text{无监督} \\ \text{半监督} \end{cases} ⎩ ⎨ ⎧监督无监督半监督
- 泛化能力:独立同分布 i.i.d
-
机器学习方法分类
机器学习 { 监督 { 分类Classification { 朴素贝叶斯 决策树 ∗ 支持向量机 Logistic回归 K近邻 回归Regression { 线性回归 多项式回归 逻辑回归 无监督 { 聚类Clustering { K均值聚类 Mean-Shift DBSCAN 降维Dimension Reduction { 主成分分析 奇异值分解 狄里克雷特分解 潜在语义分析 并联规则学习Association Rule Learning { Apriori Euelat FP-growth 弱监督:人脸识别,但圈出整个人 半监督: 1000 个数据, 100 个有标签 机器学习 \begin{cases} 监督 \begin{cases} \text{分类Classification} \begin{cases} 朴素贝叶斯 \\ 决策树 \\ \textcolor{red}{*支持向量机} \\ \text{Logistic回归} \\ \text{K近邻} \end{cases} \\ \text{回归Regression} \begin{cases} 线性回归 \\ 多项式回归 \\ 逻辑回归 \end{cases} \end{cases} \\无监督 \begin{cases} \text{聚类Clustering} \begin{cases} \text{K均值聚类} \\ \text{Mean-Shift} \\ \text{DBSCAN} \end{cases} \\ \text{降维Dimension Reduction} \begin{cases} 主成分分析 \\ 奇异值分解 \\ 狄里克雷特分解 \\ 潜在语义分析 \end{cases} \\ \text{并联规则学习Association Rule Learning} \begin{cases} \text{Apriori} \\ \text{Euelat} \\ \text{FP-growth} \end{cases} \end{cases} \\弱监督:人脸识别,但圈出整个人 \\半监督:1000个数据,100个有标签 \end{cases} 机器学习⎩ ⎨ ⎧监督⎩ ⎨ ⎧分类Classification⎩ ⎨ ⎧朴素贝叶斯决策树∗支持向量机Logistic回归K近邻回归Regression⎩ ⎨ ⎧线性回归多项式回归逻辑回归无监督⎩ ⎨ ⎧聚类Clustering⎩ ⎨ ⎧K均值聚类Mean-ShiftDBSCAN降维Dimension Reduction⎩ ⎨ ⎧主成分分析奇异值分解狄里克雷特分解潜在语义分析并联规则学习Association Rule Learning⎩ ⎨ ⎧AprioriEuelatFP-growth弱监督:人脸识别,但圈出整个人半监督:1000个数据,100个有标签
1.3 历史与应用
- 机器学习简要发展历史回顾
- 推理期:1950s~1970s初
- 知识期:1970s中
- 学科形成:1980s
- 繁荣期:1980s~至今
- 应用驱动:基础性、透明化的“支持技术、服务技术”
1.4 模型评估与选择
-
经验误差与过拟合
- 误差:
- 训练误差(经验误差):学习器在训练集上的误差
- 泛化误差:学习器在新样本上的误差
- 过拟合与欠拟合
- 过拟合:优化目标加正则项,early stop
- 欠拟合:拓展分支,增加训练轮数
- 误差:
-
评估方法
- 留出法:直接将数据集分为两个互斥的集合,其中一个作为训练集,另一个作为测试集
- 交叉验证法:分为 k 个互斥集合,保留一个作为测试集,训练 k 次
- 10折交叉验证
- 10次10折交叉验证
- 自助法:有放回采样 m 次作为训练集,约有
35.8
%
35.8\%
35.8% 未被采样到的样本作为测试集
- 包外估计
-
调参与最终模型
-
性能度量
-
回归任务 - 均方误差
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m}\sum^{m}_{i=1}(f(x_i)-y_i)^2 E(f;D)=m1i=1∑m(f(xi)−yi)2 -
分类任务 - 错误率与精度
-
错误率
E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum^{m}_{i=1}\mathbb{I}(f(x_i)\neq y_i) E(f;D)=m1i=1∑mI(f(xi)=yi) -
精度
a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D ) acc(f;D) = \frac{1}{m} \sum^{m}_{i=1} \mathbb{I}(f(x_i)=y_i) = 1 - E(f;D) acc(f;D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D)
-
-
分类任务 - 查准率、查全率与 F1
-
分类结果混淆矩阵
真实情况\预测结果 正例 反例 正例 TP 真正例 FN 假反例 反例 FP 假正例 TN 真反例 -
查准率 P
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP -
查全率 R
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP -
P-R 曲线(查准率-查全率曲线),平衡点(查准率=查全率)
-
F1 度量
F 1 = 2 × P × R P + R = 2 × T P 样例总数 + T P − T N F1=\frac{2 \times P \times R}{P+R}=\frac{2 \times TP}{样例总数+TP-TN} F1=P+R2×P×R=样例总数+TP−TN2×TP -
F1 度量的一般形式 - F β F_\beta Fβ
F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_\beta = \frac{(1+\beta^2) \times P \times R}{(\beta^2 \times P) + R} Fβ=(β2×P)+R(1+β2)×P×R
-
-
ROC 与 AUC
-
ROC - 受试者工作特征
-
ROC曲线:纵轴 - 真正例率 TPR,横轴 - 假正例率 FPR
T P R = T P T P + F N F P R = F P T N + F P TPR = \frac{TP}{TP+FN} \\ FPR = \frac{FP}{TN+FP} TPR=TP+FNTPFPR=TN+FPFP -
AUC - ROC 曲线下的面积
-
-
代价敏感错误率与代价曲线
-
二分类代价矩阵
真实类别\预测类别 第 0 类 第 1 类 第 0 类 0 c o s t 01 cost_{01} cost01 第 1 类 c o s t 10 cost_{10} cost10 0 -
代价敏感错误率
E ( f ; D ; c o s t ) = 1 m ( ∑ x i ∈ D + I ( f ( x i ) ≠ y i ) × c o s t 01 + ∑ x i ∈ D − I ( f ( x i ) ≠ y i ) × c o s t 10 ) E(f;D;cost) = \frac{1}{m} \left( \sum_{x_i \in D^+} \mathbb{I} (f(x_i) \neq y_i) \times cost_{01} +\sum_{x_i \in D^-} \mathbb{I} (f(x_i) \neq y_i) \times cost_{10} \right) E(f;D;cost)=m1(xi∈D+∑I(f(xi)=yi)×cost01+xi∈D−∑I(f(xi)=yi)×cost10)
-
-
-
比较检验
- 假设检验
- 二项检验
- t 检验
- 交叉验证 t 检验
- McNemar 检验
- Friedman 检验与 Nemenyi 后续检验
- 假设检验
-
偏差与方差
- 泛化误差可分解为偏差、方差与噪声之和
- 一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境
\mathbb{I} (f(x_i) \neq y_i) \times cost_{10}
\right)
$$
-
比较检验
- 假设检验
- 二项检验
- t 检验
- 交叉验证 t 检验
- McNemar 检验
- Friedman 检验与 Nemenyi 后续检验
- 假设检验
-
偏差与方差
- 泛化误差可分解为偏差、方差与噪声之和
- 一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境