机器学习 Chapter1 绪论

标签：begin 机器绪论 text Chapter1 TP 监督 end cases

Chapter1 绪论

文章目录

Chapter1 绪论

1.1 简介

机器学习定义：

A computer program is said to learn from experience E with respect to some class of tasks T and performance P, if it’s performance at tasks in T, as measured by P, improves with experience E.

一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，当且仅当，有了经验E后，经过P评判，程序在处理T时的性能有所提升。

“我认为经验E就是程序上万次的自我练习的经验，而任务T就是下棋，性能度量值P就是它在与一些新对手比赛时的获胜的概率。”
人工智能是一门学科：
人工智能 A I { 机器学习 M L { 神经网络 N N { 深度学习 D L . . . . . . . . . 人工智能AI \left\{ \begin{matrix} 机器学习ML \left\{ \begin{matrix} 神经网络NN \left\{ \begin{matrix} 深度学习DL \\... \end{matrix} \right. \\... \end{matrix} \right. \\ ... \end{matrix} \right. 人工智能AI⎩ ⎨ ⎧机器学习ML⎩ ⎨ ⎧神经网络NN{深度学习DL.........
怎么实现机器学习：
数据集 ⟶ 方法训练 ⟶ 预测数据集 \stackrel{方法}{\longrightarrow} 训练 \longrightarrow 预测数据集⟶方法训练⟶预测
机器学习四大方向：
机器学习 { Classical learning { Supervised Unsupervised Reinforcement learning Neural nets and Deep learning Ensemble methods 机器学习 \left\{ \begin{array}{l} \text{Classical learning} \left\{ \begin{array}{l} \text{Supervised} \\ \text{Unsupervised} \end{array} \right. \\ \text{Reinforcement learning} \\ \text{Neural nets and Deep learning} \\ \text{Ensemble methods} \end{array} \right. 机器学习⎩ ⎨ ⎧Classical learning{SupervisedUnsupervisedReinforcement learningNeural nets and Deep learningEnsemble methods
四大方向，百花齐放，一家独大，算力为先。

1.2 常用算法 & 实际应用

机器学习十大算法
基本术语：
- 数据：训练集、测试集、特征、标签
- 任务：预测目标 { 回归：连续分类：离散聚类：无标记 \begin{cases} \text{回归：连续} \\ \text{分类：离散} \\ \text{聚类：无标记} \end{cases} ⎩ ⎨ ⎧回归：连续分类：离散聚类：无标记、有无标记 { 监督无监督半监督 \begin{cases} \text{监督} \\ \text{无监督} \\ \text{半监督} \end{cases} ⎩ ⎨ ⎧监督无监督半监督
- 泛化能力：独立同分布 i.i.d
机器学习方法分类
机器学习 { 监督 { 分类Classification { 朴素贝叶斯决策树 ∗ 支持向量机 Logistic回归 K近邻回归Regression { 线性回归多项式回归逻辑回归无监督 { 聚类Clustering { K均值聚类 Mean-Shift DBSCAN 降维Dimension Reduction { 主成分分析奇异值分解狄里克雷特分解潜在语义分析并联规则学习Association Rule Learning { Apriori Euelat FP-growth 弱监督：人脸识别，但圈出整个人半监督： 1000 个数据， 100 个有标签机器学习 \begin{cases} 监督 \begin{cases} \text{分类Classification} \begin{cases} 朴素贝叶斯 \\ 决策树 \\ \textcolor{red}{*支持向量机} \\ \text{Logistic回归} \\ \text{K近邻} \end{cases} \\ \text{回归Regression} \begin{cases} 线性回归 \\ 多项式回归 \\ 逻辑回归 \end{cases} \end{cases} \\无监督 \begin{cases} \text{聚类Clustering} \begin{cases} \text{K均值聚类} \\ \text{Mean-Shift} \\ \text{DBSCAN} \end{cases} \\ \text{降维Dimension Reduction} \begin{cases} 主成分分析 \\ 奇异值分解 \\ 狄里克雷特分解 \\ 潜在语义分析 \end{cases} \\ \text{并联规则学习Association Rule Learning} \begin{cases} \text{Apriori} \\ \text{Euelat} \\ \text{FP-growth} \end{cases} \end{cases} \\弱监督：人脸识别，但圈出整个人 \\半监督：1000个数据，100个有标签 \end{cases} 机器学习⎩ ⎨ ⎧监督⎩ ⎨ ⎧分类Classification⎩ ⎨ ⎧朴素贝叶斯决策树∗支持向量机Logistic回归K近邻回归Regression⎩ ⎨ ⎧线性回归多项式回归逻辑回归无监督⎩ ⎨ ⎧聚类Clustering⎩ ⎨ ⎧K均值聚类Mean-ShiftDBSCAN降维Dimension Reduction⎩ ⎨ ⎧主成分分析奇异值分解狄里克雷特分解潜在语义分析并联规则学习Association Rule Learning⎩ ⎨ ⎧AprioriEuelatFP-growth弱监督：人脸识别，但圈出整个人半监督：1000个数据，100个有标签

1.3 历史与应用

机器学习简要发展历史回顾
- 推理期：1950s~1970s初
- 知识期：1970s中
- 学科形成：1980s
- 繁荣期：1980s~至今
应用驱动：基础性、透明化的“支持技术、服务技术”

1.4 模型评估与选择

经验误差与过拟合
- 误差：
  - 训练误差（经验误差）：学习器在训练集上的误差
  - 泛化误差：学习器在新样本上的误差
- 过拟合与欠拟合
  - 过拟合：优化目标加正则项，early stop
  - 欠拟合：拓展分支，增加训练轮数
评估方法
- 留出法：直接将数据集分为两个互斥的集合，其中一个作为训练集，另一个作为测试集
- 交叉验证法：分为 k 个互斥集合，保留一个作为测试集，训练 k 次
  - 10折交叉验证
  - 10次10折交叉验证
- 自助法：有放回采样 m 次作为训练集，约有 35.8 % 35.8\% 35.8% 未被采样到的样本作为测试集
  - 包外估计
调参与最终模型

性能度量

回归任务 - 均方误差
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m}\sum^{m}_{i=1}(f(x_i)-y_i)^2 E(f;D)=m1i=1∑m(f(xi)−yi)2
分类任务 - 错误率与精度
- 错误率
  E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum^{m}_{i=1}\mathbb{I}(f(x_i)\neq y_i) E(f;D)=m1i=1∑mI(f(xi)=yi)
- 精度
  a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D ) acc(f;D) = \frac{1}{m} \sum^{m}_{i=1} \mathbb{I}(f(x_i)=y_i) = 1 - E(f;D) acc(f;D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D)
分类任务 - 查准率、查全率与 F1
- 分类结果混淆矩阵
  
  真实情况\预测结果正例反例
  正例 TP 真正例 FN 假反例
  反例 FP 假正例 TN 真反例
- 查准率 P
  P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
- 查全率 R
  R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
- P-R 曲线（查准率-查全率曲线），平衡点（查准率=查全率）
- F1 度量
  F 1 = 2 × P × R P + R = 2 × T P 样例总数 + T P − T N F1=\frac{2 \times P \times R}{P+R}=\frac{2 \times TP}{样例总数+TP-TN} F1=P+R2×P×R=样例总数+TP−TN2×TP
- F1 度量的一般形式 - F β F_\beta Fβ
  F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_\beta = \frac{(1+\beta^2) \times P \times R}{(\beta^2 \times P) + R} Fβ=(β2×P)+R(1+β2)×P×R
ROC 与 AUC
- ROC - 受试者工作特征
- ROC曲线：纵轴 - 真正例率 TPR，横轴 - 假正例率 FPR
  T P R = T P T P + F N F P R = F P T N + F P TPR = \frac{TP}{TP+FN} \\ FPR = \frac{FP}{TN+FP} TPR=TP+FNTPFPR=TN+FPFP
- AUC - ROC 曲线下的面积

真实情况\预测结果	正例	反例
正例	TP 真正例	FN 假反例
反例	FP 假正例	TN 真反例

代价敏感错误率与代价曲线

二分类代价矩阵

真实类别\预测类别	第 0 类	第 1 类
第 0 类	0	c o s t 01 cost_{01} cost01
第 1 类	c o s t 10 cost_{10} cost10	0

代价敏感错误率
E ( f ; D ; c o s t ) = 1 m ( ∑ x i ∈ D + I ( f ( x i ) ≠ y i ) × c o s t 01 + ∑ x i ∈ D − I ( f ( x i ) ≠ y i ) × c o s t 10 ) E(f;D;cost) = \frac{1}{m} \left( \sum_{x_i \in D^+} \mathbb{I} (f(x_i) \neq y_i) \times cost_{01} +\sum_{x_i \in D^-} \mathbb{I} (f(x_i) \neq y_i) \times cost_{10} \right) E(f;D;cost)=m1(xi∈D+∑I(f(xi)=yi)×cost01+xi∈D−∑I(f(xi)=yi)×cost10)

比较检验
- 假设检验
  - 二项检验
  - t 检验
- 交叉验证 t 检验
- McNemar 检验
- Friedman 检验与 Nemenyi 后续检验
偏差与方差
- 泛化误差可分解为偏差、方差与噪声之和
- 一般来说，偏差与方差是有冲突的，这称为偏差-方差窘境

\mathbb{I} (f(x_i) \neq y_i) \times cost_{10}
\right)
$$

比较检验
- 假设检验
  - 二项检验
  - t 检验
- 交叉验证 t 检验
- McNemar 检验
- Friedman 检验与 Nemenyi 后续检验
偏差与方差
- 泛化误差可分解为偏差、方差与噪声之和
- 一般来说，偏差与方差是有冲突的，这称为偏差-方差窘境

标签：begin,机器,绪论,text,Chapter1,TP,监督,end,cases
From： https://blog.csdn.net/RioiiRichard/article/details/137396777