标签：误差机器模型笔记初步算法线性 2.2 学习

第一章绪论

1.1 引言

机器学习的经典定义：利用经验（数据）改善系统自身的性能

经典的机器学习过程：

屏幕截图 2024-10-09 204222.png

机器学习最重要的理论模型：PAC（概览近似正确）

屏幕截图 2024-10-09 204243.png

1.2 基本术语

数据集：一组记录的集合

学习/训练：通过执行某个学习算法，得到模型，学的的模型对应数据的某种潜在规律

示例：不包含结果（标记label），样例:包含结果（标记label）

样本，属性（eg.色泽），属性值

属性空间、样本空间、输入空间：

屏幕截图 2024-10-09 205042.png

学习器：模型

分类：离散的输出（是or否），回归：连续的输出（0->1）

二分类（正类，负类<可交换>），多分类

无监督学习：不知道结果（任务：密度统计），监督学习：知道结果（任务：分类，回归）

1.3 假设空间

学习过程：在所有假设组成的空间中进行搜索的过程（目标：找到与训练集匹配的假设）

版本空间：与训练集一致的假设集合

1.4 归纳偏好

有效的机器学习必有其偏好

学习算法的归纳偏好是否与问题本身匹配，决定了算法的性能

1.5 NFL定理

一个算法a若在某些问题上比另一个算法b好，必存在另一些问题b比a好

具体问题，具体分析

第二章模型评估与选择

2.1 经验误差与过拟合

（1）

泛化误差：在未来样本上的误差

经验误差：在训练集上的误差，亦称“训练误差”

泛化误差越小越好，但是经验误差(训练误差）不是越小越好，因为会出现过拟合

（2）

过拟合：特征不是一般规律

欠拟合：特征不足

2.2 模型选择

评估方法：如何获得测试结果

性能度量：如何评估性能优劣

比较检验：如何判断实质差别

2.2.1 评估方法

测试集与训练集互斥

2.2.1.1 留出法

· 保持数据分布一致性(20个好瓜，20个坏瓜)
· 多次重复划分(例如:100次随机划分)
· 测试集不能太大、不能太小(例如:1/5~1/3)

2.2.1.2 k-折交叉验证法

2.2.1.3 自助法

有放回采样，可重复采样

· 训练集与原样本集同规模

· 数据分布有所改变

约有36.8%的样本不出现——>“包外估计”

2.2.1.4 调参与最终模型

算法的参数:一般由人工设定,亦称“超参数”

模型的参数:一般由学习确定

验证集：用来调参数

调参过程相似:先产生若干模型,然后基于某种评估方法进行选择

算法参数选定后,要用“训练集+验证集”重新训练最终模型，调参以验证集上的性能作为评价标准

2.2.2 性能度量

性能度量是衡量模型泛化能力的评价标准,反映了任务需求
使用不同的性能度量往往会导致不同的评判结果什么样的模型是“好”的,不仅取决于算法和数据,还取决于任务需求

回归任务常用均方误差:

2.2.2.1 错误率与精度

错误率：

精度：

2.2.2.2 查准率、查全率与F1

查准率：

查全率：

F1度量：

若对查准率/查全率有不同的偏好：

2.2.3 比较检验

在某种度量下取得评估结果后,不可以直接比较以评判优劣

原因：

· 测试性能不等于泛化性能
· 测试性能随着测试集的变化而变化
· 很多机器学习算法本身有一定的随机性

2.2.3.1 假设检验

假设a算法和b算法性能是不是一样，再看实验结果，能不能把之前的假设拒绝掉，如果拒绝掉了则性能不一样，如果没拒绝则性能一样

2.2.3.2 交叉验证t检验

基于成对t检验
k折交叉验证;5x2交叉验证

统计显著性

2.2.3.3 McNemar检验

基于列联表 , 卡方检验

2.2.3.4 Friedman检验与Nemenyi后续检验

Friedman检验:

基于序值,F检验;判断”是否都相同”
Nemenyi后续检验:

基于序值,进一步判断两两差别

第三章线性模型

线性模型试图学得一个通过属性的线性组合来进行预测的函数

f(x) = w1x1+w2x2+……wdxd+b

向量形式:f(x) = w^Tx +b

3.1 线性回归

离散属性的处理 : 若有“序”,则连续化 ;
否则 , 转化为k维向量

3.2 最小二乘解

（求导得到最优解）（极小值，变化率为0）（最小二乘参数估计得到的线性回归模型的均方误差最小）

第一步：均方误差对w与b求偏导

第二步：令偏导等于0，得到闭式解

第三步：求解线性方程

3.3 多元线性回归

把w和b 吸收入向量形式ω=(w;b)数据集表示为

若XTX 满秩或正定,则

若 XTX 不满秩,则可解出多个ω

此时需求助于归纳偏好 , 或引入正则化

线性回归模型：

希望线性模型的预测值逼近真实标记

对数线性回归：

用逼近 y

3.4 广义线性模型

一般形式:

二分类任务：

线性回归模型产生的

实值输出：

期望输出：

对率函数（对数几率函数)（单调可微、任意阶可导）:

3.5 对率回归

（对数几率回归）

以对率函数为联系函数:

• 无需事先假设数据分布

• 可得到“类别”的近似概率预测

• 可直接应用现有数值优化算法求取最优解

3.6 对率回归求解

极大似然法

3.7 线性判别分析（LDA）

将样例投影到一条直线（低维空间），一种“监督降维”技术

LDA的目标

给定数据集

第 i类示例的集合 Xi

第 i类示例的均值向量 Ui

第 i类示例的协方差矩阵

两类样本的中心在直线上的投影：w^TU0 和 w^TU1

两类样本的协方差：

同类样例的投影点尽可能接近尽可能小

异类样例的投影点尽可能远离尽可能大

于是，最大化

LDA的目标：最大化广义瑞利商:

类内散度矩阵:

类间散度矩阵:

3.8 线性判别分析的多类推广

假定有 N个类

全局散度矩阵:

类内散度矩阵 :

类间散度矩阵:

多分类LDA有多种实现方法：采用Sb,Sw,St 中的任何两个

3.9 多分类学习基本思路

拆解法：将一个多分类任务拆分为若干个二分类任务求解

纠错输出码 (ECOC)

多对多: 将若干类作为正类，若干类作为反类

• ECOC编码对分类器错误有一定容忍和修正能力，编码越长、纠错能力越强

• 对同等长度的编码，理论上来说，任意两个类别之间的编码距离越远，则纠错能力越强

3.10 类别不平衡

不同类别的样本比例相差很大；“小类”往往更重要

基本思路：

再缩放 ,

标签：误差,机器,模型,笔记,初步,算法,线性,2.2,学习
From： https://www.cnblogs.com/zhuxi1010/p/18535883

《机器学习初步》笔记