第一章 绪论
1.1 引言
机器学习的经典定义:利用经验(数据)改善系统自身的性能
经典的机器学习过程:
机器学习最重要的理论模型:PAC(概览近似正确)
1.2 基本术语
数据集:一组记录的集合
学习/训练:通过执行某个学习算法,得到模型,学的的模型对应数据的某种潜在规律
示例:不包含结果(标记label) , 样例:包含结果(标记label)
样本 , 属性(eg.色泽) , 属性值
属性空间、样本空间、输入空间:
学习器:模型
分类:离散的输出(是or否) ,回归:连续的输出(0->1)
二分类(正类,负类<可交换>),多分类
无监督学习:不知道结果(任务:密度统计) , 监督学习:知道结果(任务:分类,回归)
1.3 假设空间
学习过程:在所有假设组成的空间中进行搜索的过程(目标:找到与训练集匹配的假设)
版本空间:与训练集一致的假设集合
1.4 归纳偏好
有效的机器学习必有其偏好
学习算法的归纳偏好是否与问题本身匹配,决定了算法的性能
1.5 NFL定理
一个算法a若在某些问题上比另一个算法b好,必存在另一些问题b比a好
具体问题,具体分析
第二章 模型评估与选择
2.1 经验误差与过拟合
(1)
泛化误差:在未来样本上的误差
经验误差:在训练集上的误差,亦称“训练误差”
泛化误差越小越好,但是经验误差(训练误差)不是越小越好,因为会出现过拟合
(2)
过拟合:特征不是一般规律
欠拟合:特征不足
2.2 模型选择
评估方法:如何获得测试结果
性能度量:如何评估性能优劣
比较检验:如何判断实质差别
2.2.1 评估方法
测试集与训练集互斥
2.2.1.1 留出法
· 保持数据分布一致性(20个好瓜,20个坏瓜)
· 多次重复划分(例如:100次随机划分)
· 测试集不能太大、不能太小(例如:1/5~1/3)
2.2.1.2 k-折交叉验证法
2.2.1.3 自助法
有放回采样,可重复采样
· 训练集与原样本集同规模
· 数据分布有所改变
约有36.8%的样本不出现——>“包外估计”
2.2.1.4 调参与最终模型
算法的参数:一般由人工设定,亦称“超参数”
模型的参数:一般由学习确定
验证集:用来调参数
调参过程相似:先产生若干模型,然后基于某种评估方法进行选择
算法参数选定后,要用“训练集+验证集”重新训练最终模型,调参以验证集上的性能作为评价标准
2.2.2 性能度量
性能度量是衡量模型泛化能力的评价标准,反映了任务需求
使用不同的性能度量往往会导致不同的评判结果什么样的模型是“好”的,不仅取决于算法和数据,还取决于任务需求
回归任务常用均方误差:
2.2.2.1 错误率与精度
错误率:
精度:
2.2.2.2 查准率、查全率与F1
查准率:
查全率:
F1度量:
若对查准率/查全率有不同的偏好:
2.2.3 比较检验
在某种度量下取得评估结果后,不可以直接比较以评判优劣
原因:
· 测试性能不等于泛化性能
· 测试性能随着测试集的变化而变化
· 很多机器学习算法本身有一定的随机性
2.2.3.1 假设检验
假设a算法和b算法性能是不是一样,再看实验结果,能不能把之前的假设拒绝掉,如果拒绝掉了则性能不一样,如果没拒绝则性能一样
2.2.3.2 交叉验证t检验
基于成对t检验
k折交叉验证;5x2交叉验证
统计显著性
2.2.3.3 McNemar检验
基于列联表 , 卡方检验
2.2.3.4 Friedman检验与Nemenyi后续检验
Friedman检验:
基于序值,F检验;判断”是否都相同”
Nemenyi后续检验:
基于序值,进一步判断两两差别
第三章 线性模型
线性模型试图学得一个通过属性的线性组合来进行预测的函数
f(x) = w1x1+w2x2+……wdxd+b
向量形式:f(x) = w^Tx +b
3.1 线性回归
离散属性的处理 : 若有“序”,则连续化 ;
否则 , 转化为k维向量
3.2 最小二乘解
(求导得到最优解)(极小值,变化率为0)(最小二乘参数估计得到的线性回归模型的均方误差最小)
第一步:均方误差对w与b求偏导
第二步:令偏导等于0,得到闭式解
第三步:求解线性方程
3.3 多元线性回归
把w和b 吸收入向量形式ω=(w;b)数据集表示为
若XTX 满秩或正定,则
若 XTX 不满秩,则可解出多个ω
此时需求助于归纳偏好 , 或引入正则化
线性回归模型:
希望线性模型的预测值逼近真实标记
对数线性回归:
用逼近 y
3.4 广义线性模型
一般形式:
二分类任务:
线性回归模型产生的
实值输出:
期望输出:
对率函数(对数几率函数)(单调可微、任意阶可导):
3.5 对率回归
(对数几率回归)
以对率函数为联系函数:
• 无需事先假设数据分布
• 可得到“类别”的近似概率预测
• 可直接应用现有数值优化算法求取最优解
3.6 对率回归求解
极大似然法
3.7 线性判别分析(LDA)
将样例投影到一条直线(低维空间),一种“监督降维”技术
LDA的目标
给定数据集
第 i类示例的集合 Xi
第 i类示例的均值向量 Ui
第 i类示例的协方差矩阵
两类样本的中心在直线上的投影:w^TU0 和 w^TU1
两类样本的协方差:
同类样例的投影点尽可能接近 尽可能小
异类样例的投影点尽可能远离 尽可能大
于是,最大化
LDA的目标:最大化广义瑞利商:
类内散度矩阵:
类间散度矩阵:
3.8 线性判别分析的多类推广
假定有 N个类
全局散度矩阵:
类内散度矩阵 :
类间散度矩阵:
多分类LDA有多种实现方法:采用Sb,Sw,St 中的任何两个
3.9 多分类学习基本思路
拆解法:将一个多分类任务拆分为若干个二分类任务求解
纠错输出码 (ECOC)
多对多: 将若干类作为正类,若干类作为反类
• ECOC编码对分类器错误有一定容忍和修正能力,编码越长、 纠错能力越强
• 对同等长度的编码,理论上来说,任意两个类别之间的编码 距离越远,则纠错能力越强
3.10 类别不平衡
不同类别的样本比例相差很大;“小类”往往更重要
基本思路:
再缩放 ,
标签:误差,机器,模型,笔记,初步,算法,线性,2.2,学习 From: https://www.cnblogs.com/zhuxi1010/p/18535883