《统计学习方法》第一章

标签：误差函数概率模型模型第一章学习统计泛化

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、统计学习分类
二、统计学习方法三要素
三、模型评估与模型选择
- 1.训练误差与测试误差
- 2.过拟合
四、正则化与交叉验证
- 1.正则化
- 2.交叉验证
五、泛化能力
- 1.泛化误差
- 2.泛化误差上界
六、生成模型与判别模型
七、监督学习应用
总结

前言

本文只要记录一些书中的一些小知识点，挑一些本人认为重要的地方进行总结。
可能第一章有些概念不太清楚，到后来具体章节都会慢慢理解的！
各位道友！道长(zhǎng) 道长(chǎng)

一、统计学习分类

1.基本分类

1.1监督学习

从标注数据中学习预测模型的机器学习问题，标注数据表示输入输出对应的关系，预测模型对给定的输入产生相应的输出。
监督学习的本质是学习输入到输出的映射的规律。

1.2 无监督学习

从无标注数据中学习预测模型的机器学习问题，预测模型表示数据的类别（聚类），转换（降维）或概率（概率估计）。
无监督学习的本质是学习数据中的统计规律或潜在结构。

1.3 强化学习

强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
假设智能系统与环境的互动基于马尔可夫决策过程，智能系统能观测到的是与环境互动得到的数据序列。
强化学习的本质是学习最优的序贯决策。

1.4 半监督学习和主动学习

半监督是有少量标注信息，大量未标注数据
主地学习是找出对学习最有帮助的实例给教师打标签
二者都更接近监督学习

2.模型分类

2.1概率模型与非概率模型

概率模型：决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在迪利克雷分配、高斯混合模型
非概率模型：感知机、支持向量机、k近邻、AdaBoost、k均值、建在语义分析、神经网络

2.2线性与非线性

特别是非概率模型，按照是否是线性函数，分为线性和非线性模型

2.3参数化和非参数化模型

参数化模型的维度固定，可以由有限的维参数刻画
非参数化的参数维度不固定或者无穷大

3.算法分类

在线学习：每次接受一个样本进行预测、学习、并不断重复
批量学习：一次接受所有数据，学习后进行预测

有些实际应用场景要求学习必须是在线的

4.技巧分类

4.1贝叶斯分类

在概率模型的学习和推理中，利用贝叶斯定理，计算在给定数据条件下模型的条件概率，即后验概率。
并应用这个原理进行模型的估计、数据预测。

4.2 核方法

核方法可以把线性模型的学习方法例如向量内积计算拓展到非线性模型的学习，使其应用范围更加广泛

二、统计学习方法三要素

方法=模型+策略+算法

1.模型

监督学习中，模型就是所要学习的条件概率分布或决策函数

2.策略

2.1损失函数和风险函数

损失函数：度量预测错误的程度（非负值）
常见损失函数：
0-1损失函数
平方损失函数→(Y-f(X))^2
绝对损失函数→|(Y-f(X))|
对数损失函数→-logP(Y|X)
风险函数：平均意义下f(X)关于P(Y|X)的损失
经验风险： 训练集的平均损失
R e m p ( f ) = 1 / N ∑ L ( y i , f ( x i ) ) R_{emp} (f)=1/N \sum L(y_i,f(x_i)) Remp(f)=1/N∑L(yi,f(xi))

2.2经验风险最小化与结构风险最小化

**经验风险最小化(ERM)**策略认为，经验风险最小化的模型就是最优模型
在这里插入图片描述

**结构风险最小化(SRM)**策略认为，为了防止过拟合，在经验风险上加上模型的复杂度的正则化项或罚项
在这里插入图片描述
模型越复杂，J(f)越大，λ实系数，用来权衡经验风险和模型复杂度。

3.算法

学习模型的具体计算方法。

三、模型评估与模型选择

1.训练误差与测试误差

训练误差：模型关于训练数据集的平均损失 R e m p R_{emp} Remp
测试误差：模型关于测试数据集的平均损失 e t e s t e_{test} etest

2.过拟合

过拟合：学习选择的模型对已知数据预测的很好，但是对于位置数据预测的很差的现象

四、正则化与交叉验证

这是两种常用模型选择方法

1.正则化

正则化一般有以下形式
在这里插入图片描述
J(f)是正则化项，一般是模型复杂度的单调递增函数，模型越复杂，正则化值越大。
正则化项可以是模型参数向量的范数。
正杂化的作用是选择经验风险与模型复杂度同时较小的模型

2.交叉验证

将数据集分为三部分：训练集、验证集和测试集

五、泛化能力

泛化能力：由该方法学习到的模型对未知数据的预测能力

1.泛化误差

对未知数据的预测误差： R e m p ( f ) = E P [ L ( Y , f ( X ) ) ] R_{emp}(f)=E_P[L(Y,f(X))] Remp(f)=EP[L(Y,f(X))]

2.泛化误差上界

学习方法的泛化能力分系往往是通过研究泛化误差的概率上界进行的，简称泛化误差上界。
性质：

它是样本容量的函数，样本容量增加时，泛化上界趋于0；
它是假设空间容量的函数，假设空间容量越大，模型越难学，泛化误差上界越大

六、生成模型与判别模型

分别是生成方法和判别方法所学到的模型

七、监督学习应用

1.分类问题

分类器在测试数据集的预测正确或不正确，四种情况出现的总数分别记作：

在这里插入图片描述
评价指标是精准率和召回率
精确率：

召回率：

F1值：

2.标注问题

输入是一个观测序列，输出是一个标记序列或状态序列。
评价指标和分类模型一致

3.回归问题

用于预测输入变量和输出变量之间的关系。
回归问题的学习等价与函数拟合：选择一条函数曲线使其很好的拟合已知数据且很好的预测未知数据。

总结

今天的内容是统计学习方法的概论，没什么难理解的公式，都是些笼统的术语。

标签：误差,函数,概率模型,模型,第一章,学习,统计,泛化
From： https://blog.csdn.net/weixin_46034279/article/details/137632585