首页 > 其他分享 >机器学习.周志华《12 计算学习理论》

机器学习.周志华《12 计算学习理论》

时间：2023-06-27 20:32:49浏览次数：37

标签：周志华误差 12 泛化假设学习 PAC 空间

基础知识

计算学习理论（computational learning theory）是通过“计算”来研究机器“学习“的理论，其目的是分析学习任务的困难本质。例如：在什么条件下可进行有效的学习，需要多少训练样本能获得较好的精度等，从而为机器学习算法提供理论保证。

几个基本概念回顾：

泛化误差：学习器在总体上的预测误差

经验误差：学习器在某个特定数据集D上的预测误差；

不合disagreement：

机器学习.周志华《12 计算学习理论》_复杂度

几个用到的不等式：

机器学习.周志华《12 计算学习理论》_泛化_02

PAC学习

PAC：概率近似正确学习理论；

注：以比较大的把握学得比较好的模型，即，以较大的概率学得误差满足预设上限的模型；

概念c：样本空间X到标记空间Y的映射；

目标概念c：样本空间X到标记空间Y的映射，且对任何样例（x,y）有c(x)=y成立；

概念类C：希望学到的目标概念所构成的集合；

假设空间H：样本空间X到标记空间Y的映射；

可分/一致：

机器学习.周志华《12 计算学习理论》_复杂度_03

不可分/不一致：

机器学习.周志华《12 计算学习理论》_泛化_04

PAC辨识

解析：对于某种学习算法，如果能以一个置信度学得假设满足泛化误差的预设上限，则称该算法能PAC辨识概念类，即该算法的输出假设已经十分地逼近目标概念。

机器学习.周志华《12 计算学习理论》_复杂度_05

PAC可学习

解析：将样本数量考虑进来，当样本超过一定数量时，学习算法总是能PAC辨识概念类，则称概念类为PAC可学习的。

机器学习.周志华《12 计算学习理论》_数据集_06

PAC学习算法

解析：将学习器运行时间也考虑进来，若运行时间为多项式时间，则称PAC学习算法。

机器学习.周志华《12 计算学习理论》_复杂度_07

样本复杂度：

机器学习.周志华《12 计算学习理论》_泛化_08

总结：

PAC学习中的一个关键因素就是假设空间的复杂度，对于某个学习算法，若假设空间越大，则其中包含目标概念的可能性也越大，但同时找到某个具体概念的难度也越大。一般假设空间分为有限假设空间与无限假设空间。

有限假设空间

可分情形：目标概念包含在算法的假设空间中。

对于目标概念，在训练集D中的经验误差一定为0，因此首先我们可以想到的是：不断地剔除那些出现预测错误的假设，直到找到经验误差为0的假设即为目标概念。但由于样本集有限，可能会出现多个假设在D上的经验误差都为0，因此问题转化为：需要多大规模的数据集D才能让学习算法以置信度的概率从这些经验误差都为0的假设中找到目标概念的有效近似。

机器学习.周志华《12 计算学习理论》_泛化_09

机器学习.周志华《12 计算学习理论》_泛化_10

不可分情形：目标概念不存在于假设空间中

当假设空间给定时，必然存一个假设的泛化误差最小，若能找出此假设的有效近似也不失为一个好的目标，这便是不可知学习(agnostic learning)的来源。

机器学习.周志华《12 计算学习理论》_泛化_11

机器学习.周志华《12 计算学习理论》_复杂度_12

机器学习.周志华《12 计算学习理论》_复杂度_13

一堆定理，拿笔做吧！

VC维

刻画假设空间复杂度的途径一：VC维；

增长函数：对于给定数据集D，假设空间中的每个假设都能对数据集的样本赋予标记，因此一个假设对应着一种打标结果，不同假设对D的打标结果可能是相同的，也可能是不同的。随着样本数量m的增大，假设空间对样本集D的打标结果也会增多，增长函数则表示假设空间对m个样本的数据集D赋予标标记的最大可能结果数，因此增长函数描述了假设空间的表示能力与复杂度。结果越大表示能力越强。

机器学习.周志华《12 计算学习理论》_复杂度_14

打散：例如对二分类问题来说，m个样本最多有2^m个可能结果，每种可能结果称为一种“对分”，若假设空间能实现数据集D的所有对分，则称数据集能被该假设空间打散。

机器学习.周志华《12 计算学习理论》_数据集_15

概念：因此尽管假设空间是无限的，但它对特定数据集赋予标记的不同结果数是有限的，假设空间的VC维正是它能打散的最大数据集大小。

机器学习.周志华《12 计算学习理论》_泛化_16

定义：若存在大小为d的数据集能被假设空间打散，但不存在任何大小为d+1的数据集能被假设空间打散，则其VC维为d。

案例：

机器学习.周志华《12 计算学习理论》_复杂度_17

假设空间VC维与增长函数的两个关系：

机器学习.周志华《12 计算学习理论》_数据集_18

机器学习.周志华《12 计算学习理论》_复杂度_19

将（12.28）代入（12.22）可得：

机器学习.周志华《12 计算学习理论》_复杂度_20

机器学习.周志华《12 计算学习理论》_泛化_21

在有限假设空间中，根据Hoeffding不等式便可以推导得出学习算法的泛化误差界；但在无限假设空间中，由于假设空间的大小无法计算，只能通过增长函数来描述其复杂度，因此无限假设空间中的泛化误差界需要引入增长函数。

机器学习.周志华《12 计算学习理论》_泛化_22

上式给出了基于VC维的泛化误差界，同时也可以计算出满足条件需要的样本数（样本复杂度）。若学习算法满足经验风险最小化原则（ERM），即学习算法的输出假设h在数据集D上的经验误差最小，可证明：任何VC维有限的假设空间都是（不可知）PAC可学习的，换而言之：若假设空间的最小泛化误差为0即目标概念包含在假设空间中，则是PAC可学习，若最小泛化误差不为0，则称为不可知PAC可学习。

Rademacher复杂度

刻画假设空间复杂度的途径二：Rademacher复杂度---与VC维不同的是在一定程度上考虑了数据分布。

VC为的泛化误差界很不无关、数据独立，对任何数据发布都成立，“普适”但泛化误差界“松”。

机器学习.周志华《12 计算学习理论》_泛化_23

经验Rademacher复杂度：衡量函数空间F和随机噪声在集合Z中的相关性；

机器学习.周志华《12 计算学习理论》_泛化_24

函数空间F在Z上的关于D的相关性：

机器学习.周志华《12 计算学习理论》_复杂度_25

基于Rademacher复杂度可得关于函数空间F的泛化误差界。

针对回归问题：

机器学习.周志华《12 计算学习理论》_复杂度_26

机器学习.周志华《12 计算学习理论》_数据集_27

针对二分类问题---基于Rademacher复杂度的泛化误差界：

机器学习.周志华《12 计算学习理论》_数据集_28

Rademacher复杂度与增长函数：

机器学习.周志华《12 计算学习理论》_泛化_29

稳定性

稳定性考察的是当算法的输入发生变化时，输出是否会随之发生较大的变化，输入的数据集D有以下两种变化：

机器学习.周志华《12 计算学习理论》_数据集_30

关于假设的几种损失：

机器学习.周志华《12 计算学习理论》_复杂度_31

算法的均匀稳定性：

机器学习.周志华《12 计算学习理论》_泛化_32

即原学习器和剔除一个样本后生成的学习器对z的损失之差保持β稳定，称学习器关于损失函数满足β-均匀稳定性。

同时若损失函数L的上界为M（即原学习器对任何样本的损失函数不超过M），0<の<1,以至少1-の的概率则有如下定理：

机器学习.周志华《12 计算学习理论》_数据集_33

事实上，若学习算法符合经验风险最小化原则（ERM）且满足β-均匀稳定性，则假设空间是可学习的。

稳定性通过损失函数与假设空间的可学习联系在了一起，区别在于：

假设空间关注的是经验误差与泛化误差，需要考虑到所有可能的假设；

机器学习.周志华《12 计算学习理论》_复杂度_34

稳定性只关注当前的输出假设。

机器学习.周志华《12 计算学习理论》_复杂度_35

机器学习.周志华《12 计算学习理论》_复杂度_36

标签：周志华,误差,12,泛化,假设,学习,PAC,空间
From： https://blog.51cto.com/u_12667998/6565458

相关文章

莫比乌斯反演学习笔记
炫酷反演魔术！莫反会用到的具体性质证明先不写，先写题。与其说是学习笔记，不如说是简要的题解集合。不太想贴太多代码啊，翻起来很烦。P3455[POI2007]ZAP-Queries很基础的一道题。令\(a\leb\)，考虑\(k=1\)的情况。\[\begin{aligned}ans&=\sum\limits_{i=1}^a\sum\limits_{j=......
Oracle 11.2.0.3 ORA-12012ORA-29280 ORA-06512
Oracle11.2.0.3ORA-12012ORA-29280ORA-06512问题现象:dbalert日志中出现如下告警信息：Errorsinfile/app/oracle/diag/rdbms/cctv/CCTV2/trace/CCTV2_j000_1370.trc:ORA-12012:erroronautoexecuteofjob"ORACLE_OCM"."MGMT_CONFIG_JOB_2_2"ORA......
嘿 Siri，有没有「三天速成深度学习」的课程？
「嘿Siri，有没有三天速成NLP的课程？」「很抱歉，我没有找到任何和『有没有三天速成NLP的课程？』有关的内容。」最近老能在朋友圈刷到「X 天学会Python，从此大专吊打博士生，工资蹭蹭往上升，抛弃Excel不是梦」。我们的耐心，正在变得越来越短。前段时间，外卖骑手配送时间从系统中消失的......
火遍日本 IT 界的「鱼书」终出续作，原来进阶深度学习竟然那么简单
在日本，有一本书在AI领域的影响力超越了实力派的“花书”，长期位列日亚“人工智能”类图书榜首，众多五星好评。它被众多高校名师为AI入门教材，如果你也是AI领域的开发者，说不定你手上的这本书已经翻烂了。这就是被称为「鱼书」的《深度学习入门：基于Python的理论与实现》原书上市......
机器学习 | TF-IDF详解
什么是TF-IDFTF-IDF是一种常用的文本处理技术，用以评估一个词对于一篇文章或语料库中一篇文章的重要性。TF代表词频(TermFrequency)，IDF代表逆文档频率(InverseDocumentFrequency)。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下......
微服务架构基本原理学习笔记（三）
上一篇：微服务架构基本原理学习笔记（二）五、微服务之间的通信微服务通信模式微服务本身并没有规定通信规则，换句话说，一个微服务并没有规定可以被哪些应用程序访问，或者被哪些其它的微服务调用。应用程序与微服务间的直接通信，或者微服务与微服务间的直接调用，往往会因为其中错综复......
新书上市 | 数学不好，Python不行，还能入门机器学习吗？
没错，图灵君又来安利好书了！什么书？机器学习？机器学习的书已经很多了，这本有啥特别的吗？当然有。话说有位日本网友，买了40多本数学和机器学习相关的书，愣是没有学会，直到遇到了这本，那叫一个相见恨晚呐！嗯，你没猜错，就是一本引进日本的书。图灵的老朋友都知道，我们出版了很多日系好书，比如用图搞定......
【深入浅出Docker原理及实战】「Docker安装说明」零基础+全方位带你学习探索Docker容
安装DockerDocker中的容器是一种轻量级的虚拟化技术，它基于镜像运行并具有自己的状态。下面是Docker容器的安装操作。Docker有三种更新频道：stable、test和nightly。官方网站提供了各种环境下的安装指南，主要包括Linux、Windows10和macOS。这里我们侧重点去介绍和分析说明对应......
想理解深度学习，究竟应该降维打击 or 升维思考？
题图|DesignedbyFreepik让我们从一道选择题开始今天的话题。什么是神经网络？请选择以下描述正确的一项或多项。A.神经网络是一种数学函数，它接收输入并产生输出。B.神经网络是一种计算图，多维数组流经其中。C.神经网络由层组成，每层都具有「神经元」。D.神经网络是一种通用函数......
菜鸟学习Spring——SpringMVC注解版解析不同格式的JSON串
一、概述不同格式的JSON串传到后台来实现功能这个是我们经常要做的一件事，本篇博客就给大家介绍四种不同的JSON串传到后台后台如何用@RequestBody解析这些不同格式的JSON串的。二、代码展示需要引用的jar包1.xml配置 Web.xml1.<?xmlversion="1.0"encoding="UTF-8......

赞助商

阅读排行