Boosting、Bagging主要关注降低偏差还是方差？

时间：2024-07-05 17:43:06浏览次数：15

Boosting、Bagging主要关注降低偏差还是方差？

最近在做项目的过程中遇到了集成学习中的stagging方法，让我想起了之前参加面试的时候碰到的一个问题：Boosting主要关注降低偏差还是方差？Bagging主要关注降低偏差还是方差？这个问题还是很有意思的，如果之前没有看过，即便了解Boosting、Bagging的内容也不一定能很快反应过来。

先公布一下答案

答案：从偏差-方差分解的角度看，Boosting主要关注降低偏差，Bagging主要关注降低方差

偏差-方差分解

"偏差-方差分解" (bias-variance decomposition) 是解释学习算法泛化性能的一种重要工具。

回顾偏差、方差、噪声的含义：偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力；方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响；噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。

一般来说，偏差与方差是有冲突的，这称为偏差-方差窘境 (bias-variance dilemma)。下面给出了一个示意图给定学习任务，假定我们能控制学习算法的训练程度，则在训练不足时，学习器的拟合能力不够强，训练数据的扰动不足以使学习器产生显著变化，此时偏差主导了泛化错误率；随着训练程度的加深，学习器的拟合能力逐渐增强，训练数据发生的扰动渐渐能被学习器学到，方差逐渐主导了泛化错误率；在训练程度充足后，学习器的拟合能力已非常强，训练数据发生的轻微扰动都会导致学习器发生显著变化，若训练数据自身的、非全局的特性被学习器学到了，则将发生过拟合。

Boosting

Boosting 是一族可将弱学习器提升为强学习器的算法。这族算法的工作机制类似：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值 T ，最终将这 T 个基学习器进行加权结合。

可以看出，Boosting 方法关注那些先前基学习器做错的训练样本，并在后续训练中更多加关注这些样本，显然这是降低偏差。

Bagging

Bagging是并行式集成学习方法最著名的代表。它直接基于自助采样法 (bootstrap sampling)。给定包含 m 个样本的数据集，先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样，经过 m 次随机采样操作，得到含 m 个样本的采样集，初始训练集中有的样本在采样集里多次出现，有的则从未出现。

照这样，可以采样出 T 个含 m 个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合。

可以看出， Bagging的过程就是为了减轻同样大小的训练集的变动所导致的学习性能的变化，从偏差方差分解的角度看， Bagging 主要关注降低方差。

参考资料

[1] 周志华. 机器学习[M]. 清华大学出版社, 2016.

标签：Bagging,偏差,训练,方差,学习,Boosting
From： https://www.cnblogs.com/zhangdoudou/p/18286284

多因素方差分析
在多因素方差分析中，我们会遇到数据的组织，这个对后续SPSS进行分析特别重要，其中列联表的数据组织难倒了很多大学生，为此在这里，进行了总结：1.符号说明2.数据组织设置分组变量（以SPSS的分析为例）3.提出原假设H0：不同地区对商品的销售量均值无显著性影响，即dqi＝0H0：不同日期对商品的......
Boosting原理代码实现
1．提升方法是将弱学习算法提升为强学习算法的统计学习方法。在分类学习中，提升方法通过反复修改训练数据的权值分布，构建一系列基本分类器（弱分类器），并将这些基本分类器线性组合，构成一个强分类器。代表性的提升方法是AdaBoost算法。AdaBoost模型是弱分类器的线性组合：......
Python统计实战：一题搞定双因子方差分析（交互效应分析）
为了解决特定问题而进行的学习是提高效率的最佳途径。这种方法能够使我们专注于最相关的知识和技能，从而更快地掌握解决问题所需的能力。（以下练习题来源于《统计学—基于Python》。联系获取完整数据和Python源代码文件。）练习题城市道路交通管理部门为研究不同路段和不同时段......
面对大方差的解决方法
大方差的定义：大方差通常是指数据集中的数值相对于平均值的波动较大，这种波动可以通过方差来量化。方差是衡量一组数值离散程度的统计量，计算方式是每个数值与平均值差的平方的平均值。大方差产生的可能原因包括：极端值或离群点：数据集中的极端值或离群点会显著增加方差，因为......
Boosting Weakly-Supervised Temporal Action Localization with Text Information
标题：利用文本信息增强弱监督时间动作定位源文链接：https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Boosting_Weakly-Supervised_Temporal_Action_Localization_With_Text_Information_CVPR_2023_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2023/papers/......
Python统计实战：一题巩固单因子方差分析
为了解决特定问题而进行的学习是提高效率的最佳途径。这种方法能够使我们专注于最相关的知识和技能，从而更快地掌握解决问题所需的能力。（以下练习题来源于《统计学—基于Python》。联系获取完整数据和Python源代码文件。）练习题一家管理咨询公司为不同的客户提供人力资源管理......
医学统计学~No.2 独立样本t检验＆单因素方差分析
最近一段时间在着手处理行为学数据，主要参考师姐的毕业论文，然鹅统计分析里写的统计方法并菜菜狗并不是很理解，困扰之下，感觉近两周工作没有一丝丝进展。今天浅找了几篇博士毕业论文，发现人家的统计分析里主要用了独立样本t检验和单因素方差分析，菜菜狗布灵布灵的大眼睛更忽闪忽闪啦，......
Python统计实战：两道题掌握一个总体均值、一个总体方差、两个总体均值差、两个总体方差
为了解决特定问题而进行的学习是提高效率的最佳途径。这种方法能够使我们专注于最相关的知识和技能，从而更快地掌握解决问题所需的能力。（以下练习题来源于《统计学—基于Python》。联系我获取完整数据和Python代码。）求解参数（区间）估计的基本思路一看求总体的什么参数（总体......
[自适应控制] 广义最小方差控制（GMVC）算法理论及其Matlab实现
基于[自适应控制]，广义最小方差控制（GMVC）算法理论与其Matlab实现，包括代码和参考书籍，适合新手学习，注释清晰，适合入门或者进行二创。模型获取：[自适应控制]广义最小方差控制（GMVC）算法理论及其Matlab实现......
[自适应控制] 最小方差控制（MVC）算法理论，及其 Matlab代码实现
个人整理了[自适应控制]最小方差控制（MVC）算法理论，并使用Matlab代码进行了实现，效果明显，配备了参考文献与书籍，适合新手学习使用。模型代码获取： [自适应控制]最小方差控制（MVC）算法理论，及其Matlab代码实现......

Boosting、Bagging主要关注降低偏差还是方差？