什么是集成学习?
对于一个机器学习问题,通常我们有两种策略,一种是研发人员尝试各种模型,选择其中表现最好的模型进行调参优化;另一种策略就是将多个分类器的结果统一成一个最终的决策,这种策略我们就称之为集成学习,其中每个单独的分类器称为基分类器。
集成学习的种类
- Boosting
Boosting的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。在测试的时候根据各层分类器的结果的加权得到最终结果。
Boosting方法训练基分类器时采用串行的方式,使得各个基分类器之间有依赖。
- Bagging
与Boosting的串行训练方式不同,Bagging在训练的过程中,各基分类器之间无强依赖,可以进行并行训练,最著名的Bagging算法是基于决策树基分类器组成的随机森林。
Bagging中为了让基分类器之间相互独立,会将训练集分成若干个子集,在做最终决策的时候,每个个体单独做出判断,再通过投票的方式做出最终的集体决策。
常见的基分类器-决策树
最常用的基分类器时决策树,主要原因如下:
(1)决策树可以较为方便地将样本的权重整合到训练过程中,而不需要使用过采样的方法来调整样本权重。
(2)决策树的表达能力和泛化能力,可以通过调节树的层数来进行调节。
(3)决策树的不稳定性更适合用于基分类器。
标签:集成,分类器,瞎聊,训练,学习,Bagging,决策树 From: https://blog.51cto.com/u_15969421/6076762