首页 > 编程语言 >随机森林算法原理

随机森林算法原理

时间:2022-11-05 15:48:12浏览次数:45  
标签:采样 分类 样本 算法 随机 原理 决策树 森林

随机森林算法原理:
  随机森林是从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样品,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。特征选择采用随机的方法去分裂每一个节点,然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性决定选择特征的数目。兴奋的背包的分类能力可能很小,但在随机产生大量的决策树后,一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类。

  在建立每一棵决策树的过程中,有两点需要注意采样与完全分裂。首先是两个随机采样的过程,random forest对输入的数据要进行行、列的采样。对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本为N个,那么采样的样本也为N个。这样使得在训练的时候,每一棵树的输入样本都不是全部的样本,使得相对不容易出现over-fitting。然后进行列采样,从M个feature中,选择m个(m << M)。之后就是对采样之后的数据使用完全分裂的方式建立出决策树,这样决策树的某一个叶子节点要么是无法继续分裂的,要么里面的所有样本的都是指向的同一个分类。一般很多的决策树算法都一个重要的步骤——剪枝,但是这里不这样干,由于之前的两个随机采样的过程保证了随机性,所以就算不剪枝,也不会出现over-fitting。

关于随机:
(1)训练每棵树时,从全部训练样本中选取一个子集进行训练(即bootstrap取样)。用剩余的数据进行评测,评估其误差;
(2)在每个节点,随机选取所有特征的一个子集,用来计算最佳分割方式。

算法流程:
(1)训练总样本的个数为N,则单棵决策树从N个训练集中有放回的随机抽取n个作为此单颗树的训练样本(bootstrap有放回取样)。
(2)令训练样例的输入特征的个数为M,m远远小于M,则我们在每颗决策树的每个节点上进行分裂时,从M个输入特征里随机选择m个输入特征,然后从这m个输入特征里选择一个最好的进行分裂。m在构建决策树的过程中不会改变。
注意:要为每个节点随机选出m个特征,然后选择最好的那个特征来分裂。
注意:决策树中分裂属性的两个选择度量:信息增益和基尼指数。
(3)每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类,不需要剪枝。由于之前的两个随机采样的过程保证了随机性,所以就算不剪枝,也不会出现over-fitting。

结果判定:
(1)目标特征为数字类型:取t个决策树的平均值作为分类结果。
(2)目标特征为类别类型:少数服从多数,取兴奋的背包分类结果最多的那个类别作为整个随机森林的分类结果。

预测:
  随机森林是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本为那一类。
  说明:通过bagging有放回取样后,大约36.8%的没有被采样到的数据,我们常常称之为袋外数据。这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。

 

随机森林的主要优点:

  • 支持并行处理;
  • 不需要对特征进行标准化处理;
  • 不需要对特征缺失值进行处理;
  • 模型较稳定,泛化能力强;
  • 模型可以输出特征重要性;
  • 使用Out of Bag,不需要单独划分测试集;

随机森林的主要缺点:

  • 由于有多个基模型组合而成,模型不易解释;
  • 树较多时,训练时间比较久;

标签:采样,分类,样本,算法,随机,原理,决策树,森林
From: https://www.cnblogs.com/oceaning/p/16860308.html

相关文章

  • LeakCannary 的主要原理
    大概可以分为以下几步:((1)监测Activity的生命周期的onDestroy()的调用。(2)当某个Activity的onDestroy()调用后,便对这个activity创建一个带ReferenceQueue的......
  • js的bind 的原理
    js的bind方法主要绑定this的指向bind方法也会返回是个bind后的函数。知道它功能我们就可以自定义bind功能letobject={name:'jeff'}functionfn(){console.log(thi......
  • 7点 讲明白地图切片的概念与原理
      有人说:一个人从1岁活到80岁很平凡,但如果从80岁倒着活,那么一半以上的人都可能不凡。生活没有捷径,我们踩过的坑都成为了生活的经验,这些经验越早知道,你要走的弯路就会越少......
  • 虚拟DOM和Diff算法
    虚拟DOM    虚拟DOM的本质来说就是一个JS对象,Vue会把虚拟的DOM解析为JS的对象    还可以这样理解:虚拟DOM本质上就是在JS和DOM之间做了一个缓存。可......
  • 你知道Vue响应式数据原理吗
    1.Vue2的响应式式原理主要是通过Object.defineProperty的方法里面的setter和getter方法的观察者模式来实现。也就是在组件的初始话阶段给每一个data属性都注册一个setter......
  • 数据结构与算法之查找
    查找【知识框架】1.查找概论查找的基本概念:查找(Searching):就是根据给定的某个值,在查找表中确定一个其关键字等于给定值的数据元素(或记录)。查找表(SearchTable......
  • 基本算法篇——二分查找
    基本算法篇——二分查找本次我们介绍基础算法中的二分查找,我们会从下面几个角度来介绍二分查找:二分查找简述二分查找模板二分查找边界例题数的范围二分查找简述首......
  • 代码随想录第二十四天 | 回溯算法
    今天结束了二叉树的学习,开始新的一章了77.组合classSolution{List<List<Integer>>res=newArrayList<List<Integer>>();List<Integer>list=newArra......
  • 2个一维随机变量的关系的分布和一维变量的2种概率密度的乘积
    令一维变量分别为X1 和X2,概率密度函数分别为f1(x1)和f2(x2),分布为F1(x1)和F2(x2)。1. 2个一维变量分布(或概率密度)的乘积【=f1(x1)*f2(x2) 】为分量独立的......
  • 实验二:实验逻辑回归算法
    【实验目的】理解逻辑回归算法原理,掌握逻辑回归算法框架;理解逻辑回归的sigmoid函数;理解逻辑回归的损失函数;针对特定应用场景及数据,能应用逻辑回归算法解决实际分类问题......