首页 > 其他分享 >1.7 - 决策树

1.7 - 决策树

时间:2024-04-03 17:55:05浏览次数:20  
标签:1.7 增益 CART 信息熵 拟合 节点 决策树

1. 模型理念

  香农信息论:一个系统越是混乱,信息熵越高,系统越是有序,信息熵越低。S = ∑ ( -p log(p) ),因此,系统内变量越多,信息熵越大,变量之间出现的概率越平均,信息熵越大。

  在银行借贷决策模型中,判定一个人是否可以借贷,每个选中这个人的一个特征数据进行判断,然后再上次判断的基础上再用一个新特征(或旧特征)再次判断,每个判断都生成一个节点以及子树,直到最后得出结论。这个模型判断的过程就形成了一颗决策树。

2. 模型构建

2.1 决策树构建过程

  根据数据标签计算初始系统的信息熵,【遍历每个特征的每个可能的分裂点】,求取分裂后的子系统的信息熵累加和,对比初始信息熵,选取信息增益最大的分裂点进行分裂,重复迭代,直到 最大迭代次数 或 节点中的样本数量小于规定最低节点样本数量 或 节点中只剩余一种类型的样本( 会过拟合 )  停止迭代

2.2 特征节点分裂的有效性评价

  信息增益:计算前后系统的信息熵差值。ID3算法。只能分类。

  信息增益率:特征节点分类时,节点分裂的子分支越多,信息增益越大,这显然是不可理的。采用信息增益率,来降低过度分支产生的影响。C4.5算法。只能分类。

  GINI增益:CART( classification and regression tree),分类时采用GINI增益,回归时采用均方误差。且【CART区别上述算法的最根本的特征是 CART只能是二叉树】。

3. CART引发过拟合和欠拟合的因素以及改进措施

3.1 过拟合

  设置的树的深度过大 或者 叶节点最小样本数量过低 。

4. 应用场景以及模型特性

5. 完整可运行的代码

 

标签:1.7,增益,CART,信息熵,拟合,节点,决策树
From: https://www.cnblogs.com/zhangzhenw/p/18113088

相关文章

  • 网络安全实验教程【1.7】
    4.4整型溢出实验4.4.1实验目的本实验要求掌握整型溢出的原理,了解宽度溢出和符号溢出的发生过程。4.4.2实验内容及环境1.实验内容本实验使用VC6.0的源码调试功能,尝试不同的程序输入,并跟踪变量和内存的变化,以观察不同整型溢出的原理。2.实验环境(1)靶机系统环境为Windo......
  • JimuReport 积木报表 v1.7.4 正式版本发布,免费的 JAVA 报表工具
    项目介绍一款免费的数据可视化报表,含报表和大屏设计,像搭建积木一样在线设计报表!功能涵盖,数据报表、打印设计、图表报表、大屏设计等!Web版报表设计器,类似于excel操作风格,通过拖拽完成报表设计。秉承“简单、易用、专业”的产品理念,极大的降低报表开发难度、缩短开......
  • 【机器学习】决策树学习下篇(详解)
    引言在当今数据驱动的时代,机器学习技术已成为解决复杂问题不可或缺的工具。其中,决策树学习作为一种基础且强大的算法,广泛应用于各种领域,包括但不限于金融风控、医疗诊断、客户关系管理等。决策树以其简单直观、易于理解和实现的特点,受到了数据科学家和业界专家的青睐。过拟合......
  • 决策树模型(3)决策树的生成与剪枝
    决策树的生成有了信息增益和信息增益比,我就可以以此衡量特征的相对好坏,进而可以用于决策树的生成。相对应的基于信息增益计算的方法所生成的决策树的算法我们叫做ID3算法,而基于信息增益的算法我们叫做C4.5,二者唯一的区别就在于一个使用信息增益衡量特征好坏而另外一个使用信息增......
  • 决策树模型(2)特征选择
    特征选择特征选择问题特征选择顾名思义就是对特征进行选择性截取,剔除掉冗余特征。这样能够减少决策树的复杂度。比如在上面两图中,左图通过年龄来对样本进行分类,而右图通过工作对特征进行分类,二者究竟孰好孰坏,这是需要进行比较的。一个非常直接的想法就是仅用选择的特征去训练......
  • 机器学习之决策树现成的模型使用
    目录须知DecisionTreeClassifiersklearn.tree.plot_treecost_complexity_pruning_path(X_train, y_train)CART分类树算法基尼指数 分类树的构建思想对于离散的数据对于连续值剪枝策略剪枝是什么剪枝的分类预剪枝后剪枝后剪枝策略体现之威斯康辛州乳腺癌数据......
  • 决策树学习-计算数据集的信息熵
    #计算信息熵defcalEntro(dataset):dataset=np.array(dataset)data_len=len(dataset)#labelCount记录各类样本数据的数量labelCount={}forrowindataset:cur_label=row[-1]ifcur_labelnotinlabelCount.keys():......
  • 数据分享|R语言使用核Fisher判别方法、支持向量机、决策树与随机森林研究客户流失情况
    全文链接:https://tecdat.cn/?p=35438原文出处:拓端数据部落公众号分析师:JiaojiaoZhao现在,越来越多的人意识到预测客户的流失与否是一件非常重要的事情。而且比较值得注意的是,留住原有的客户是要比吸引新客户更加容易的,而且成本更低。客户的流失可以从三个不同的方面来考虑。首......
  • 决策树模型(1)总体介绍
    决策树总体介绍决策树模型顾名思义就是通过一条条的决策来将样本划分来从而达到分类或回归的目的。决策树模型呈树形结构,下图粗略展示了一个分类决策树其中圆表示特征,方块表示叶子节点也是最终分类的类别,我们通过利用样本中高价值的特征(房子拥有情况,工作的拥有情况)来构建这......
  • 机器学习——决策树(四)后剪枝
    观前提示:这是本人决策树相关的第四篇博文,前3篇的内容如下:1、建造训练集的决策树【完成结点类编写和建树过程】2、用验证集评估模型、选出泛化较好的数据划分方式训练模型3、预剪枝读者可根据需要从上方《机器学习》专栏中查阅对应文章第四章是后剪枝的内容,用到了许多前文......