首页 > 其他分享 >机器学习--决策树(信息熵,信息增益,信息增益率,基尼值,基尼指数)

机器学习--决策树(信息熵,信息增益,信息增益率,基尼值,基尼指数)

时间:2023-12-04 20:45:16浏览次数:34  
标签:剪枝 -- 信息熵 信息 基尼 增益 决策树

决策树是根据条件分支语句if-else产生的,决策树是一种树形结构,每一个内部节点表示是一个属性上的判断,每一个分支表示判断结果的输出,每一个叶子节点表示分类结果,本质上就是多个判断节点的树。

在使用决策树的时候会提到熵的概念

熵:熵表示混乱程度,越混乱熵值越大,越有序熵值越小,在信息论里,有着信息熵的概念。

信息熵:p(x)表示第k类样本的数量除以样本总量

 信息增益:信息增益是表示数据集中某个特征X的信息使类Y的信息的不确定性减少的程度(描述不清,上图看更直观)

 案例体现:

 信息增益率:

 基尼值以及基尼指数:

 案例体现:

 

 总结:

 明天更新一下决策树的剪枝,包括预剪枝,后剪枝以及cart剪枝

 

标签:剪枝,--,信息熵,信息,基尼,增益,决策树
From: https://www.cnblogs.com/copyjames/p/17875913.html

相关文章

  • 基础lucksheet实现前端导出excel文件
    文章参考:https://blog.csdn.net/csdn_lsy/article/details/1071797081.引入两个插件,其中exceljs负责将lucksheet的数据格式转化成excel的buffer流,file-saver负责将buffer转成blob文件流导出。npminstallexceljsnpminstallfile-saver2.代码实现constExcel=require('......
  • Theory Of Computation
    LN1AlphabetsandStringsAnalphabetisasetofsymbolsString:asequenceofsymbolsfromsomealphabetLanguage:asetofstringsUnarynumbersalphabet\(\Sigma=\{1\}\)Unarynumber:111111...StringOperationsConcatenation\(wv\)Reverse......
  • pydantic.errors.PydanticImportError,'pydantic:compiled' 在 Pydantic 版本 2 中已被
    今天编译python程序时pyinstaller-F--version-filefile_version_info.txtMelliferaCMD.py收到错误:58759INFO:Loadingmodulehook'hook-pydantic.py'from'D:\\env\\fbt\\Lib\\site-packages\\_pyinstaller_hooks_contrib\\hooks\\stdhooks&......
  • 12.4每日总结
    今天完成了人机交互C/S结构用户界面设计【实验编号】10003809547j 图形用户界面设计【实验学时】8学时【实验环境】l 所需硬件环境为微机;l 所需软件环境为MicrosoftVisualStudio2013【实验内容】编写一整套Mis系统UI界面,Mis系统名称自拟,尽量运用到如下控件:l......
  • OpenCV4.1.0与CUDAcuda_10.1.105联合进行图像特征点提取和特征匹配时,运行程序时错误提
    问题描述:OpenCV4.1.0与CUDAcuda_10.1.105联合进行图像特征点提取和特征匹配时,运行程序时错误提示:无法定位程序输入点?createBFMatchercv@DescriptorMatcher@cuda@cv......于动态链接库......,如下图所示:解决办法:如果include、lib和dll的路径都配置正确的话,可以尝试将编译好的带......
  • Python的with open
    1、文件的基本操作1.打开文件2.操作文件3.关闭文件关键字:open方式1f=open(r'a.txt','r',encoding='utf-8')#f=open(r'a.txt',mode='r',encoding='utf-8')res=f.read()print(res)##关闭文件:释放资源的#f.clo......
  • Java学习之路(十二)
    Java学习之路(十二)1、时间日期类1.1、Date类(应用)计算机中时间原点1970年1月1日00:00:00时间换算单位1秒=1000毫秒Date类概述Date代表了一个特定的时间,精确到毫秒Date类构造方法方法名说明publicDate()分配一个Date对象,并初始化,以便它代表它被分......
  • 离散傅里叶变换DFT的应用
    目录一维DFT1DFT的相关内容2DFT计算结果验证3DFT的时频曲线分析4DFT的应用二维DFT1DFT在图像处理时的相关内容2DFT滤波应用一维DFT1DFT的相关内容一维DFT的意义:一维信号由若干个不同频率的正余弦信号组合而成;一维DFT的解决问题:确定输入信号中有多少个......
  • Codeforces Round 800 (Div. 2)
    CodeforcesRound800(Div.2)基本情况A题秒了。B题写了个递推,但是T了,这种构造题还是得多练。B.ParanoidString我的解法#include<iostream>#include<cstdio>#include<cstring>#include<algorithm>usingll=longlong;constintN=2e5+10;intt,n;char......
  • c++传参时 值传递和引用传递的区别
    值传递需要开辟存储空间并拷贝这个对象,引用传递只是给这个对象起了一个别名,不涉及开辟空间和拷贝操作,引用传递更高效值传递在调用函数中修改的不是原来的对象,而引用传递在调用函数中就能直接修改原来的对象举个例子体会一下:435.无重叠区间贪心算法求解,涉及到排序操作,排序函数......