首页 > 编程语言 >机器学习之——决策树条件熵计算[附加计算程序]

机器学习之——决策树条件熵计算[附加计算程序]

时间:2024-09-01 22:47:00浏览次数:10  
标签:play log2 4.0 附加 temperature 计算 6.0 yes 决策树

0 前言

  • 本文主要介绍决策树条件熵的计算并给出若干例子帮助理解。
  • 读者需要具备信息熵计算知识,若不了解请看:信息熵

1 条件熵

image

2 数据集

游玩数据集,请看:数据集 1.1节

3 条件熵的计算

使用所给游玩数据集。计算H(play|outlook)的条件熵(在Y随机变量为outlook条件下,X随机变量为play的条件熵)。笔者将Outlook属性排序后如下图(3-1)所示。
image

对属性Outlook分析并计算如下。
image

其中相应的运算数据笔者已用相应的颜色标注。属性"Play=yes个数"表示当outlook=overcast条件下的数据中有几个play为yes的样本。属性"P(play=yes)"表示当outlook=overcast条件下play为yes的概率。

同样方法,笔者分别计算随机变量temperature、humidity、windy的条件熵如下所示。
计算temperature条件熵:

  1. 当temperature=cool时,样本有4个,play=no有1个
    当temperature=cool时,样本有4个,play=yes有3个
    H(play|temperature=cool)=-(1.0/4.0)log2(1.0/4.0)-(3.0/4.0)log2(3.0/4.0)=0.8113

  2. 当temperature=hot时,样本有4个,play=no有2个
    当temperature=hot时,样本有4个,play=yes有2个
    H(play|temperature=hot)=-(2.0/4.0)log2(2.0/4.0)-(2.0/4.0)log2(2.0/4.0)=1.0000

  3. 当temperature=mild时,样本有6个,play=no有2个
    当temperature=mild时,样本有6个,play=yes有4个
    H(play|temperature=mild)=-(2.0/6.0)log2(2.0/6.0)-(4.0/6.0)log2(4.0/6.0)=0.9183

  4. H(play|temperature)=(4.0/14)* 0.8113+(4.0/14)* 1.0000+(6.0/14)* 0.9183=0.9111

计算humidity条件熵:

  1. 当humidity=high时,样本有7个,play=no有4个
    当humidity=high时,样本有7个,play=yes有3个
    H(play|humidity=high)=-(4.0/7.0)log2(4.0/7.0)-(3.0/7.0)log2(3.0/7.0)=0.9852

  2. 当humidity=normal时,样本有7个,play=no有1个
    当humidity=normal时,样本有7个,play=yes有6个
    H(play|humidity=normal)=-(1.0/7.0)log2(1.0/7.0)-(6.0/7.0)log2(6.0/7.0)=0.5917

  3. H(play|humidity)=(7.0/14)* 0.9852+(7.0/14)* 0.5917=0.7885

计算windy条件熵:

  1. 当windy=not时,样本有8个,play=no有2个
    当windy=not时,样本有8个,play=yes有6个
    H(play|windy=not)=-(2.0/8.0)log2(2.0/8.0)-(6.0/8.0)log2(6.0/8.0)=0.8113

  2. 当windy=yes时,样本有6个,play=no有3个
    当windy=yes时,样本有6个,play=yes有3个
    H(play|windy=yes)=-(3.0/6.0)log2(3.0/6.0)-(3.0/6.0)log2(3.0/6.0)=1.0000

  3. H(play|windy)=(8.0/14)* 0.8113+(6.0/14)* 1.0000=0.8922

4 计算程序

请看:计算程序 2~3节

5 结语

如有错误请指正,禁止商用。

标签:play,log2,4.0,附加,temperature,计算,6.0,yes,决策树
From: https://www.cnblogs.com/hello-nullptr/p/18391874

相关文章

  • 花店鲜花管理与推荐系统+Python+Django网页界面+管理系统+计算机课设
    一、介绍花店鲜花管理与推荐系统。本系统使用Python作为主要开发语言开发的一个花店鲜花管理与推荐的网站平台。网站前端界面采用HTML、CSS、BootStrap等技术搭建界面。后端采用Django框架处理用户的逻辑请求,并将用户的相关行为数据保存在数据库中。通过Ajax技术实现前后端的数......
  • 2024年数字经济与计算机科学国际学术会议(DECS2024) 2024 International Conference on
    文章目录一、会议详情二、重要信息三、大会介绍四、出席嘉宾五、征稿主题六、咨询一、会议详情二、重要信息大会官网:https://ais.cn/u/vEbMBz提交检索:EICompendex、IEEEXplore、Scopus大会时间:2024年9月20-22日大会地点:中国-厦门终轮截稿日期:2024年9月16日(早投......
  • 音视频入门基础:WAV专题(7)——FFmpeg源码中计算WAV音频文件每个packet的size值的实现
    一、引言从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以显示WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的size:这个“size”实际是AVPacket结构体中的成员变量size,为WAV......
  • 第1章 计算机网络体系结构
    学习视频:https://www.bilibili.com/video/BV1c4411d7jb?p=7&vd_source=657a3a3d4db7adcd46d8875ecbec370c1.2.3OSI参考模型OSI参考模型的层次结构定义了服务、协议、接口三个概念先有模型,后有协议规范;通用性良好名称传输单位功能备注应用层用户与网络......
  • Magnet Acquire 2.71 Windows - 适用于智能手机和计算机的数字取证采集工具
    MagnetAcquire2.71Windows-适用于智能手机和计算机的数字取证采集工具DigitalForensicSoftware请访问原文链接:https://sysin.org/blog/magnet-acquire/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org免费工具MagnetAcquireMagnetAcquire可以让数字取证......
  • 计算机毕业设计选题推荐-个人健康档案管理系统-Java/Python项目实战
    ✨作者主页:IT研究室✨个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。☑文末获取源码☑精彩专栏推荐⬇⬇⬇Java项目Python项目安卓项目微信小程序项目......
  • 计算机毕业设计选题推荐-公司考勤管理系统-Java/Python项目实战
    ✨作者主页:IT研究室✨个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。☑文末获取源码☑精彩专栏推荐⬇⬇⬇Java项目Python项目安卓项目微信小程序项目......
  • 计算机毕业设计选题推荐-果树生长信息管理系统-Java/Python项目实战
    ✨作者主页:IT毕设梦工厂✨个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。☑文末获取源码☑精彩专栏推荐⬇⬇⬇Java项目Python项目安卓项目微信小程序项目......
  • 计算机毕业设计选题推荐-客栈管理系统-酒店预订-民宿管理系统-Java/Python项目实战
    ✨作者主页:IT毕设梦工厂✨个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。☑文末获取源码☑精彩专栏推荐⬇⬇⬇Java项目Python项目安卓项目微信小程序项目......
  • 基于大数据的电脑销售数据爬取和可视化系统-计算机毕业设计源码+LW文档
    摘要随着信息技术的飞速发展,大数据已经成为企业决策的重要依据。通过对电脑销售数据的深入挖掘和分析,企业可以更加精准地把握市场动态,了解消费者需求,优化产品设计和营销策略。同时,销售预测能够为企业提前规划生产、库存和物流,降低运营成本,提高市场竞争力。此外,大数据分析还能帮助......