首页 > 其他分享 >决策树学习-计算数据集的信息熵

决策树学习-计算数据集的信息熵

时间:2024-03-26 15:31:44浏览次数:30  
标签:cur dataset 学习 信息熵 labelCount label prob 决策树

 #计算信息熵
def calEntro(dataset):
    dataset = np.array(dataset)
    data_len = len(dataset)
    #labelCount记录各类样本数据的数量
    labelCount = {}

    for row in dataset:
        cur_label = row[-1]
        if cur_label not in labelCount.keys():
            labelCount[cur_label] = 0
        labelCount[cur_label] += 1

    result = 0
    for key in labelCount.keys():
        prob = labelCount[key]/data_len
        result -= prob*math.log2(prob)
    return result

这段代码是用来计算数据集的信息熵的函数。信息熵是用来衡量数据集的不确定性,即数据集中包含的信息量。以下是对代码的解释:

  1. def calEntro(dataset)::定义了一个名为 calEntro 的函数,该函数接受一个数据集 dataset 作为输入参数。

  2. dataset = np.array(dataset):将输入的数据集转换为 NumPy 数组,以方便处理。

  3. data_len = len(dataset):获取数据集的长度,即数据集中样本的数量。

  4. labelCount = {}:初始化一个空字典 labelCount,用于记录数据集中各类别样本的数量。

  5. 遍历数据集中的每一行:

    • cur_label = row[-1]:获取当前样本的标签值(假设标签值在每行的最后一个位置)。
    • if cur_label not in labelCount.keys(): labelCount[cur_label] = 0:如果当前标签值不在 labelCount 字典的键中,则将其初始化为 0。
    • labelCount[cur_label] += 1:统计当前标签值在数据集中出现的次数。
  6. 计算信息熵:

    • result = 0:初始化信息熵的结果为 0。
    • 遍历 labelCount 字典中的每个键(类别):
      • prob = labelCount[key]/data_len:计算当前类别在数据集中的概率。
      • result -= prob*math.log2(prob):根据信息熵的公式,累加计算信息熵的值,其中 math.log2(prob) 表示以2为底的对数运算。
    • 最终返回计算得到的信息熵值 result

总体来说,这段代码的功能是通过遍历数据集中的标签值,计算数据集的信息熵,并返回信息熵的值。信息熵值越高,表示数据集的不确定性越大。

标签:cur,dataset,学习,信息熵,labelCount,label,prob,决策树
From: https://blog.csdn.net/EaSoNgo111/article/details/137047728

相关文章

  • 【WEEK5】学习目标及总结【SpringMVC+MySQL】【中文版】
    学习目标:彻底完成SpringMVC的学习两周完成MySQL的学习——第一周学习内容:参考视频教程【狂神说Java】SpringMVC最新教程IDEA版通俗易懂拦截器文件的上传和下载学习时间及产出:第五周MON~Fri2024.3.25【WEEK5】【DAY1】拦截器【中文版】【WEEK5】【DAY1】Inter......
  • 《联邦学习实战》第3章阅读笔记
    《联邦学习实战》第3章阅读笔记第3章用Python从零实现横向联邦图像分类1.环境配置1.1Windows如何安装miniconda1.2如何安装深度学习框架2.PyTorch基础操作2.1创建Tensor2.2Tensor与Python数据结构转换2.3数据操作2.4自动求导3.用python实现横向联邦学习图像......
  • 深度学习中的“优化算法”
    AI大模型学习方向一:AI大模型学习的理论基础在深度学习中,优化算法的主要任务是调整模型的参数(例如神经网络中的权重),以最小化或最大化一个损失函数(目标函数)。这个过程是通过不断迭代来逼近最优解。优化算法对于模型的训练速度和最终性能至关重要。以下是一些深度学习中常见的优......
  • Vue学习笔记61--mapActions + mapMutations
    原始实现 <template><div><h3>当前求和*10为:{{bigSum}}</h3><h3>当前求和为:{{sum}}</h3><h3>我在:{{school}},学习:{{subject}}</h3><selectv-model.number="selectNo"><option......
  • MySQL单表操作学习DDL_DML_DQL语句
    1创建数据库----DDL语句CREATETABLE`student`(`id`int(11)NOTNULLAUTO_INCREMENTCOMMENT'学号',`createDate`datetimeDEFAULTNULLCOMMENT'创建时间',`userName`varchar(20)DEFAULTNULLCOMMENT'用户名',`pwd`varchar(36)DEFA......
  • 树结构学习:B树、B+树
    平衡二叉树的查找效率是非常高的,并可以通过降低树的深度来提高查找的效率。但是当数据量非常大,树的存储的元素数量是有限的,这样会导致二叉查找树结构由于树的深度过大而造成磁盘I/O读写过于频繁,进而导致查询效率低下。而B树的出现是为了解决这个问题,其可以一次性读入许多数据......
  • Android 自启动过程学习
    Android系统启动流程Summary启动电源以及系统启动当设备通电时,引导芯片代码从预定义的地方开始执行。引导程序BootLoader到RAM,然后执行。引导程序BootLoader引导程序BootLoader时安卓操作系统开始运行前的一个小程序,主要是将系统的OS拉起来并运行。Linux内......
  • qt_Opencv (学习笔记) - 隐身术
    我们前面一起学习了Opencv库中的一些函数并且做了一个小练习,想必大家对Opencv库有了一定的了解。接下来让我来带着大家来完成今天的小项目吧!有了前面几个文章的基础,我们接下来来实现“隐身术”就比较简单了。先让我来展示一下隐身术的效果吧!我们想要实习隐身术,首先我们......
  • JavaWeb学习笔记——第五天
    请求响应概述前端控制器(核心控制器)DispatcherServlet:它实现了Servlet接口,可以被Tomcat程序识别。浏览器发起的请求会先通过DispatcherServlet,由DispatcherServlet将请求转给后方的controller程序进行处理,处理完成后,controller程序再将处理完的结果返回给DispatcherServlet,最后......
  • springboot学习
    SpringBoot1SpringBoot2SpringBoot3SpringBoot4SpringBoot5SpringBoot6SpringBoot7shiro简介:入门:整合shiro导包写Controller报错点击查看代码org.thymeleaf.exceptions.TemplateInputException:Errorresolvingtemplate[index],templatemightnotexistor......