- 2024-10-16决策树(1)
原理基础概念决策树属于判别模型。决策树算法属于监督学习方法。决策树是一种树状结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子
- 2024-09-28共享单车轨迹数据分析:以厦门市共享单车数据为例(六)
副标题:.基于POI数据的站点功能混合度探究——以厦门市为例(一)为了保证数据时间尺度上的一致性,我们从互联网上下载了2020年的POI数据,POI数据来源于高德地图API平台,包括名称、大小类、地理坐标等。并将高德地图POI数据的火星坐标系GCJ-02统一转换为通用的WGS-84地理坐标系,
- 2024-09-25【信息论基础第三讲】再谈离散信源的信息测度之熵的性质多符号信源的信息测度
一、PieceOfCake1、离散信源X的熵是H(X)是一个常数而不是一个变量解释:离散信源的熵也就是自信息I(X)的数学期望,即H(X)=E[I(Xi)],而通过概率论的知识我们知道数学期望是一个常数,故熵也是一个常数。2、八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率
- 2024-09-09信息的度量-读《数学之美》第六章有感
信息的度量-读《数学之美》第六章有感 《数学之美》是一本很通俗易懂的介绍数学和算法在生活中的应用的一本书。今天着重来谈一谈他的第六章。 在看到目录时我一眼便看到了他的第六章所提到的信息熵,因为我在学校的大数据可视化的通识课上了解过这一概念。老师当时举了个谈
- 2024-09-06机器学习之——基尼指数的计算
0前言本文主要介绍基尼指数的计算公式及计算方法,并举出相关例题帮助理解。读者需要提前了解:信息熵。数据集:贷款.CSV。1基尼指数简述基尼指数(GiniIndex)是一个在多个领域都有应用的重要指标,但其主要应用之一是在决策树算法中,用于衡量数据集的不纯度或混乱程度。基尼
- 2024-09-06综合评价 | 基于熵权-变异系数-博弈组合法的综合评价模型(Matlab)
目录效果一览基本介绍程序设计参考资料效果一览基本介绍根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大,该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。因此,
- 2024-09-03【信息论基础】信息路基础绪论——信息的概念,信息量和信息熵,数字通信系统模型
1.、信息的定义:事物运动状态或存在方式的不确定状态(fromShannon)2、信息是有大小之分的。3、信息量(自信息)的计算如下:4、我们使用信息熵(informationentropy)这一概念来描述 信息的平均不确定度:(1)例1:对于一个信源的输出有x1~x8,对应的码字输出分别为000,001,010,011,100,10
- 2024-09-02综合评价 | 基于层次-熵权-博弈组合法的综合评价模型(Matlab)
目录效果一览基本介绍程序设计参考资料效果一览基本介绍AHP层次分析法是一种解决多目标复杂问题的定性和定量相结合进行计算决策权重的研究方法。该方法将定量分析与定性分析结合起来,用决策者的经验判断各衡量目标之间能否实现的标准之间的相对重要程度,并合理
- 2024-08-28信息熵计算程序[Python+CSV格式数据集]
0前言为了便于学习决策树信息熵相关知识,笔者编写了一个专门用于计算变量信息熵、条件熵、信息增益、信息增益比的程序,方便提升学习效率。程序中包含了计算过程的数据和详细信息以及最终计算结果。编程语言为Python,搭配CSV数据格式使用。1数据集1.1游玩数据集根据天气状
- 2024-08-28机器学习之——决策树信息熵计算[附加计算程序]
0前言本文主要讲述了决策树背后的信息熵的公式含义及计算方式,并列举出多道例题帮助理解。1信息熵的定义1.1信息熵公式笔者使用下图(1-1)直观理解信息熵的含义。信息熵越大,表示该随机变量的不确定性越高。对于均匀分布,信息熵达到最大值。1.2证明:对于均匀分布,信息熵最
- 2024-07-28【学习笔记】Matlab和python双语言的学习(熵权法)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、熵权法的基本概念二、熵权法的基本步骤1、构建决策矩阵2、数据标准化3、计算指标的比重4、计算信息熵5、计算权重6、计算综合得分三、代码实现----Matlab四、代码实现----python总结
- 2024-07-022-2 贝叶斯与信息理论
2-2贝叶斯与信息理论条件概率假设试验E的样本空间为S,事件包括A、B,要考虑在B已经发生的条件下A发生的概率,这就是条件概率问题。设A、B是两个事件,且P(A)>0,称:全概率全概率是指一个事件发生的总概率,可以通过多个互不相交的事件的概率之和来计算。全概率公式通常用于计算条
- 2024-06-23各种“熵”的理解——最新版《数学之美》第六章读书笔记
目录1.信息熵1.1 数学表达1.2理解NLP中的信息熵概念2.消除不确定性2.1条件熵2.1.1数学表达2.1.2 理解NLP中的条件熵概念2.2互信息2.2.1数学表达2.2.2 理解NLP中的互信息概念3.相对熵3.1数学表达3.2理解NLP中的相对熵概念4.引用 1.信息熵1.1
- 2024-06-05第四篇——信息度量:世界上有稳赚不赔的生意嘛?
目录一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么?四、总结五、升华一、背景介绍了解了信息的度量,你就知道世界上那些稳赚不赔的生意背后的逻辑和道理了。二、思路&
- 2024-05-17信息量+信息熵
信息量在讨论什么是信息熵之前,我们先了解一下什么是信息量。信息量可以用来用来衡量一个事件发生的惊奇程度。事件发生的概率越低,该事件发生对应的惊奇程度越高。比如,事件“天上出彩虹”就比事件“天上下雨”更令人惊奇,因为前者的发生概率远远小于后者。一个系统,包括的等可
- 2024-04-031.7 - 决策树
1.模型理念香农信息论:一个系统越是混乱,信息熵越高,系统越是有序,信息熵越低。S= ∑(-plog(p)),因此,系统内变量越多,信息熵越大,变量之间出现的概率越平均,信息熵越大。在银行借贷决策模型中,判定一个人是否可以借贷,每个选中这个人的一个特征数据进行判断,然后再上次判断
- 2024-03-26决策树学习-计算数据集的信息熵
#计算信息熵defcalEntro(dataset):dataset=np.array(dataset)data_len=len(dataset)#labelCount记录各类样本数据的数量labelCount={}forrowindataset:cur_label=row[-1]ifcur_labelnotinlabelCount.keys():
- 2024-03-23第十四届蓝桥杯大赛软件赛省赛Python 《01串的熵》
问题描述问题类型暴力,枚举、问题分析由例题知对于一个长度为L的01串,设0出现的次数为x,则1出现的次数为L-x,其信息熵整理后可表示为:基于此,我们可以给出当长度L=23333333的01串,其信息熵为11625907.5798时,该字符串中0和1的个数分别为多少。题目限制0出现的次数比1少,可以通过
- 2023-12-04机器学习--决策树(信息熵,信息增益,信息增益率,基尼值,基尼指数)
决策树是根据条件分支语句if-else产生的,决策树是一种树形结构,每一个内部节点表示是一个属性上的判断,每一个分支表示判断结果的输出,每一个叶子节点表示分类结果,本质上就是多个判断节点的树。在使用决策树的时候会提到熵的概念熵:熵表示混乱程度,越混乱熵值越大,越有序熵值越小,在信息
- 2023-11-16信息熵
在随机森林中,熵是一种用于度量数据的纯度或无序程度的概念,特别是在决策树的构建过程中。熵越低,表示数据越有序,纯度越高。信息熵的定义:信息熵是由信息论引入的概念,用于度量一个系统的不确定性。在决策树中,熵通常用于衡量一个节点的纯度,即该节点包含的样本属于不同类别的程度。对
- 2023-11-16信息增益
信息增益(InformationGain)是在决策树构建过程中用于选择最佳分裂特征的一种度量。它用于衡量在某个特征条件下,将数据集分成不同类别所能带来的纯度提升。信息熵的概念:为了理解信息增益,首先要理解信息熵。信息熵是用于度量一个系统的不确定性或无序程度的概念。对于一个二分类问
- 2023-09-27基于weka的数据库挖掘➖分类方法决策树分类
基于weka的数据库挖掘➖分类方法决策树分类关于作者作者介绍
- 2023-08-10信息熵
信息熵前置知识:期望简介在信息论中,熵\((entropy)\)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里,"消息"代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)来自信源的
- 2023-08-08熵权法
pdf:熵权法.pdf别人的:https://www.jianshu.com/p/bdfd8b6d28b5https://blog.csdn.net/qq_48774513/article/details/120636330适用范围客观赋值优点在权值确定的过程,完全是分析已有的数据,没有引入主观干预,具有较好的客观性目的确定每个指标所占权重,权重用于计算最终得
- 2023-06-11决策树(实验室会议小记)
特征选择为什么要进行特征选择?特征过多导致过拟合、有一些特征是噪音。特征选择技术:1、尝试所有组合:也是全局最优2、贪心算法:每次决策都是基于当前情况去寻找最优解。计算过程:把特征加进去→是否更优?→是:加入模型/否:淘汰3、L1正则:目标函数为损失函数;特点:具有稀疏性4、决