首页 > 其他分享 >自然语言中的重要概念——熵(Entropy)

自然语言中的重要概念——熵(Entropy)

时间:2023-06-14 20:35:13浏览次数:31  
标签:xi yjm 概念 yj Entropy log2p np 自然语言 随机变量


一、背景

熵是热力学中的一个重要的概念,最早是由香农(Claude Shannon)将熵应用于信息的度量。

熵(Entropy)是描述事物无序性的一个重要的参数,熵越大则无序性越强,同时,熵表示一个随机变量的不确定性。

二、熵

1、信息熵

香农指出,一条信息的信息量和它的不确定性之间有着直接的关系。因此可以使用信息熵来描述信息量的多少。

信息熵的定义为:设一个随机变量X,其可能的m种取值为x1,x2,⋯,xm,对于每一种取值的概率为:p1,p2,⋯,pm,那么随机变量X的不确定度,即信息熵,用H(X)表示:



H(X)=∑i=1mpilog21pi=−∑i=1mpilog2pi

信息熵表示的是随机变量X可能的变化,若随机变量的变化越多,那么其信息量越大。而与随机变量的具体取值无关,只与其值的类别以及每种类别的概率有关。

2、条件熵

条件熵(Conditional Entropy)的定义为:设两个随机变量X,Y,在X已知的前提下,Y的熵,定义为Y的条件熵,用H(Y∣X)表示:



H(Y∣X)=−∑xi,yjm,np(xi,yj)log2p(yj∣xi)

对于上述的条件熵的定义,可由下面的推理得到:



H(Y∣X)=p(x1)⋅H(Y∣X=x1)+⋯+p(xm)⋅H(Y∣X=xm)=∑i=1mp(xi)⋅H(Y∣X=xi)=−∑i=1mp(xi)⋅⎛⎝∑j=1np(yj∣xi)⋅log2p(yj∣xi)⎞⎠=−∑i=1m∑j=1np(yj,xi)⋅log2p(yj∣xi)=−∑xi,yjm,np(xi,yj)log2p(yj∣xi)

3、联合熵

联合熵和联合分布的概念类似,联合熵指的是多个随机变量的熵。联合熵的定义为:设两个随机变量X,Y,p(xi,yj)表示联合概率,则联合熵表示的是随机变量X和Y共同携带的信息量,用H(X,Y)表示:



H(X,Y)=−∑xi,yjm,np(xi,yj)log2p(xi,yj)

其中,条件熵,联合熵和熵之间的关系为:



H(Y∣X)=H(X,Y)−H(X)

对于上式的证明如下:



H(X,Y)−H(X)=−∑xi,yjm,np(xi,yj)log2p(xi,yj)+∑i=1mp(xi)log2p(xi)=−∑xi,yjm,np(xi,yj)log2p(xi,yj)+∑i=1m⎛⎝∑j=1np(xi,yj)⎞⎠⋅log2p(xi)=−∑xi,yjm,np(xi,yj)⋅(log2p(xi,yj)−log2p(xi))=−∑xi,yjm,np(xi,yj)log2p(yj∣xi)=H(Y∣X)

对于联合熵,有一些性质,如下所示:

  • H(X,Y)⩾H(X)
  • H(X,Y)⩽H(X)+H(Y)
  • H(X,Y)⩾0

4、相对熵

相对熵,又称为交叉熵或者KL距离或者KL散度。主要是用来度量两个概率分布之间的差异程度。假设两个概率分布 P(x)和Q(x),用D(P∥Q)表示两个分布之间的KL散度:



D(P∥Q)=∑x∈XP(x)⋅log2P(x)Q(x)

当两个分布完全相同时,此时KL散度为0。

三、互信息

KL距离衡量的是相同的事件空间里的两个事件的相似程度,而互信息衡量的是不同事件空间中的两个信息的相关性。设两个随机变量X和Y,互信息为I(X,Y):



I(X,Y)=∑i=1m∑j=1np(xi,yj)⋅log2p(xi,yj)p(xi)p(yj)

互信息就是随机事件X的熵H(X),以及在给定随机变量Y的条件下的条件熵H(X∣Y)之间的差异,即:



I(X,Y)=H(X)−H(X∣Y)

由上述的定义可知,互信息与信息增益等价。

参考文献

  • 数学之美


标签:xi,yjm,概念,yj,Entropy,log2p,np,自然语言,随机变量
From: https://blog.51cto.com/u_16161414/6480424

相关文章

  • 图解机器学习总结——1、基本概念
    序言:近期主要帮同事讲解《图解机器学习》,刚拿到这本书觉得内容相比较平常使用的机器学习算法,很多地方讲解得比较奇怪,在认真的读完后,觉得还是有很多重要的东西,因此读了书就想把知识点整理出来,加上一些自己对各种算法的认识,因此这个系列里面有一些个人的理解,若有不对的地方,还请不吝指......
  • 门店系统了解一下:如何选择适合概念店的POS?
     概念店是指一种专注于提供独特产品或服务的零售店,具有创新性和个性化的特点。这样的门店需要一个可以支持其特殊需求的POS系统。 在选择概念店最合适的POS系统之前,我们需要先了解POS系统在门店系统中扮演的角色。 POS系统是门店系统的核心,它不仅可以记录客户信息和交易日志......
  • js函数的概念
    @TOCjs函数的概念对于js来说,函数就是把任意一段代码放在一个盒子里面在我想要让这段代码执行的时候,直接执行这个盒子里面的代码就行先看一段代码//这个是我们以前写的一段代码for(vari=0;i<10;i++){ console.log(i)}//函数,这个{}就是那个“盒子”functionfn(){......
  • 深度学习:基本概念深度解析
    我们前面经过了三个实际项目的历练,在项目实践中我们其实在不自觉中经历了深度学习的重要步骤,以及践行了深度学习过程中的一些重要概念,再此我们把这些概念提炼出来加以阐述和理解,这能为我们后面进行难度更大的项目打下扎实的基础,我们需要搞清楚三个概念,分别是数据预加工,特征工程,以及......
  • 自己动手做chatGPT:向量的概念和相关操作
    chatGPT的横空出世给人工智能注入一针强心剂,它是历史上以最短时间达到一亿用户的应用。chatGPT的能力相当惊人,它可以用相当流利的语言和人对话,同时能够对用户提出的问题给出相当顺畅的答案。它的出现已经给各个行业带来不小冲击,据说有很多公司已经使用chatGPT来替代人工,于是引起了......
  • 深度学习应用篇-元学习[13]:元学习概念、学习期、工作原理、模型分类等
    #深度学习应用篇-元学习[13]:元学习概念、学习期、工作原理、模型分类等1.元学习概述1.1元学习概念元学习(Meta-Learning)通常被理解为“学会学习(Learning-to-Learn)”,指的是在多个学习阶段改进学习算法的过程。在基础学习过程中,内部(或下层/基础)学习算法解决由数据集和......
  • H264,H265编码概念 压缩方法
    一、什么是H264编码H.264,同时也是MPEG-4第十部分,是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT,JointVideoTeam)提出的高度压缩数字视频编解码器标准。这个标准通常被称之为H.264/AVC(或者AVC/H.264或者H.264/MPEG-4AVC或MPEG-4/H.264AVC,Advance......
  • 数据仓管概念、关系建模和维度建模、维度表和事实表、数据仓库建模、什么是拉链表?
    目录数据仓管概念数据仓管分为5层数仓为什么要分层数据集市和数据仓库的区别数仓命名规范范式理论第一范式第二范式第三范式关系建模和维度建模星型模型:雪花模型:星座模型:模型选择:维度表和事实表数据仓库建模ODSDWD什么是拉链表?数据仓管概念数据仓管分为5层ODS原始数据层存......
  • Kubernetes中Deployment、ReplicaSet、Pod、Service的概念及关系
    Kubernetes中Deployment、ReplicaSet、Pod、Service的概念及关系Pod:k8s管理的最小单位,包括一个或多个容器,是提供实际业务服务的组件。ReplicaSet:是Pod的管理控制组件,监控Pod的健康状况,保障Pod按照用户的期望去运行。rs是ReplicationController组件的升级版,增加了标签选择器的范......
  • Vue路由的基本概念
    Vue路由的基本概念Vue路由是一个非常重要的概念,它允许你在应用程序中创建多个页面并在这些页面之间进行导航。在Vue中,路由是通过VueRouter实现的。本文将介绍VueRouter的基本概念和用法,并对路由配置进行详细解析。基础认知/路由路由是指应用程序中的一个页面。在Vue......