首页 > 其他分享 >信息论

信息论

时间:2023-05-30 10:47:33浏览次数:27  
标签:函数 信息量 eg1 散度 KL 随机变量 信息论

信息论

是概率论的延申,在机器学习领域,用于

  • 构造目标函数
  • 对算法进行理论分析和证明

1.熵

熵衡量了一个概率分布的随机性程度,或者说它包含的信息量的大小。

随机变量X取值为x的概率为p(x),p(x)很小,而这个事件又发生了,则包含的信息量大。用h(x)表示信息量的大小,则h(x)应为p(x)的单调减函数,现在想要尝试找出h(x)和p(x)的函数关系,尝试根据如下例子找出二者之间的关系。

随机变量X和Y相互独立,取得x和y的概率分别为p(x)和p(y),提供的信息量分别为h(x)和h(y),考虑X=x和Y=y同时发生的情况

  1. p(x,y) = p(x) * p(y)

    由于X,Y相互独立,则二者同时发生的概率应该为二者分别发生的概率之积

  2. h(x,y) = h(x) + h(y)

    由于X,Y相互独立,则二者同时发生的信息量应该为二者分别发生的信息量之和

  3. p(x,y) 和 h(x,y) 之间存在某种函数关系

    即:p(x) * p(y) 和 h(x) + h(y) 之间存在这种函数关系

    又:p(x) 和 h(x) 之间,p(y) 和 h(y) 之间同样存在这种函数关系

    考虑到要在乘积与和之间建立一座桥梁,因此应该是对数关系

信息量定义为

\[h(x)=-lnp(x) \]

\(y=-ln(x)\)的函数图像如下

image-20230526084310100
  • 当p(x)越小时(\(p(x)\geq0\)),对应的h(x)越大
  • 当p(x)越大时(\(p(x)\leq1\)),对应的h(x)越小
  • h(x)总为正值

熵 := 信息量的数学期望

离散型随机变量的熵

\[H(p)=-\sum_{i=1}^{n}p_ilnp_i,\qquad p_i=p(x_i) \]

eg1:

image-20230526085331838

eg2:

image-20230526085345132

eg1分布的熵大于eg2分布的熵,因为eg1为均匀分布,随机性更强

连续型随机变量的熵,概率密度函数为p(x)

\[H(p)=-\int_{-\infty}^{+\infty}p(x)lnp(x)dx \]

2.交叉熵

交叉熵定义在两个概率分布之上,反映了他们之间的差异程度,常用于设计损失函数

离散型随机变量

image-20230526091324905

eg1:

image-20230526091402493

eg2:

image-20230526091416225

连续型随机变量

image-20230526091548364

3.KL散度

KL散度同样定义在两个概率分布之上,反映了他们之间的差异程度,通常用于对算法进行理论分析

离散型随机变量

image-20230526091951795

eg1:

image-20230526092028889 image-20230526092046773

eg2:

image-20230526092126341

连续型随机变量

image-20230526092544830

KL散度和交叉熵的关系

image-20230526092621791

KL散度是p,q交叉熵和p的熵之差,在机器学习中,通常以分布p为目标,拟合出分布q来近似p

待补充...

标签:函数,信息量,eg1,散度,KL,随机变量,信息论
From: https://www.cnblogs.com/dctwan/p/17442559.html

相关文章

  • 信息论-交叉熵
    信息论参考教程:22.11.InformationTheory—DiveintoDeepLearning1.0.0-beta0documentation(d2l.ai)信息代表事件的意外程度,或者说事件的抽象可能性self-information一个事件包含多少信息量,可以看有几个bit数。self-information就代表一个事件的bit数:\[I(X)=-log......
  • 信息论之从熵、惊奇到交叉熵、KL散度和互信息
    一、熵(PRML)考虑将A地观测的一个随机变量x,编码后传输到B地。这个随机变量有8种可能的状态,每个状态都是等可能的。为了把x的值传给接收者,需要传输⼀个3⽐特的消息。注意,这个变量的熵由下式给出:⾮均匀分布⽐均匀分布的熵要⼩。如果概率分布非均匀,同样使用等长编码,那么并不是最......
  • 机器学习数学基础之信息论
    信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。发生可能性较大的事件包含较少的信息发生可能性较小的事件包含较多的信息独立事件包含额外的信息对于事件\(\mathbfx=x\),定义自信息self-information为:\[I(x)=-\logP(x)\]自信息仅仅处理单个输出。如果......
  • 信息论绪论
    本专栏针包含信息论与编码的核心知识,按知识点组织,可作为教学或学习的参考。markdown版本已归档至【Github仓库:​​information-theory​​】,需要的朋友们自取。或者关注公众......
  • 深度学习数学基础-概率与信息论
    前言概率论学科定义概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性声明(statement)的公理。概率论的知识在机器学......
  • A 清楚姐姐学信息论【2023牛客寒假算法基础集训营4】
    A 清楚姐姐学信息论原题链接题意给出\(a,b\),问当\(a,b\)的值为多少时\(a^b>b^a\)思路\(a^b>b^a\)\(blna>alnb\)\(\frac{lna}{a}>\frac{lnb}{b}\)令\(f(x)=\frac......
  • 各种信息论坛
    各种信息论坛​​https://user.qzone.qq.com/3434259057​​​​http://zgdcnyhl.usa3v.vip/​​​​http://home.51.com/city7cc​​​​http://user.qzone.qq.com/316......
  • 深度学习-信息论中的熵
    1.信息熵  2.交叉熵  3.3相对熵——可以验证分布的一致性    4.JS散度  5.联合熵 ......
  • 深度学习-第三章概率与信息论
    前言概率论学科定义概率与信息论在人工智能领域的应用3.1,为什么要使用概率论3.2,随机变量3.3,概率分布3.3.1,离散型变量和概率质量函数3.3.2,连续型变量和概率密度......
  • 信息论与编码:随参信道特性
    随参信道的传输特性主要依赖于传输媒质特性,以电离层反射信道、对流层散射信道为主要代表。随参信道是一种信道传输特性随时间随机快速变化的信道,包括陆地移动信道,短波电离......