首页 > 其他分享 >微分熵

微分熵

时间:2024-04-16 23:23:15浏览次数:30  
标签:infty log int dfrac 微分 delta displaystyle

微分熵\(\newcommand{\d}{\text{ d}}\)

对于连续的随机变量\(X\),假如它有概率密度函数\(f(x)\),那么我们仿照离散熵的表达式,定义\(X\)的微分熵为\(h(X)=-\displaystyle\int_S f(x)\log f(x)\d x\)。其中,\(S=\{x\mid f(x)>0\}\)。根据定义,连续随机变量的微分熵只与\(f\)有关而与具体的取值无关,因此\(h(X)\)也可以记为\(h(f)\)。

当\(X\)是\([0,a]\)上的均匀分布时,\(f(x)=\dfrac{1}{a}\),\(S=[0,a]\)。于是\(h(X)=-\displaystyle\int_0^a \dfrac 1 a \log \dfrac 1 a\d x=-\dfrac 1 a \log \dfrac 1 a\displaystyle\int_0^a \d x=\log a\)。由此可见,当\(a\in (0,1)\)时,\(h(X)<0\)。可见微分熵可以取负数值,这与离散熵很不同。这意味着,微分熵的“含义”本身就已经与离散熵完全不同,离散熵可以理解为平均意义下表示一个随机变量需要多少个bit,而这不可能是一个负数。

微分熵并不描述一个随机变量所包含的“信息量”。事实上,我们不可能沿用与离散时相同的方法来描述连续随机变量的信息量。试想要描述一个在\([0,1]\)上均匀分布的连续随机变量\(X\)需要多少位?这样的连续随机变量可以用一列\(X_1,\cdots,X_n,\cdots\)分别描述小数点后的某一位,每个\(X_i\)都在\([9]\)上均匀取值,这样\(X\)的信息量就等于所有的\(H(X_i)\)求和,得到正无穷。也就是说,一个连续随机变量的离散信息量是无穷的,需要无穷位才能描述。

既然不可能完全精确描述实数,那么如果我们对\(X\)做截断,只要求描述连续分布中\(X\)在小数点后的前若干位呢?等价地,我们研究当我们对\(f(x)\)做离散分割后得到的离散熵与微分熵的关系。取\(\delta>0\),把\(S\)分割为\([n\delta,(n+1)\delta]\)的区间,在每个区间上根据积分中值定理都有\(\delta\cdot f(\xi_n)=\displaystyle\int_{n\delta}^{(n+1)\delta} f(x)\d x\),令离散随机变量\(X^{(\delta)}=\xi_n\),如果\(X\in [n\delta,(n+1)\delta]\)。显然,\(p(X^{(\delta)})=f(\xi_n)\delta\),那么\(H(X^{(\delta)})=-\sum\limits_{n}f(\xi_n)\delta\cdot \log(f(\xi_n)\delta)\)\(=-\sum\limits_{n}f(\xi_n)\delta\cdot \log(f(\xi_n))-\sum\limits_{n}f(\xi_n)\delta\cdot \log\delta\),因为\(\sum\limits_{n}f(\xi_n)\delta=1\),所以得到\(\sum\limits_{n}f(\xi_n)\delta\cdot \log(f(\xi_n))-\log\delta\),当\(n\to\infty\)时前者就是\(h(X)\)。由此,\(H(X^{(\delta)})=h(X)-\log\delta\)。可见微分熵可以理解为\(H(X^{(\delta)})+\log\delta\),也即如果用精度为\(\delta\)的离散变量来逼近,离散熵总是等于微分熵加上一个\(-\log\delta\)的项。当\(\delta\to 0\)时,\(-\log\delta\to+\infty\)。

\(\newcommand{\E}{\mathbb{E}}\)由于大数定理对连续情形依然成立,所以我们对于渐进均分性(AEP)以及典型集的讨论都可以继承离散的情形。\(-\dfrac{1}{n}\log f(X_1,\cdots,X_n)\to \E[-\log f(X)]=h(f)\)。关于典型集,唯一需要修改的是,集合的“大小”现在是无穷大。而如果采用相同的论证,就必须把\(\sum\limits_{x}\)替换成\(\displaystyle\int_{S}\d x\)。因此我们定义集合\(A\)的体积为\(\text{Vol}(A)=\displaystyle\int_{A}\d x\),那么再次得到\(\Pr(A_\epsilon^{(n)})>1-\epsilon\),\(2^{n(h(X)+\epsilon)}\leq \text{Vol}(A_\epsilon^{(n)})\leq (1-\epsilon)2^{n(h(X)-\epsilon)}\)。由此可见,微分熵的另一个直观含义在于它刻画了典型集的大小。微分熵越大,典型集越大,随机变量的分布越松散。可见,微分熵依旧在刻画随机变量的“不确定性”,但是在连续意义下不能用信息位数来理解不确定性。

性质

与离散熵相比,微分熵的性质与离散熵既有相同点,也有不同点。下面集中讨论这些性质。

对于离散随机变量,如果令\(X\)变为\(X+c\),那么分布不会改变,因此熵不变。而对于连续随机变量,加一个常数相当于概率密度函数的平移,而由于概率密度函数是在整条实轴上取值的,这其实是改变了概率分布的。但我们可以计算得到平移是不改变微分熵的大小的:记\(Y=X+c\),则\(f_Y(x)=f_X(x+c)\)。\(h(Y)=-\displaystyle\int_{S_Y} f_Y(x)\log f_Y(x)\d x=-\displaystyle\int_{S_Y} f_X(x+c)\log f_X(x+c)\d x\)\(-\displaystyle\int_{S_X} f_X(x)\log f_X(x)\d x=h(X)\)。

而如果令\(X\)变为\(aX\),微分熵是会改变的:记\(Y=aX\),则\(f_Y(x)=\dfrac{1}{|a|}f_X(\dfrac{x}{a})\)。\(h(Y)=-\displaystyle\int_{S_Y} f_Y(x)\log f_Y(x)\d x\)\(=-\displaystyle\int_{S_Y} \dfrac{1}{|a|}f_X(\dfrac{x}{a})\log \left[\dfrac{1}{|a|}f_X(\dfrac{x}{a})\right]\d x\)\(=-\displaystyle\int_{S_Y} \dfrac{1}{|a|}f_X(\dfrac{x}{a})\log \dfrac{1}{|a|}\d x-\displaystyle\int_{S_Y} \dfrac{1}{|a|}f_X(\dfrac{x}{a})\log f_X(\dfrac{x}{a})\d x\)\(=\log |a|+h(X)\)。这个结论可以推广至随机向量的情况:\(h(AX)=H(X)+\log |\det A|\)。

当\(X\)满足正态分布\(N(\mu,\sigma^2)\)时,\(f(x)=\dfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)。我们以\(e\)为底数计算\(h(X)=-\displaystyle\int_S f(x)\ln f(x)\d x\),那么\(h(X)=-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\d x\)\(=-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}\d x-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln e^{-\frac{(x-\mu)^2}{2\sigma^2}}\d x\)\(=-\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}\displaystyle\int_{-\infty}^{+\infty}f(x)\d x+\displaystyle\int_{-\infty}^{+\infty}f(x)\cdot \frac{(x-\mu)^2}{2\sigma^2}\d x\),第一项根据概率密度函数的定义\(\displaystyle\int_{-\infty}^{+\infty}f(x)\d x=1\),第二项可以根据极坐标变换或复分析的方法计算得到\(\displaystyle\int_{-\infty}^{+\infty}f(x)\cdot {(x-\mu)^2}\d x=\sigma^2\),于是\(h(X)=\dfrac{1}{2}\ln(2\pi\sigma^2)+\dfrac{1}{2}=\dfrac{1}{2}\ln(2\pi e\sigma^2)\)。

。。。。。。。。。。。。。。。。。。。。。。。。。。。。没写完啦啦啦啦啦

标签:infty,log,int,dfrac,微分,delta,displaystyle
From: https://www.cnblogs.com/qixingzhi/p/18139532

相关文章

  • MindSpore自动微分小技巧
    技术背景基于链式法则的自动微分技术,是大多数深度学习框架中所支持的核心功能,旨在更加快速的进行梯度计算,并且可以绕开符号微分的表达式爆炸问题和手动微分的困难推导问题。本文主要基于MindSpore框架,记录一下几种自动微分的使用技巧。MindSpore版本信息:Name:mindsporeVersion......
  • EG25H4偏微分方程的解决方案
    EG25H4–CA2–偏微分方程的解决方案学生应独立准备解决指定问题的方案问题。提交的稿件,连同抄袭封面,应上传至2024年4月19日(星期五)下午5点(英国夏令时)前抵达MyAberdeen。请注意在截止日期后收到的未经授权的提交文件将受到逾期罚款,因为根据大学关于未经授权逾期提交的处罚政策课程。......
  • 双开助手微分身版 支持微分身、QQ分身、陌陌分身、荣耀战区穿越等。
    无论是游戏还是各种APP均可以多开!!【软件名称】猴子分身【软件大小】49.39M【软件版本】5.0.5【软件名称】双开助手微分身版【软件大小】34.05M【软件版本】10.0.8【软件名称】双开应用【软件大小】17.68M【软件版本】2.4.4【软件名称】CloneApp【软件大小】9.72M......
  • 微分方程数值解法_常微分方程篇
    一阶常微分方程初值问题问题的适定性(well-posedness):(數學系的角度)•存在性:问题有解•唯一性:解是唯一的•稳定性:这个唯一解连续地依赖于问题中所给的数据(即初值、边值等)初值问题的求解Euler法區別(極限)入門要點:極限、中值定理==......
  • 高等数学基础篇(数二)之多元函数的微分法
    多元函数微分法:一、复合函数微分法二、隐函数微分法三、复合函数偏导数与全微分四、隐函数偏导数与全微分目录一、复合函数微分法二、隐函数微分法三、复合函数偏导数与全微分四、隐函数偏导数与全微分一、复合函数微分法二、隐函数微分法补充:隐函数求导的......
  • 02-05自动微分
    2.5自动微分1.一个简单的例子importtorchx=torch.arange(4.0)y=2*torch.dot(x,x)y.backward()x.gradx.grad.zero_()#在默认情况下,PyTorch会累积梯度,我们需要清除之前的值y=x.sum()y.backward()x.grad2.分离计算#y是作为x的函数计算的,而z则是作为y......
  • 微分几何:曲线基本理论
    参数曲线基本理论曲线的定义假设有一个运动的质点,从0到T时刻,质点从A点运动到B点,质点运动的轨迹形成了一条曲线,我们可以将这条路径曲线看成是时间t∈[......
  • 高等数学基础篇(数二)之微分方程(高阶线性微分方程)
    高阶线性微分方程:1.线性微分方程的解的结构2.常系数齐次线性微分方程3.常系数非齐次线性微分方程4.欧拉方程5.差分方程目录1.线性微分方程的解的结构2.常系数齐次线性微分方程3.常系数非齐次线性微分方程4.欧拉方程5.差分方程1.线性微分方程的解的结构2.......
  • 高等数学考研基础篇——第三章 一元微分学的应用
    这一章节特别重要,需要多花一些时间和精力去理解和学习,因此本章我写的详细一些,仅供参考。有关极值点:函数的导数在某一点可能存在也可能不存在,当函数在该点的导数存在并且为0或者在该点不存在导数时,该点可能是极值点,但反推则不对。当函数的某点在它的邻域内既可导且等于零的时......
  • 常微分方程选题
    常微分方程一、基本概念常微分方程\(n\)阶线性微分方程齐次方程常数变易法Bernoulli方程:\(\frac{\mathrmdy}{\mathrmdx}=P(x)y+Q(x)y^n,\n\neq0,1,\P(x),Q(x)\)在\((a,b)\)上连续.Riccati方程:\(\frac{\mathrmdy}{\mathrmdx}=P(x)y^2+Q(x)y+f(x)\).全微分方......