微分熵\(\newcommand{\d}{\text{ d}}\)
对于连续的随机变量\(X\),假如它有概率密度函数\(f(x)\),那么我们仿照离散熵的表达式,定义\(X\)的微分熵为\(h(X)=-\displaystyle\int_S f(x)\log f(x)\d x\)。其中,\(S=\{x\mid f(x)>0\}\)。根据定义,连续随机变量的微分熵只与\(f\)有关而与具体的取值无关,因此\(h(X)\)也可以记为\(h(f)\)。
当\(X\)是\([0,a]\)上的均匀分布时,\(f(x)=\dfrac{1}{a}\),\(S=[0,a]\)。于是\(h(X)=-\displaystyle\int_0^a \dfrac 1 a \log \dfrac 1 a\d x=-\dfrac 1 a \log \dfrac 1 a\displaystyle\int_0^a \d x=\log a\)。由此可见,当\(a\in (0,1)\)时,\(h(X)<0\)。可见微分熵可以取负数值,这与离散熵很不同。这意味着,微分熵的“含义”本身就已经与离散熵完全不同,离散熵可以理解为平均意义下表示一个随机变量需要多少个bit,而这不可能是一个负数。
微分熵并不描述一个随机变量所包含的“信息量”。事实上,我们不可能沿用与离散时相同的方法来描述连续随机变量的信息量。试想要描述一个在\([0,1]\)上均匀分布的连续随机变量\(X\)需要多少位?这样的连续随机变量可以用一列\(X_1,\cdots,X_n,\cdots\)分别描述小数点后的某一位,每个\(X_i\)都在\([9]\)上均匀取值,这样\(X\)的信息量就等于所有的\(H(X_i)\)求和,得到正无穷。也就是说,一个连续随机变量的离散信息量是无穷的,需要无穷位才能描述。
既然不可能完全精确描述实数,那么如果我们对\(X\)做截断,只要求描述连续分布中\(X\)在小数点后的前若干位呢?等价地,我们研究当我们对\(f(x)\)做离散分割后得到的离散熵与微分熵的关系。取\(\delta>0\),把\(S\)分割为\([n\delta,(n+1)\delta]\)的区间,在每个区间上根据积分中值定理都有\(\delta\cdot f(\xi_n)=\displaystyle\int_{n\delta}^{(n+1)\delta} f(x)\d x\),令离散随机变量\(X^{(\delta)}=\xi_n\),如果\(X\in [n\delta,(n+1)\delta]\)。显然,\(p(X^{(\delta)})=f(\xi_n)\delta\),那么\(H(X^{(\delta)})=-\sum\limits_{n}f(\xi_n)\delta\cdot \log(f(\xi_n)\delta)\)\(=-\sum\limits_{n}f(\xi_n)\delta\cdot \log(f(\xi_n))-\sum\limits_{n}f(\xi_n)\delta\cdot \log\delta\),因为\(\sum\limits_{n}f(\xi_n)\delta=1\),所以得到\(\sum\limits_{n}f(\xi_n)\delta\cdot \log(f(\xi_n))-\log\delta\),当\(n\to\infty\)时前者就是\(h(X)\)。由此,\(H(X^{(\delta)})=h(X)-\log\delta\)。可见微分熵可以理解为\(H(X^{(\delta)})+\log\delta\),也即如果用精度为\(\delta\)的离散变量来逼近,离散熵总是等于微分熵加上一个\(-\log\delta\)的项。当\(\delta\to 0\)时,\(-\log\delta\to+\infty\)。
\(\newcommand{\E}{\mathbb{E}}\)由于大数定理对连续情形依然成立,所以我们对于渐进均分性(AEP)以及典型集的讨论都可以继承离散的情形。\(-\dfrac{1}{n}\log f(X_1,\cdots,X_n)\to \E[-\log f(X)]=h(f)\)。关于典型集,唯一需要修改的是,集合的“大小”现在是无穷大。而如果采用相同的论证,就必须把\(\sum\limits_{x}\)替换成\(\displaystyle\int_{S}\d x\)。因此我们定义集合\(A\)的体积为\(\text{Vol}(A)=\displaystyle\int_{A}\d x\),那么再次得到\(\Pr(A_\epsilon^{(n)})>1-\epsilon\),\(2^{n(h(X)+\epsilon)}\leq \text{Vol}(A_\epsilon^{(n)})\leq (1-\epsilon)2^{n(h(X)-\epsilon)}\)。由此可见,微分熵的另一个直观含义在于它刻画了典型集的大小。微分熵越大,典型集越大,随机变量的分布越松散。可见,微分熵依旧在刻画随机变量的“不确定性”,但是在连续意义下不能用信息位数来理解不确定性。
性质
与离散熵相比,微分熵的性质与离散熵既有相同点,也有不同点。下面集中讨论这些性质。
对于离散随机变量,如果令\(X\)变为\(X+c\),那么分布不会改变,因此熵不变。而对于连续随机变量,加一个常数相当于概率密度函数的平移,而由于概率密度函数是在整条实轴上取值的,这其实是改变了概率分布的。但我们可以计算得到平移是不改变微分熵的大小的:记\(Y=X+c\),则\(f_Y(x)=f_X(x+c)\)。\(h(Y)=-\displaystyle\int_{S_Y} f_Y(x)\log f_Y(x)\d x=-\displaystyle\int_{S_Y} f_X(x+c)\log f_X(x+c)\d x\)\(-\displaystyle\int_{S_X} f_X(x)\log f_X(x)\d x=h(X)\)。
而如果令\(X\)变为\(aX\),微分熵是会改变的:记\(Y=aX\),则\(f_Y(x)=\dfrac{1}{|a|}f_X(\dfrac{x}{a})\)。\(h(Y)=-\displaystyle\int_{S_Y} f_Y(x)\log f_Y(x)\d x\)\(=-\displaystyle\int_{S_Y} \dfrac{1}{|a|}f_X(\dfrac{x}{a})\log \left[\dfrac{1}{|a|}f_X(\dfrac{x}{a})\right]\d x\)\(=-\displaystyle\int_{S_Y} \dfrac{1}{|a|}f_X(\dfrac{x}{a})\log \dfrac{1}{|a|}\d x-\displaystyle\int_{S_Y} \dfrac{1}{|a|}f_X(\dfrac{x}{a})\log f_X(\dfrac{x}{a})\d x\)\(=\log |a|+h(X)\)。这个结论可以推广至随机向量的情况:\(h(AX)=H(X)+\log |\det A|\)。
当\(X\)满足正态分布\(N(\mu,\sigma^2)\)时,\(f(x)=\dfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)。我们以\(e\)为底数计算\(h(X)=-\displaystyle\int_S f(x)\ln f(x)\d x\),那么\(h(X)=-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\d x\)\(=-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}\d x-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln e^{-\frac{(x-\mu)^2}{2\sigma^2}}\d x\)\(=-\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}\displaystyle\int_{-\infty}^{+\infty}f(x)\d x+\displaystyle\int_{-\infty}^{+\infty}f(x)\cdot \frac{(x-\mu)^2}{2\sigma^2}\d x\),第一项根据概率密度函数的定义\(\displaystyle\int_{-\infty}^{+\infty}f(x)\d x=1\),第二项可以根据极坐标变换或复分析的方法计算得到\(\displaystyle\int_{-\infty}^{+\infty}f(x)\cdot {(x-\mu)^2}\d x=\sigma^2\),于是\(h(X)=\dfrac{1}{2}\ln(2\pi\sigma^2)+\dfrac{1}{2}=\dfrac{1}{2}\ln(2\pi e\sigma^2)\)。
。。。。。。。。。。。。。。。。。。。。。。。。。。。。没写完啦啦啦啦啦
标签:infty,log,int,dfrac,微分,delta,displaystyle From: https://www.cnblogs.com/qixingzhi/p/18139532