信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。
- 发生可能性较大的事件包含较少的信息
- 发生可能性较小的事件包含较多的信息
- 独立事件包含额外的信息
对于事件 \(\mathbf x=x\),定义自信息self-information
为:
自信息仅仅处理单个输出。如果计算自信息的期望,它就是熵,记作\(H(P)\):
\[H(\mathbf x)=\mathbb E_{\mathbf x\sim P}[I(x)]=-\mathbb E_{\mathbf x\sim P}[\log P(x)] \]\(KL\)散度:对于给定的随机变量\(\mathbf x\),它的两个概率分布函数 \(P(x)\) 和 \(Q(x)\) 的区别可以用\(KL\)散度来度量:
\[D_{KL}(P||Q)=\mathbb E_{\mathbf xsim P}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb E{\mathbf x\sim P}\left[\log P(x) -\log Q(x) \right] \]- \(KL\)散度非负。当它为0时,当且仅当 \(P\)和\(Q\)是同一个分布(对于离散型随机变量),或者两个分布几乎处处相等(对于连续型随机变量)
- \(D_{KL}(P||Q) \neq D_{KL}(Q||P)\)
交叉熵\(cross-entropy\):\(H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbb E{\mathbf x\sim P}\log Q(x)\)
标签:mathbb,机器,log,信息,KL,数学,mathbf,信息论,sim From: https://www.cnblogs.com/crazypigf/p/17293925.html