KL散度
KL散度,又叫相对熵,用于衡量两个分布之间的距离。设$p(x),q(x)$是关于随机变量$x$的两个分布,则$p$相对于$q$的KL散度为:
- 信息论中,熵$H(P)$表示对来自$P$的随机变量进行编码所需的最小字节数,
- 而交叉熵$H(P,Q)$则表示使用基于$Q$的编码对来自$P$的变量进行编码所需的字节数,
- 因此,KL散度可以认为是使用基于$Q$的编码对来自$P$的变量进行编码所需的“额外”字节数;显然,额外字节数必然非负,当且仅当$P=Q$时,额外字节数为0,
等式的前一部分恰巧就是$P$的熵,等式的后一部分,就是交叉熵,
CLASS torch.nn.KLDivLoss(size_average=None, reduce=None, reduction='mean', log_target=False)
标签:编码,nn,字节数,torch,散度,KLDivLoss,KL From: https://www.cnblogs.com/zjuhaohaoxuexi/p/16712660.html