信息论
是概率论的延申,在机器学习领域,用于
- 构造目标函数
- 对算法进行理论分析和证明
1.熵
熵衡量了一个概率分布的随机性程度,或者说它包含的信息量的大小。
随机变量X取值为x的概率为p(x),p(x)很小,而这个事件又发生了,则包含的信息量大。用h(x)表示信息量的大小,则h(x)应为p(x)的单调减函数,现在想要尝试找出h(x)和p(x)的函数关系,尝试根据如下例子找出二者之间的关系。
随机变量X和Y相互独立,取得x和y的概率分别为p(x)和p(y),提供的信息量分别为h(x)和h(y),考虑X=x和Y=y同时发生的情况
-
p(x,y) = p(x) * p(y)
由于X,Y相互独立,则二者同时发生的概率应该为二者分别发生的概率之积
-
h(x,y) = h(x) + h(y)
由于X,Y相互独立,则二者同时发生的信息量应该为二者分别发生的信息量之和
-
p(x,y) 和 h(x,y) 之间存在某种函数关系
即:p(x) * p(y) 和 h(x) + h(y) 之间存在这种函数关系
又:p(x) 和 h(x) 之间,p(y) 和 h(y) 之间同样存在这种函数关系
考虑到要在乘积与和之间建立一座桥梁,因此应该是对数关系
信息量定义为
\[h(x)=-lnp(x) \]\(y=-ln(x)\)的函数图像如下
- 当p(x)越小时(\(p(x)\geq0\)),对应的h(x)越大
- 当p(x)越大时(\(p(x)\leq1\)),对应的h(x)越小
- h(x)总为正值
熵 := 信息量的数学期望
离散型随机变量的熵
\[H(p)=-\sum_{i=1}^{n}p_ilnp_i,\qquad p_i=p(x_i) \]eg1:
eg2:
eg1分布的熵大于eg2分布的熵,因为eg1为均匀分布,随机性更强
连续型随机变量的熵,概率密度函数为p(x)
\[H(p)=-\int_{-\infty}^{+\infty}p(x)lnp(x)dx \]2.交叉熵
交叉熵定义在两个概率分布之上,反映了他们之间的差异程度,常用于设计损失函数
离散型随机变量
eg1:
eg2:
连续型随机变量
3.KL散度
KL散度同样定义在两个概率分布之上,反映了他们之间的差异程度,通常用于对算法进行理论分析
离散型随机变量
eg1:
eg2:
连续型随机变量
KL散度和交叉熵的关系
KL散度是p,q交叉熵和p的熵之差,在机器学习中,通常以分布p为目标,拟合出分布q来近似p
待补充...
标签:函数,信息量,eg1,散度,KL,随机变量,信息论 From: https://www.cnblogs.com/dctwan/p/17442559.html