机器学习-白板推导-系列（二）笔记：高斯分布与概率

标签：概率推导 xb 白板 xa 矩阵概率分布高斯分布

文章目录

0 笔记说明
1 高斯分布

1.1 求u_MLE
1.2 求σ_MLE

2 有偏估计与无偏估计

2.1 u_MLE为无偏估计
2.2 σ²_MLE为有偏估计

3 高斯分布的概率密度函数
4 高斯分布的局限性
5 边缘概率与条件概率的求解

5.1 边缘概率分布P(x_a)与P(x_b)
5.2 条件概率分布P(x_a|x_b)与P(x_b|x_a)

6 联合概率分布的求解

6.1 p(y)的求解
6.2 p(x|y)的求解

0 笔记说明

我在学习时会跟着up主一起在纸上推导，博客内容为对笔记的二次书面整理，根据自身学习需要，我可能会增加必要内容。

注意：本笔记主要是为了方便自己日后复习学习，而且确实是本人亲手一个字一个公式手打，如果遇到复杂公式，由于未学习LaTeX，我会上传手写图片代替（手机相机可能会拍的不太清楚，但是我会尽可能使内容完整可见），因此我将博客标记为【原创】，若您觉得不妥可以私信我，我会根据您的回复判断是否将博客设置为仅自己可见或其他，谢谢！

本博客为（系列二）的笔记，对应的视频是：【(系列二) 数学基础-概率-高斯分布1-极大似然估计】、【(系列二) 数学基础-概率-高斯分布2-极大似然估计-无偏VS有偏】、【(系列二) 数学基础-概率-高斯分布3-从概率密度角度观察】、【(系列二) 数学基础-概率-高斯分布4-局限性】、【(系列二) 数学基础-概率-高斯分布5-求边缘概率以及条件概率】、【(系列二) 数学基础-概率-高斯分布6-求联合概率分布】。

下面开始即为正文。

1 高斯分布

数据集X中有N个样本实例，每个样本有p个维度。用符号表示为X = (x₁,x₂,…,x_N)^T，x_i∈R^p，i=1…N，X为N*P阶矩阵。

设x_i独立同分布于高维（维度为p）的高斯分布N(α,β)，即x_i～N(α,β)，i=1…N。这里参数θ=(α,β)，此时概率密度函数P(x)为：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_白板推导

为方便讨论，现在令p=1，θ=(μ,σ²)，即【α=μ，β=σ²】。此时x_i～N(μ,σ²)，i=1…N。则x_i的期望值E(x_i)=μ，此时变成一维高斯分布（或称为一维正态分布）概率密度函数P(x)为：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_概率分布_02

根据此文【机器学习-白板推导-系列（一）笔记：频率派/贝叶斯派】中【2 频率派：θ为未知常量】一节的图片可得：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_正态分布_03

因为此时θ=(μ,σ²)，既然求θ_MLE，就求【u_MLE】和【σ_MLE】好了。

1.1 求uMLE

机器学习-白板推导-系列（二）笔记：高斯分布与概率_白板推导_04

然后对u_MLE关于μ求导，并令导数等于0：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_高斯分布_05

1.2 求σMLE

机器学习-白板推导-系列（二）笔记：高斯分布与概率_概率分布_06

然后对σ_MLE关于σ求导，并令导数等于0：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_概率分布_07

2 有偏估计与无偏估计

有偏估计就是估计值与实际值有偏差；无偏估计就是估计值与实际值相同。举个栗子：设μ₁为μ的估计，若μ₁的期望E(μ₁)=μ，则μ₁为μ的无偏估计；设σ²₁为σ²的估计，若σ²₁的期望E(σ²₁)≠σ²，则σ²₁为σ²的有偏估计。

那么问题来了，在前一节即【1 高斯分布】一节中求出的u_MLE和σ²_MLE属于哪种估计呢？

2.1 uMLE为无偏估计

机器学习-白板推导-系列（二）笔记：高斯分布与概率_机器学习_08

2.2 σ2MLE为有偏估计

第一步，化简：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_正态分布_09

第二步，判断：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_白板推导_10

3 高斯分布的概率密度函数

现在有一个数据集X中有N个样本实例，每个样本有p个维度。用符号表示为X = (x₁,x₂,…,x_N)^T，x_i∈R^p，i=1…N。

设x为随机变量（小写的哦），且x本身是一个p维向量，x=(x₁,x₂,…,x_p)^T。假设x～N(μ,Σ)，μ为x的期望即【E(x)=μ】，则μ也为p维向量，设μ=(μ₁,μ₂,…,μ_p)^T；Σ为x的协方差矩阵，Σ为对称矩阵且是半正定的。下图给出了Σ矩阵：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_白板推导_11

下图是高维的高斯分布的概率密度函数（【(x-μ)^TΣ^-1(x-μ)】本质是一个二次型，是半正定的，但是为了方便讨论，下文假设为正定的）：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_白板推导_12

【(x-μ)^TΣ^-1(x-μ)】是向量x与μ的马氏距离，为【(1×p)×(p×p)×(p×1)=1】维的一个数。当Σ为p维单位矩阵，则马氏距离变成欧氏距离。下面对Σ做特征分解（也称为谱分解）：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_概率分布_13

将上面算好的Σ代入【(x-μ)^TΣ^-1(x-μ)】：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_正态分布_14

利用一个小技巧（根据up主的说法，向量y_i为向量x-μ在向量μ_i方向上的投影，我线代和矩阵学的不好，暂时不太了解），如下：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_高斯分布_15

p为维度，令p=2。为了书写方便，令【Δ=(x-μ)^TΣ^-1(x-μ)】，则：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_机器学习_16

4 高斯分布的局限性

机器学习-白板推导-系列（二）笔记：高斯分布与概率_概率分布_17

5 边缘概率与条件概率的求解

现在将x分为两部分，令x=(x_a,x_b)^T，x_a为m维向量，x_b为n维向量，且m+n=p。不难看出x_a与x_b的联合概率分布即为x的概率分布。

同样地，将μ分为两部分，令μ=(μ_a,μ_b)^T，μ_a为m维向量，μ_b为n维向量，且m+n=p。

也将Σ矩阵划分为四部分：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_概率分布_18

由于Σ是对称矩阵，所以Σ_ab^T=Σ_ba，Σ_aa^T=Σ_aa，Σ_bb^T=Σ_bb。

现在的问题就是求解：① 边缘概率分布P(x_a)与P(x_b)；② 条件概率分布P(x_a|x_b)与P(x_b|x_a)。

先给出一个定理：设x～N(μ,Σ)，y=Ax+B，A与B均为矩阵，则y～N(Aμ+B,AΣA^T)。记此定理为*（下面会用到，一定记住）。

现在开始求解。

5.1 边缘概率分布P(xa)与P(xb)

机器学习-白板推导-系列（二）笔记：高斯分布与概率_正态分布_19

则边缘概率分布P(x_a)与P(x_b)可由对应的高斯分布的概率密度函数给出。

5.2 条件概率分布P(xa|xb)与P(xb|xa)

机器学习-白板推导-系列（二）笔记：高斯分布与概率_白板推导_20

现给出高斯分布的另一条定理：设x～N(μ,Σ)，则Mx⊥Nx⇔MΣN^T=0，这里Mx⊥Nx指Mx与Nx相互独立，M与N均为矩阵，Σ还是上面的分块矩阵：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_机器学习_21

记上面的定理为**（下面会用到，一定记住）。下面证明x_ba与x_a的独立性，用到了**定理哦：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_概率分布_22

因为MΣN^T=0，所以x_ba是x_a相互独立的，所以结合条件概率与独立性【P(x_ba|x_a)=P(x_ba)】。下面继续推：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_机器学习_23

6 联合概率分布的求解

已知x～N(μ,Λ^-1)，其中Λ^-1称为精度矩阵，为协方差矩阵Σ的逆矩阵。y=Ax+b+ε，其中A与b为系数，ε～N(0,L^-1)，ε与x独立，则y|x～N(Aμ+b,L^-1)。现在要求的是：① p(y)；② p(x|y)。

6.1 p(y)的求解

机器学习-白板推导-系列（二）笔记：高斯分布与概率_概率分布_24

则p(y)可由对应的高斯分布的概率密度函数给出。

6.2 p(x|y)的求解

机器学习-白板推导-系列（二）笔记：高斯分布与概率_高斯分布_25

上面算出了E(z)与Var(z)，则x与y的联合概率分布即z的分布为N(E(z),Var(z))。在【5 边缘概率与条件概率的求解】一节中，x=(x_a,x_b)^T，x_a|x_b的分布为：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_高斯分布_26

其中的各个符号为：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_白板推导_27

根据上面的公式，x|y～N(μ_xy+Σ_xyΣ_yy^-1y,Σ_xxy)，对应地，前面这个式子的各个符号为：

机器学习-白板推导-系列（二）笔记：高斯分布与概率_正态分布_28

则p(x|y)可由对应的高斯分布的概率密度函数给出。

END

标签：概率,推导,xb,白板,xa,矩阵,概率分布,高斯分布
From： https://blog.51cto.com/u_14975310/6038983