机器学习-白板推导-系列（十二）笔记：变分推断

文章目录

0 笔记说明
1 背景介绍

1.1 频率派
1.2 贝叶斯派

2 公式推导
3 符号修正
4 SGVI

0 笔记说明

。

注意：本笔记主要是为了方便自己日后复习学习，而且确实是本人亲手一个字一个公式手打，如果遇到复杂公式，由于未学习LaTeX，我会上传手写图片代替（手机相机可能会拍的不太清楚，但是我会尽可能使内容完整可见），因此我将博客标记为【原创】，若您觉得不妥可以私信我，我会根据您的回复判断是否将博客设置为仅自己可见或其他，谢谢！

本博客为（系列十二）的笔记，对应的视频是：【(系列十二) 变分推断1-背景介绍】、【(系列十二) 变分推断2-公式推导】【(系列十二) 变分推断3-再回首】、【(系列十二) 变分推断4-SGVI-1】、【(系列十二) 变分推断5-SGVI-2】。

下面开始即为正文。

1 背景介绍

1.1 频率派

从频率角度研究机器学习的算法，最终会演化为优化问题。下面通过对之前讨论过的线性回归与SVM来举例说明为什么会演化为一个优化问题。

先看线性回归：首先假设数据集D中有N个样本实例，D={(x₁, y₁), (x₂, y₂),…,(x_N, y_N)}，每个样本的x_i∈R^p，每个样本的y_i∈R，i=1…N。构造两个矩阵X与Y：X=(x₁,x₂,…,x_N)^T，X为N*P阶矩阵；Y=(y₁,y₂,…,y_N)^T，Y为N*1阶矩阵。描述如下：

机器学习-白板推导-系列（十二）笔记：变分推断_隐变量

再看SVM：

机器学习-白板推导-系列（十二）笔记：变分推断_推断_02

果然演化为一个优化问题了。

1.2 贝叶斯派

从贝叶斯角度研究机器学习的算法，最终会演化为积分问题。

机器学习-白板推导-系列（十二）笔记：变分推断_VI_03

上图右面可不就是积分问题么。贝叶斯决策就是做预测，预测是这样的：

机器学习-白板推导-系列（十二）笔记：变分推断_推断_04

贝叶斯推断就是求后验概率，分为精确推断与近似推断，其中后者又分为确定性近似推断与随机近似推断。

本博文的主题——变分推断（Variational Inference，VI）属于确定性近似推断。

2 公式推导

设X为观测数据，Z为隐变量和参数，(X,Z)称为完整数据，log p(X)可写为：

机器学习-白板推导-系列（十二）笔记：变分推断_隐变量_05

则有：log p(x)=ELBO+KL[q(z)||p(z|x)]，设ELBO为L(q(z))，则log p(x)=L(q(z))+KL[q(z)||p(z|x)]，称L(q(z))为变分。当q(z)→p(z|x)即q(z)越接近于p(z|x)，则KL[q(z)||p(z|x)]越接近于0。对于log p(x)=L(q(z))+KL[q(z)||p(z|x)]，若x固定，则log p(x)固定，即左面固定，现在要做的就是求q(z)，使其接近于p(z|x)，于是：

机器学习-白板推导-系列（十二）笔记：变分推断_机器学习_06

现在假设数据分为M个组，且各组之间相互独立，则q(z)为：

机器学习-白板推导-系列（十二）笔记：变分推断_变分推断_07

将ELBO=L(q(z))分为两个公式：

机器学习-白板推导-系列（十二）笔记：变分推断_推断_08

则ELBO=L(q(z))=①-②，假设M个组中，已固定第1个、第2个…第j-1个、第j+1个组…第M个组的q(z_i)，其中i=1,2,…,j-1,j+1,…,M，要求解的是第j个组的q(z_j)。下面对①、②式分开处理，先是①式：

机器学习-白板推导-系列（十二）笔记：变分推断_VI_09

接下来是②式：

机器学习-白板推导-系列（十二）笔记：变分推断_推断_10

上式是②式的化简结果，先对第一项进行观察：

机器学习-白板推导-系列（十二）笔记：变分推断_变分推断_11

因此上上一张图片，即②的化简结果可继续化简为：

机器学习-白板推导-系列（十二）笔记：变分推断_推断_12

则ELBO=L(q(z))=①-②为：

机器学习-白板推导-系列（十二）笔记：变分推断_推断_13

3 符号修正

本节对第二节的某些符号进行修正，以免变量名混淆。

X={x⁽¹⁾,x⁽²⁾,…,x^(N)}为N个样本，x⁽ⁱ⁾为第i个样本，Z={z⁽¹⁾,z⁽²⁾,…,z^(N)}为N个隐数据，z⁽ⁱ⁾为第i个隐数据。设x为观测变量，z为隐变量，θ为参数，x∈R^p，x_i为样本的第i个维度，z∈R^p，z_i为隐数据的第i个维度，z的分布为q(z)，则log p_θ(X)可写为：