变分推断:从求分布的推断问题,变成缩小距离的优化问题
- 频率学派与贝叶斯学派
- 隐空间和隐变量
- 变分推断
- 完整推导
频率学派与贝叶斯学派
学过概率论,应该了解过,概率分为 2 个学派:
- 频率学派:数据是客观的(看到啥就是啥,隐变量z->观察变量/输入变量x),直接求统计指标即可(似然函数),代表之作像 CNN、RNN、transformer 这类判别模型(学习类别边界)
- 贝叶斯学派:数据来自隐变量z(每个孩子都有一个妈,),数据都有主观的先验的分布(知道先验,贝叶斯公式推导后验),代表之作像 VAE、GAN、扩散模型 这类概率生成模型(学习概率分布)
隐空间和隐变量
隐空间和隐变量相当于幕后的英雄,虽然不直接出现在台前,但是对整个剧情的发展起着决定性的作用。
隐空间可以理解为一种隐藏的、不直接观测到的多维空间,它包含了数据的一些内在特征或属性。这些特征不是直接在数据中展示的,但是通过学习和推断,我们可以揭示数据背后的结构。你可以把隐空间想象成一个幕后的控制室,它控制着数据表现出来的各种特性和样式。
- 以人脸识别为例,原始的图像数据是由成千上万的像素点组成的,这是我们直接观测到的。但是人脸的一些内在特征,比如笑容的形状、眼睛的距离、鼻子的大小等,都是隐藏在这些像素点背后的。这些特征构成了一个隐空间,在这个空间中,每一个维度都代表了人脸的一个内在特征。机器学习模型通过学习这个隐空间,可以更好地理解和处理复杂的图像数据。
隐变量则是隐空间中的具体坐标或者点,它们代表了数据在隐空间中的具体位置。这些变量帮助我们描述数据中不可直接观测的特性或因素。隐变量像是那些影响剧情但不直接出现的角色,虽然你看不到他们,但他们的存在通过剧情中的其他角色或事件表现出来。
- 以心理学研究为例,研究者可能对人的“智力”或“创造力”这样的抽象概念感兴趣。这些概念不能直接测量,因此它们是隐变量。研究者通过设计一系列的测试题目(观察到的变量),试图测量和理解这些隐变量。
隐空间是一个抽象的空间,而隐变量是在这个空间中的具体点,它们一起帮助我们探索和理解数据背后的深层次信息。
助我们捕捉数据的本质和复杂度,而不必被数据的高维表象所困扰。
变分推断
把贝叶斯学派的公式展开:
按照贝叶斯展开后,分母
可以用 马尔科夫链-蒙特卡洛方法 来近似,但 马尔科夫链-蒙特卡洛方法 是基于 迭代 策略(一步步来的那种)。
- 导致ta计算慢,不适合深度学习这种大规模数据的计算
变分推断另一种解法,适合深度学习这种大规模数据的计算、适合并行计算。
按照贝叶斯学派的思想,估计下图的黄色分布,那设置一个先验(有点像高斯分布),用高斯分布去套这个黄色分布:
目的是,让高斯分布尽可能的重合黄色分布。
- 用变分分布去逼近推断后的后验分布
- 最小化俩个分布的 KL 散度
- 代表一个叫做q的概率分布,
- 我们要找到一个参数 ,使得 和
- KL 散度用于,衡量俩个分布之间的距离
公式的目标是找到一个概率分布 ,使得它与给定数据 的真实概率分布
通过调整参数 的值,我们可以调整
比如上图,调整参数
变分推断步骤:
- 输入:数据x,模型
- 需要推断的是后验概率 ,但不能直接求
- 构造后验概率 的近似分布
- 不断缩小 q 和 p 之间的距离,直至收敛
展开上面公式的 KL 散度(变成期望和log运算表示):
完整推导
第二行:将 KL 散度的定义展开为期望值的形式, 表示在
第三行:除法变成减法形式
第四行: 替换后验公式
第五行:log运算展开后验公式,再把中括号外面的 E 放进来了
第六行:合并 变成 KL 散度形式,
常数前面的
- 数据的似然度
- 潜在变量的先验分布
最小化 -证据下界,等于最大化证据下界,因为前面有一个负号:
最终推断结果,告诉我们,可以通过最大化证据下界来近似地学习模型的参数。
通过优化证据下界,我们可以找到一个概率分布 ,使得ta能最好地解释观测数据,并且与真实潜在变量的分布尽量接近。