深度学习与统计力学(VI) ：通过概率模型进行“深度想象”

标签：概率模型模型深度统计力学学习分布 VI

谷歌和斯坦福最新合作综述报告，发表在物理学的顶级期刊“凝聚态物理年鉴”（Annual Review of Condensed Matter Physics）。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli
本公众号将对本报告进行翻译，分6次发布。获取英文报告请在本公众号回复关键词“深度学习统计力学”。

系列预告

经典的概率无监督学习通过最大化对数似然从数据分布中拟合一组简单的概率分布。深度无监督学习的最新进展能够显著提高能够拟合数据的分布

1 基于能量的概率模型

我们首先关注一类与物理最紧密相关的模型，即基于能量的概率模型。在这类模型中，用 Boltzmann 分布来描述（Boltzmann因子）：

实际上机器学习领域最早的基于能量的概率模型就叫做玻尔兹曼机[157]，直接映射到具有学习耦合结构

2 学习、信息理论和自由能之间的联系

将公式(12)中的 Boltzmann 形式的概率代入公式(5)中的对数似然学习目标，我们得到

其中相对于数据分布的平均，是模型分布

最大化

其中是两个分布和散度的非负信息论度量，当且仅当时取值为0[154]。当为公式(12)所示的 Boltzmann 形式时，KL 散度变为了的 Gibbs 自由能与的 Helmholtz 自由能

学习对应在公式(14)中固定数据分布来优化模型参数。公式(14)的分解对应机器学习和统计力学中其他广泛的应用。通常，我们面对的是一个如公式(12)所示的带有耦合结构参数的固定复杂度的 Boltzmann 分布，我们希望用一个更简单的变分分布来逼近它。根据公式(14)，这种逼近可以通过固定，然后针对

3 自由能计算是学习的一道屏障

上一小节我们已经总结到对数似然和 KL 散度等统计概念，与能量、熵和自由能等物理概念之间存在紧密的关系，因此在机器学习和平衡态统计力学之间构建了桥梁。具体地，对于基于能量的模型，这种桥梁使得自由能函数的计算、逼近和优化成为两个领域共同的中心问题。然而这些也都是两个领域中的挑战性问题。此外，在机器学习中，即使是动机良好的

在基于能量的模型中，已经提出了很多方法来克服自由能计算的屏障，包括蒙特卡洛，对比发散启发式[163]及其变种[164]，评分匹配[165]，伪似然[166]，最小概率流学习（MPF）[167，168]（其中 MPF 本身是一种非平衡态统计力学方法）。在一些情况下，模型必须规范化的要求被放宽了，即概率解释被简单地抛弃了[169]。尽管取得了这些进展，但基于高维数据集的表达能量模型的训练仍然是一个开放的挑战。

高维空间上概率分布规范化的困难催生了一些有趣的数据生成建模方法，这些方法避免了概率本身的计算。这种方法包括在生成对抗网络（GAN）中用学习的鉴别器的判断来代替对概率的显式计算[171]，开发在规范化流（173–175）的情况下仍然可以解析地规范化的表示类函数（与哈密顿动力学有关；172），在自回归模型中将分布分解为一维条件分布的乘积[176]，在变分自编码器中将后验分布替换为可解的变分近似[177-180]。

4 非平衡态统计力学

6.2节讨论的机器学习和平衡态统计力学之间的桥梁正在被扩展来给机器学习和非平衡态统计力学之间建立连接。本节我们将讨论两个这类连接。这个领域有待探索，给非平衡态和机器学习建立桥梁的研究必将给两个领域都带来好处。相关的有希望的方向包括将物理系统当作信息处理引擎[181-184]。

4.1 Jarzynski 等式和退火重要度采样

一个最令人惊讶的机器学习和物理学的类比为：Jarzynski 等式（JE）是机器学习中退化重要度采样（AIS）的一个特例。值得注意的是， JE 将热力学第二定律中的不等式替换成了等式，

，

其中是两个宏观系统状态和之间自由能的变化。描述这些状态之间插值的时间依赖边界条件或控制参数。是沿轨道运动所做的功，表示轨道的期望。这里我们依然假设 Boltzmann 因子。

AIS [185]和及其扩展[186,187]是重要采样（IS）的推广，通过对可解分布的样本进行重新赋权来计算不可解分布的无偏期望。在 AIS 中，正马尔可夫链和逆马尔可夫链在两个分布之间架起桥梁，使得方差比 IS 要低。如果用 AIS 来估计两个基于能量模型规范化因子的比值，则为

其中和分别为前向轨迹和反向轨迹的分布。在 AIS 中，在前向后反向链中通常选择马尔科夫转移，以满足平衡条件。如果我们进一步记时间步做的功为，全部做的功为。注意到

4.2 将非平衡扩散当作生成模型

非平衡物理学的思想不仅可以用来评价概率模型的性质，而且可以用来定义概率模型。例如，文献16训练参数非平衡过程以生成复杂的数据分布。其基本思想是首先通过允许单个数据点在数据空间中扩散来缓慢破坏复杂数据分布中的结构。这个扩散过程通过步迭代前向扩散核将复杂的未知数据分布转化为一个简单的、可处理的分布。例如，在自然图像的情况下，扩散对应于每个像素强度经历一个独立的无偏随机游走，将逐渐将任何结构化图像转换为白噪声图像。

可以训练一个神经网络来逆转这个不可逆的、产生熵的扩散过程中的时间流。更准确地说，时间反转神经网络的每一步都是通过学习反向转换核将数据点向后移动一步。然后这些核的复合产生了数据的非平衡生成模型。在这个生成模型中，只需从简单分布中采样，然后重复应用连续的反向转换，即可得到原始数据分布

深度学习与统计力学(VI) ：通过概率模型进行“深度想象”_机器学习

图6 基于物理的概率模型在整个深度学习领域得到了迅速的发展，但目前还有些落后于其他概率方法，特别是自回归模型。图中显示了从自然图像数据集上训练的概率模型中生成的样本。(a-c)来自基于物理的概率模型的样本；(d)来自当前最好的（基于对数似然）图像概率模型的样本。

总结

我们希望这篇综述能体现围绕着寻求对深度学习的深刻经验成功的理论理解方面的进展。不可避免的是，我们目前的理论理解只是一个更为统一的图景的冰山一角，这一图景将在随后的几年里出现。然而，令人兴奋的是，即使是这一可见的小部分也揭示了新的深度学习领域与相对古老的统计力学和凝聚态物理领域之间的丰富联系。事实上，在这些领域中，面包和黄油的主题，如随机曲面，相变，混沌，自旋玻璃，干扰，随机矩阵，相互作用的粒子系统，非平衡统计力学，以及更多的数学主题，如自由概率和黎曼几何，开始揭示深度学习中有趣的现象。

存在很多机会开展更明智的受控深层网络科学实验组合和开发更现实的训练数据和神经网络示例模型，以加深我们现有的理解。这种实验和理论的结合一直是物理学概念进步的动力，我们相信深度学习将为物理学家提供更多这样的研究机会。更有趣的是，这一研究领域可能为物理学家提供一个机会，与计算机科学家和神经科学家建立联系，并发展一个关于非线性分布神经电路（无论是人工的还是生物的）如何计算、通信、学习和想象的统一理论[190]。

深度学习与统计力学(VI) ：通过概率模型进行“深度想象”_概率模型_02

标签：概率模型,模型,深度,统计力学,学习,分布,VI
From： https://blog.51cto.com/u_15622928/5762167