深度学习与统计力学(IV) ：深层网络的信号传播和初始化

标签：初始化非线性矩阵网络统计力学 IV 深度传播

谷歌和斯坦福最新合作综述报告，发表在物理学的顶级期刊“凝聚态物理年鉴”（Annual Review of Condensed Matter Physics）。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli

本公众号将对本报告进行翻译，分6次发布。获取英文报告请在本公众号回复关键词“深度学习统计力学”。

系列预告

深度学习与统计力学(I) ：深度学习中的基础理论问题
深度学习与统计力学(II) ：深度学习的表达能力
深度学习与统计力学(III) ：神经网络的误差曲面
深度学习与统计力学(IV) ：深层网络的信号传播和初始化
深度学习与统计力学(V) ：深度学习的泛化能力
深度学习与统计力学(VI) ：通过概率模型进行“深度想象”

在对公式(3)的误差曲面运行梯度下降之前，我们必须要选择参数的初始配置。对应公式(1)神经网络中所有层中的权重和偏置。通常，这些参数的初始值是随机选择的。权重从一个零均值方差为的高斯分布中独立同分布采样，其中为突触前层的神经元数量。偏置则是从一个零均值方差为的高斯分布中独立同分布采样。权重和偏置的相对尺度确保两者在同等的基础上影响突触后活动，即使对于大的。

一些自然的问题是：如何选择方差和 在本节我们将介绍一些工作，通过对这种随机深层网络中的信号传播的理论理解得到的非平凡初始化模式效果显著优于实践中常用的初始化方法。

1 随机神经网络中的动态相变

随机网络中的信号传播理论在一个大宽度的平均场极限（即对所有的 ,

在大宽度极限下，我们可以得到自平均性质：即在固定的权重和偏置下，层的输入在神经元上的经验分布等于随机选择权重和偏置时某个固定神经元的输入 。

进一步地，对于足够规则的非线性函数 , 当网络宽度足够大时，上述两个分布均收敛为高斯分布[29,61]。在这种极限情况下，输入的前向传播和误差的后向传播都表现出动态相变，且是和

1.1 输入的前向传播

为了从输入的前向传播的视角来理解动态相变，考虑一个个输入向量集，其传播到层的输入向量集为。我们可以通过矩阵的内积来描述这个点云的几何形状

在大宽度平均场极限下，当点云通过网络的层进行传播时，我们可以通过一组从计算（）的确定递归关系来追踪点云的几何形状。注意，这些递归关系只与，和非线性函数

这里是一个整体缩放函数，它解释了输入的无限增长导致的无限非线性或残差连接。实际上在大深度上，任何置换不变的点云收敛到所有点的归一化长度为且所有对之间的余弦角为

在不动点处的小的偏离满足线性递归关系。从而我们可以看到：当矩阵的特征值绝对值小于1时，点云动力学指数级收敛；当矩阵的特征值

对于稳定的不动点，即所有特征值的绝对值都小于1，关系隐式地定义了一个深度尺度。在这个深度尺度下，的相关特征模收敛到 [31]。全连接网络有两个深度尺度，分别与长度和余弦夹角 [29,31]。对于卷积网络，不同的傅里叶模对应不同的深度尺度[63]。

对于不动点形式为公式(8)的全连接网络，在光滑有界非线性函数下，当固定增大时表现出相变（见图1a）。当很小时，的不动点是稳定的（意味着所有的临近点都收缩为一个点）。而当很大时，该不动点不再稳定，此时另一个的不动点变得稳定（意味着临近点以非零角度混沌不相关，如图1b所示）。在临界转换点，深度尺度

有趣的是，这种输入几何形状的信息传播的发散深度尺度与训练极深的临界网络的能力相吻合[31]（如图3所示）。此外，在远离临界点时，可靠的前向信息传播的深度尺度决定了神经网络可以训练的深度。这种临界相变、发散的深度尺度和临界状态下的深度可训练性不仅在全连接网络中观察到[31]，而且还在卷积网络[63]，自编码器[64]和循环网络[65,66]中观察到。

深度学习与统计力学(IV) ：深层网络的信号传播和初始化_初始化

图3 信号传播预测可训练性。每个子图显示当模型的超参数在二维网格上变化时，预测准确性从完美（红色）到随机猜测（黑色）的变化。白线显示在每种情况下决定可训练性的数量的平均场预测。总的来说，我们在广泛的体系结构中看到了极好的一致性。(a) 全连接网络与信号传播的深度尺度的比较。(b) 残差网络在常数梯度范数时的比较曲线。(c) 具有深度尺度的卷积网络用于信号传播。(d-e) 包含信号传播时间尺度的循环神经网络。(f) 具有用于梯度爆炸的深度尺度的批量标准化的全连接网络。更多细节见文献31。

当相同的网络使用无界非线性函数，例如 ReLU 时，则表现出一个有界相位（）和无界相位（）之间的相变[67]。这种相变来源于非线性函数（将一些输入截断为0）和权重（可通过来扩展或收缩输入）之间的竞争。总的来说，识别深度尺度发散的临界初始值的理论提供了非常有用的视角帮助非线性函数的设计、初始化模式、正则化模式和网络架构选择，以加速极深的神经网络的训练[31,63-66,68-71]。

1.2 误差信号的后向传播

训练深层网络的一个关键想法是往希望的方向移动每一层的权重和激活量，以及最后一层的输出。一个确定如何改变来移动的基本线性算子是雅可比矩阵。这个雅克比矩阵是输出误差向

这里是一个对角矩阵，其元素为。该雅克比矩阵决定了误差或者输出的移动方向，如何后向传播到输入的移动方向。反向传播引起的增长可以表示为，当各个元素是独立同分布的随机选取时，其平均值为。相反在无限宽平均场极限下，这种增长变为自平均，并且在不同网络间不会有明显的波动。因此我们可以将增长率定义为公式(1)的随机网络参数

这里每一层神经元数量都一样，即对所有都有。因此是一层到下一层的雅克比矩阵的奇异值的平方和的均值。这个局部算子反映随机选择的反向传播误差的平均乘性增长（）或收缩（）。这种增长或收缩随着网络深度

文献31表明，在全连接网络中，误差的后向传播和输入的前向传播密切相关。因此当公式(8)中的前向传播的不动点是稳定的（即图1a中的有序域）时，邻近输入点将会很接近因为它们前向和向后传播的误差指数级消失。这种性质可以推广到其他的网络[62]，包括卷积网络[63]和循环网络[65,66]。可见在临界点进行初始化，例如有序和混沌的边界区域，通常能够加速训练以及获得更好的性能[31,63-66,68-71]。

除了为初始化带来新的见解，对信号传播和梯度后向传播的平均场分析为深度学习的一些其他现象带来新的解释。这些现象包括对抗样本的本质[72]，Fisher 信息的特征值[73]，权重量化的效果[74]，以及基于图神经网络的图分割[75]等。

2 动力等距与自由概率理论

上一小节我们已经显示公式(9)中的雅克比矩阵的奇异值的平方和的均值随着而增长，其中见公式(10)。因此的临界初始值避免了随机选择的误差信号的指数级爆炸或增长。然而这并不意味着在所有可能的误差信号中最坏情况下的最大增长和最小收缩不会随着网络深度而增长或收缩。最大的增长因子和最小的收缩因子分别由的最大和最小奇异值决定。因此可以猜想，除了在初始化时保证的奇异值的平方和均值等于1，可以进一步保证 。这种初始化方法确保了误差后向传播的动力等距，即每一个误差向量的长度近似不变，所有误差向量对的夹角也保持不变。

在线性网络网络中可以简单地选择正交的权重矩阵（而非高斯权重）来满足动力等距。并且从理论上和经验上都表明，正交初始化时，训练时间（用训练步数来度量）与网络深度无关[76]。而在高斯初始化中，即使，训练时间也随着深度线性增长。的确，即使，高斯随机矩阵的乘积的最大奇异值随着网络深度线性增长，而正交矩阵的乘积所有的奇异值都等于1，所以可以达到完美的动力等距。

文献77将这一结果推广到非线性网络，文献78则利用自由概率理论[79,80]中的强大工具将背后的随机矩阵乘积的全谱求解为权重分布和非线性函数形状的一个函数。这个分析理论与在非线性深层网络中对

深度学习与统计力学(IV) ：深层网络的信号传播和初始化_初始化_02

图 4a 不同深度下，宽度为 1000 的 ERF 网络的端到端雅可比矩阵的经验奇异值密度（实线）和理论奇异值密度（虚线）。

有趣的是，这一工作还揭示我们甚至可以在非线性网络中使用正交权重和 Sigmoid 非线性函数（或者更一般的原点附近局部线性而其他地方的导数有界的非线性函数）来达到动力等距。而深度学习中最流行的非线性函数之一 ReLU 则不满足上述条件。这一工作进一步显示，如果权重是高斯分布的，则没有非线性函数能够达到动力等距[78]。这些针对

深度学习与统计力学(IV) ：深层网络的信号传播和初始化_初始化_03

图 4b 深度为 200，宽度为 400 的网络在 CIFAR-10 测试数据集上的正确性变化。不同的曲线表示不同的非线性函数和权重初始化，动力等距程度由蓝变红变黑逐渐降低。

动力等距的条件在很多其他架构中也被分析，包括残差网络[81]，循环神经网络（RNN）[65]，LSTM/GRU[66]，以及卷积神经网络（CNN）[63]。在卷积神经网络中，动力等距我们能够训练包括10000层的极深的网络[见图4c]。

深度学习与统计力学(IV) ：深层网络的信号传播和初始化_权重_04

图4c 不同深度下以动力等距初始化的 CNN 在 CIFAR-10 上的训练准确性和测试准确性，分别如点线和实线所示。训练深度可达 10000 层。

因此，将随机矩阵理论应用到深层网络可以得到更好的训练模式。实际上，在深度学习的很多场景，随机矩阵理论都被证明是一个非常强大的工具，包括神经网络损失曲面的几何形状[83]，激活矩阵和 Fisher 信息矩阵的谱计算[84]，学习动力学的研究[85-87]，以及一些其他应用[88-90]。

3 超越平均场: 有限宽度和路径积分

上述的理论结果基于两个关键的简化假设：无限宽度极限，以及权重和偏置的独立同分布假设。在这种平均场极限下，满足自平均性质，通过对网络集合进行平均，可以精确地分析计算单个网络的前向传播输入的几何形状和雅可比谱。

为了研究有限宽度或训练网络[91,92]的功能作用，我们必须超越平均场。尽管这类深度学习的研究还处于初级阶段，我们可以在研究自旋玻璃[93]中有限尺寸效应的理论工作基础上，以及分析自旋玻璃[95中涨落的路径积分方法[94]，以及随机[94]和确定性[96–99]神经网络的基础上进行研究[参见文献100和101]。这种路径积分方法既可以分析计算包含相关性和响应函数的方程[102]，也可以利用费曼图和循环展开来系统地处理波动[100,101,103-105]。

最近，这种路径积分方法被用来分析训练好的前馈网络[91]。然而这种方法对于洞察深度学习的不同方面还有更多的潜力。事实上，这种方法已经在解释有限尺寸校正[99]，相关性[106]，非线性[107]的影响，以及循环网络应用等方面获得了成功，它也可能在前馈网络的平均场之外产生类似的见解[91,108]。

深度学习与统计力学(IV) ：深层网络的信号传播和初始化_初始化_05

标签：初始化,非线性,矩阵,网络,统计力学,IV,深度,传播
From： https://blog.51cto.com/u_15622928/5762164