深度学习与统计力学(III) ：神经网络的误差曲面

标签：误差函数临界点统计力学神经网络曲面极小值 III

谷歌和斯坦福最新合作综述报告，发表在物理学的顶级期刊“凝聚态物理年鉴”（Annual Review of Condensed Matter Physics）。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli

对本报告进行翻译，分6次发布。获取英文报告请在本公众号回复关键词“深度学习统计力学”。

系列预告

深度学习与统计力学(I) ：深度学习中的基础理论问题
深度学习与统计力学(II) ：深度学习的表达能力
深度学习与统计力学(III) ：神经网络的误差曲面
深度学习与统计力学(IV) ：深层网络的信号传播和初始化
深度学习与统计力学(V) ：深度学习的泛化能力
深度学习与统计力学(VI) ：通过概率模型进行“深度想象”

即使一个深层网络能够通过选择参数表达所需的函数，也不清楚什么时候可以通过（随机）梯度下降将公式(3)中的训练误差

在本节中，我们回顾从统计力学复杂能量曲面和神经网络误差曲面的各种类比中获得的见解，以及从神经网络误差曲面的受控数值探索中获得的见解。

1 随机高斯曲面和鞍点

在机器学习中，许多早期的工作都是由凸曲面上的优化所提供的强大理论保证所推动的，在凸曲面上的每一个局部最小值都是全局最小值[35]。相反，对非凸曲面的优化则持怀疑态度，因为传统的观点认为这种曲面可能会充满高误差的局部极小值，这可能会捕获梯度下降动力学并影响性能。尽管少数变量上的一般非凸函数可能确实具有高误差局部极小值，但在高维中通常不是这样。

统计物理中经典的光滑维高斯曲面在很大时的图形很不一样[36,37]。这种随机高斯函数，，在任意有限点集，上的函数值是一个联合高斯分布，其均值为零，协方差矩阵为。这里核函数度量了标准化均方距离为的点对处函数值的相关性，其值随着

这个零系综的临界点的统计数据展示了一个有趣的典型结构，为高维空间上一般函数的形状提供了一个窗口[36]。具体地，任意梯度消失的临界点（即所有,）可以用两个特征来刻画：

a）临界点的高度 ;
b）函数曲面下降的方向指数或比例。

其中比例定义为Hessian矩阵

文献36发现了和之间的强相关性：临界点越高，负曲率方向的数目就越大。这自动意味着在高误差下，相对于非零的鞍点，的局部极小值将是指数罕见的。直观地说，当很大时，函数在所有维上弯曲的几率是以

深度学习与统计力学(III) ：神经网络的误差曲面_权重

图2 神经网络误差曲面的类比。（a）平滑随机高斯曲面临界点典型结构示意图。更多负方向的临界点出现在较高的误差处。（b）实践中神经网络误差临界点处，和在临界点之间有很强的相关性[38]。（c）文献38中提出的一种特殊的无鞍牛顿（SFN）算法能在随机梯度下降变慢的情况下快速地逃离鞍点。（d）处于零能量密度无约束状态的粒子。（e）处于正能量密度阻塞状态的粒子。MSGD为动量随机梯度下降的缩写。

尽管和之间的相关性是专门针对随机高斯曲面计算的，但早期的工作[38]推测，这种相关性可能更普遍地适用于高维空间上的一般函数，包括神经网络的误差函数。通过使用牛顿方法搜索任何方向指数的鞍点，对该猜想进行了数值试验，证实了使用该方法发现的所有此类临界点的误差和方向指数

这些基于物理的关于大型神经网络不存在高误差局部极小值的结论与更多的数学工作一致，证明了在更简单的情况下这种极小值是不存在的。文献39证明了具有一个隐含层的线性神经网络的误差曲面不存在非全局极小的局部极小，所有高误差临界点都是鞍点，文献40将这一结果推广到更深层的线性网络。

2 与自旋玻璃的类比

最近的工作[41]也显示了神经网络的误差曲面与统计物理中一个成熟的模型，即球形自旋玻璃的能量函数之间的联系。一般来说，神经网络的误差曲面是突触权重的复杂函数，同时也依赖于训练数据

这里，是反映随机简化数据集的随机数，是神经网络个突触权重向量的分量，是网络的深度。除此以外，我们还假设权重服从球形约束。这个误差函数对应于著名的D-自旋球形自旋玻璃的能量函数[42，43]。文献41中从神经网络误差曲面到公式(6)所做简化和假设是很强的，在实践中不太可能成立。因此公式(6)确实应该只被看作是一个简单示例模型。不管怎样，人们可能希望这个示例模型的能量函数的典型特征类似于神经网络的误差曲面。

对公式(6)中误差函数形状的严格分析揭示了临界点的有趣结构[44，45]。事实上，

负曲率方向最有可能出现在误差水平的窄带内，随着带的高度随

最近的工作[46]对神经网络上的 SGD 动力学与D-自旋球形自旋玻璃能量函数进行了仔细的比较，发现了有趣的共性，但也有差异。在平均场玻色系统中，物理方法[47]和严格方法[48]都表明，梯度下降动力学在没有障碍交叉的情况下收敛到最宽和最高的极小值，尽管存在更深的局部和全局极小值。相比之下，文献46的工作在梯度下降动力学中发现了其他有趣的老化现象，这些现象表明当降低训练误差时，更平坦的方向普遍存在。

3 与干扰的类比

文献49和50通过考虑一个称为 Hinge 损失的特殊损失函数，发现干扰[51]和深层神经网络的误差曲面之间有一个有趣的类比，建立在感知器之前的类似基础上[52]。Hinge损失通常用于分类问题，其中神经网络输出是一个实数，其符号表示两个类别中的一个。然后，Hinge损失作为权重空间的函数，将个训练样本中的每一个区分为满足（即用具有阈值间隔的正确符号分类）或不满足。在维网络参数空间中的每个点都会产生一部分不满足的样本，理想的训练应该调整参数来减少这个部分。

我们现在用一个平行符号来描述干扰问题，并与神经网络训练进行类比。干扰问题的一个简单版本考虑固定体积中的一组个硬球（图2d，e）。向量参数化所有个球面位置的维配置空间。与所有粒子位置相关联的个自由度类似于与所有神经网络参数相关联的个自由度。现在，粒子之间的对距离中的每一个都为粒子配置贡献了能量，如果粒子对重叠，能量为正，否则为零。在与神经网络的类比中，每一对相互作用对应于一个单独的训练样本，而相互作用能量对应于该实例上的 Hinge 损失。零能量分离的粒子对对应于满足条件的样本，而正能量重叠的粒子对对应于正的Hinge损失的不满足条件的样本。粒子组态空间上的总能量对应于神经网络参数空间上的损失函数。最后，粒子密度对应于样本数量与网络参数数量

干扰场景展示了一种有趣的相位转换，即许多粒子可以自由移动的低密度相位（图2d）和大多数成对相互作用涉及粒子与正能量重叠的高密度干扰相位（图2e）。在神经网络类比中，低密度相对应于过度参数化的情形，较少的个样本可以很容易地被较大的个参数所满足。而高密度干扰相对应于参数不足的情形，较大的个样本不能被较少的

4 实际神经网络曲面的探索

除了发展和比较示例理论模型的误差曲面，许多工作探索实际的神经网络曲面。最近的研究甚至对非常大的神经网络[55，56]的 Hessian 矩阵进行了数值探索[53，54]。有趣的是，经过训练后，曲面底部附近的 Hessian 呈现出一个重尾的体谱，加上一组与分类任务中的类标签数量一一对应的异常值。

文献57和58中给出了另一个有趣的误差曲面，其中含有罕见但较宽的梯度下降优先发现的极小值，这表明有可能出现有助于找到这些极小值[59]的新的熵算法。随着进一步的理论发展，需要获得一个统一的、高分辨率的神经网络误差曲面观形态。

深度学习与统计力学(III) ：神经网络的误差曲面_深度学习_02

标签：误差,函数,临界点,统计力学,神经网络,曲面,极小值,III
From： https://blog.51cto.com/u_15622928/5762170