本书介绍
这本书提出了一种有效的理论方法来理解实际的深层神经网络。从网络输入图像开始,我们逐步解释如何通过求解逐层迭代方程和非线性方程,来确定训练网络输出的结果。一个主要的结果是网络的预测用近似高斯分布描述,网络的深宽比控制着与无限宽高斯描述的偏差。我们解释了这些有效深度网络如何从训练中学习非平凡表示,并更广泛地分析了非线性模型的表示学习机制。
从近核方法的角度来看,我们发现这种模型的预测对底层学习算法的依赖性可以用简单和通用的方式来表示。为了获得这些结果,我们发展了表示群流的概念来表征信号通过网络的传播。通过将网络调整到临界状态,我们给出了一个解决爆炸和消失梯度问题的实用方案。我们进一步解释了RG流如何导致接近通用的行为,并让我们将由不同激活函数构建的网络分类为通用类。
总之,我们表明,深度宽度比决定了训练网络集合的有效模型复杂度。通过使用信息论技术,我们估计了我们期望网络实际上最有用的最佳纵横比,并展示了如何使用剩余连接将这一比例推向任意深度。借助这些工具,我们可以详细了解架构、超参数和优化器的归纳偏差。
本书目录
内容截图