本文于2020年发表于《中国科学:数学》杂志。作者为鄂维南(普林斯顿大学、北京大数据研究院)、马超(普林斯顿大学)和吴磊(普林斯顿大学)。英文论文PDF文件下载请在本公众号回复关键词“机器学习连续视角”。
摘要
在经典数值分析的影响下,我们提出了一个连续的机器学习形式,将其作为变分法和微分积分方程中的一个问题。我们证明了传统的机器学习模型和算法,如随机特征模型、两层神经网络模型和残差神经网络模型,都可以表示成(以比例形式)对应连续形式的离散化的特例。我们还提供了从这种连续形式自然产生的新模型,例如基于流的随机特征模型,以及新算法,例如平滑粒子方法和谱方法。我们讨论了如何在这个框架下研究泛化误差和隐式正则化问题。
提纲
- 1.介绍
- 2.函数的表示
- 2.1 基于积分变换的表示
- 2.2 基于流的表示
- 3.优化问题
3.1 有监督学习
3.2 降维
3.3 变分法
3.4 非线性抛物偏微分方程
4.梯度流
4.1 保守和非保守梯度流
4.2 基于流模型的Pontryagin最大值原理
4.3 基于流的随机特征模型
4.4 基于流的神经网络的梯度流
5.离散化
5.1 还原两层神经网络模型
5.2 平滑粒子法
5.3 基于积分变换模型的一种新算法
6.泛化误差
6.1 离散化模型分析
6.2 连续模型分析
7.一个例子
7.1 均匀目标分布的全局收敛性
7.2 一般情况下的局部收敛性
7.3 数值结果
7.4 频率原理
8.讨论
讨论
这里提出的连续视角提供了一种更抽象的机器学习的思考方式。重点关注函数的表示、变分法问题和连续梯度流。特征和神经元作为对象出现在这些连续问题的特殊离散化中。
我们从这个思考过程中至少学到了两件事。一方面,我们可以不借助神经元的概念来讨论机器学习,实际上除了神经网络模型之外,还有很多算法和模型。另一方面,我们也看到了为什么神经网络(浅层和深层)是不可避免的选择:它们是最简单的连续梯度流模型的最简单粒子方法离散化(分别用于基于积分变换和基于流的表示)。
经典数值分析的一个主要主题是提出更好的模型和算法的设计原则。本着这种精神,我们可以为连续机器学习方法提出以下一组原则:
- 1.目标函数应该以各种形式表示为期望。
- 2.风险泛函应该是好泛函。即使不是凸的,它们也应该具有凸泛函的许多特征。好的一点是,如果我们从连续模式开始,离散化模型很可能不会被离散效应导致的局部极小所困扰。
- 3.不同的梯度流是很好的流,即相关范数应在流上变现良好。这里相关范数指与特定表示相关的范数(例如,基于积分变换的表示的Barron范数)。
- 4.流的数值离散化应在较长的时间间隔内保持稳定。
我们认为如果遵循这组设计原则,所得到的模型和算法将以一种相当健壮的方式运行,而当前的机器学习模型往往敏感地依赖于超参数的选择。
当前机器学习算法中的一些微妙之处,仅仅是从一个连续的角度来看待就已经可以被理解了。例如,非常深的全连接网络应该会引起问题,因为它们没有很好的连续极限[35]。
标签:重磅,学习,视角,机器,模型,基于,离散,干货,连续 From: https://blog.51cto.com/u_15622928/5809763英文论文PDF文件下载请在本公众号回复关键词“机器学习连续视角”。