首页 > 其他分享 >【GAN优化】从动力学视角看GAN是一种什么感觉？

【GAN优化】从动力学视角看GAN是一种什么感觉？

时间：2022-10-12 17:04:19浏览次数：62

标签：视角梯度动力学 GAN 参数微分方程欧拉

今天讲述的内容是GAN与动力学，这是一个非常好玩、非常新鲜的视角。考虑到很多人微积分和线性代数等知识的涉猎不多，我将会对涉及的内容都做出基本说明，也并不会涉及过深入的东西，然后争取串成一个故事，扩展一下大家的视野。

作者&编辑 | 小米粥

最近这几期我们都一直在讲GAN的训练，最开始说明了实际训练GAN面临的几个理论和实践上的问题，然后接着从博弈论角度解释了GAN和纳什均衡，还说了几个帮助网络收敛的技巧。

这期将从动力学的视角看一下GAN，首先介绍基本概念常微分方程和欧拉法，然后介绍非常经典的梯度下降动力学系统，最后将GAN表示成动力学系统，并给出了一些比较好的结论。其实无论是什么视角，都是为了能更好的解决训练收敛的问题。

1 常微分方程与欧拉法

很多人平时接触的方程大部分是代数方程、超越方程等等，比如：

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值

其解是一个或几个数值，例如上式的解为：

【GAN优化】从动力学视角看GAN是一种什么感觉？_梯度下降算法_02

而微分方程是一种稍微“抽象”的方程，它是表示未知函数y(x)、未知函数的导数y`(x)以及自变量x关系的方程，比如：

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值_03

其解（如果可解）应是一个函数或者函数族，例如上式的解析解为：

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值_04

未知函数y(x)是一元函数的称为常微分方程，若是多元函数则称为偏微分方程。方便起见，将自变量x写成时间t，则可以用微分方程来表示某些随时间变化的规律或者动力学系统：

【GAN优化】从动力学视角看GAN是一种什么感觉？_梯度下降算法_05

需要说明，对于常微分方程，只有某些特殊类型的方程能求得解析解，大部分是很难求得解析解的，所以实际中主要依靠数值法来近似计算求得数值解，以一个简单的具有初始值常微分方程为例：

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值_06

其解析解为：

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值_07

而数值解只能给出部分、离散的自变量、因变量近似数值对，例如

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值_08

欧拉法便是一种非常经典的一阶数值方法。给定初始值和一系列固定间隔h的离散时间点，则可迭代计算：

【GAN优化】从动力学视角看GAN是一种什么感觉？_常微分方程_09

得到微分方程的数值解。根据递推关系：

【GAN优化】从动力学视角看GAN是一种什么感觉？_梯度下降算法_10

可以看出，欧拉法是先从初始点开始，在每一点做切线并沿当前切线推进至下一点，最后连接成一条折线，这种比较“粗糙”的方式精度是比较差的。上面的例子使用欧拉法得到的解如蓝线所示：

【GAN优化】从动力学视角看GAN是一种什么感觉？_常微分方程_11

2 梯度下降法

在机器学习或者神经网络中，我们大量使用梯度下降法，其实它也可以看作是一个动力系统。给定关于训练集的某种损失函数：

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值_12

一般情况下，对相当复杂的损失函数，不太可能一步到位直接求解参数的最优解，只能通过某些算法“慢慢地”去寻找最优解，比如使用经典的梯度下降算法，参数不断更新，在参数空间留下一条美妙的轨迹，其行为与动力系统十分相像。

考虑一个由常微分方程表示的动力系统：

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值_13

使用欧拉法求解该动力系统，则有如下迭代关系：

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值_14

如果把固定时间间隔h视为学习速度learning rate，则这就是大家非常熟悉的梯度下降算法的表达式，到此应该看得出，所谓梯度下降算法从动力学角度来看，就是使用欧拉法求解某个动力学系统。

当然，我们并不单单致力于能求解微分方程的数值解或者得到参数的轨迹，更重要的是，希望参数θ能够收敛到某个稳定点，动力系统达到某个稳定的状态，损失函数能够收敛。

3 GAN的动力学系统

在GAN中，我们设定生成器的优化目标为最大化f，而判别器的优化目标为最大化g，动力系统的参数由两部分组成：

【GAN优化】从动力学视角看GAN是一种什么感觉？_常微分方程_15

那么动力学微分方程可写为：

【GAN优化】从动力学视角看GAN是一种什么感觉？_常微分方程_16

整个动力学仍然采用梯度下降法进行迭代更新，若使用欧拉法求解GAN动力学系统，则可理解为使用同时梯度下降算法：

【GAN优化】从动力学视角看GAN是一种什么感觉？_常微分方程_17

即在一个时间节点上，同时更新生成器和判别器的参数，其参数轨迹如下：

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值_18

需要说明一下，通常在GAN中我们使用的是交替梯度下降，两者有一些区别（但是很多情况下并不影响最终的结论），即依次交替更新生成器和判别器的参数，其参数轨迹为：

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值_19

上一期也说过，GAN并不是在寻找全局最优解，而是在寻找一个局部最优解。我们希望动力学系统的轨迹可以随着不断迭代而进入一个局部收敛点，也就是纳什均衡，定义纳什均衡点为：

【GAN优化】从动力学视角看GAN是一种什么感觉？_特征值_20

容易证明对于零和博弈(f=-g)，在纳什均衡点，其雅可比矩阵：

【GAN优化】从动力学视角看GAN是一种什么感觉？_梯度下降算法_21

是负定的。反过来，可以通过检查雅可比矩阵的性质来判断是否达到了局部收敛，如果在某个点，其一阶导数为0

【GAN优化】从动力学视角看GAN是一种什么感觉？_梯度下降算法_22

且其雅可比矩阵为负定矩阵，则该点为纳什均衡点。

我们知道半负定矩阵的特征值均小于等于0，则：如果在某一点的雅可比矩阵的特征值为均负实数，则在足够小的学习速率的前提下，训练过程收敛；如果特征值出现复数，则训练一般而言不会实现局部收敛；如果复数特征值的实部很小而虚部比较大，此时需要某种非常苛刻的学习速率才能达到收敛状态。

[1] Mescheder L , Nowozin S , Geiger A . The Numerics of GANs[J]. 2017.

[2] Nagarajan V, Kolter J Z, Nagarajan V, et al. Gradient descent GAN optimization is locally stable[J]. 2017.

总结

这篇文章首先介绍了常微分方程以及使用欧拉法得到常微分方程的数值解，然后从动力学的系统重新看梯度下降算法，最后从动力学视角重新表述了GAN，并且给出几个有用的结论。

标签：视角,梯度,动力学,GAN,参数,微分方程,欧拉
From： https://blog.51cto.com/u_14122493/5751160

相关文章

【GAN优化】如何选好正则项让你的GAN收敛
今天讲述的内容还是GAN的训练，也是最后一期，做几个简单的小实验，告诉大家怎么给GAN加正则项，使得你的GAN尽可能收敛。其实今天的内容本来还是与动力学结合很紧密，但是考虑到复杂......
【GAN优化】GAN优化专栏栏主小米粥自述，脚踏实地，莫问前程
作者|小米粥编辑|言有三随走随行其实我一直非常佩服那些有规划又努力的人，因为我是一个对自己没太多规划的人。本科选择了物理专业，上学期间也算得上比较努力吧，但是物理是......
【GAN优化】详解对偶与WGAN
越学习越发现自己知之甚少，道阻且长，还是认真看下这篇文章，好好琢磨琢磨GAN吧。今天将和大家一起学习在GAN界占有重要位置的WGAN，它提出了一种新的距离度量，较之前的f散度，它的数......
【GAN优化】一览IPM框架下的各种GAN
今天的这篇小文将是GAN模型理论介绍的最后一篇。有一些内容，所用数学技巧和方法非常高大上，理论结果也非常漂亮，但是完全搞明白其中的门门道道需要相当大精力和知识铺垫，况且实......
【GAN优化】GAN训练的小技巧
头一阵子放假了，专栏都没有怎么更新了，今天开始继续更新（想问问小伙伴们都放了多久的假期？我们只有两周感觉时间好短呀~）作者&编辑|小米粥上一期中，我们说明了GAN训练中的几个问......
【GAN的应用】基于对抗学习的图像美学增强方法
好久不见~甚是想念由于年底了要处理的事情变得特别多，突然间醒悟好久没更新啦于是深夜给大家带来一篇生成对抗网络在图片美学增强上的应用。首先来个小问题，你能猜出下图的（b）（c）......
【每周CV论文推荐】StyleGAN人脸属性编辑有哪些经典论文需要阅读
欢迎来到《每周CV论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。当前人脸图像领域的研究和落地......
【每周CV论文推荐】基于GAN的图像数据增强有哪些经典论文值得阅读
欢迎来到《每周CV论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。当前基于GAN的二维图像生成领......
不同视角下智能电网与能源网融合技术
"IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台，致力于帮助读者在广义的IT领域里，掌握更专业、实用的知识与技能，快速提升职场竞争力。智能电网与能源网的融合，指的是能......
从边缘视角展望元宇宙
作者：VishalGhariwala，SUSE亚太及大中华区CTO如今，在边缘环境部署成百上千互联设备已经不再新奇。在工厂和工程设施中，自从微芯片问世以来，PLC就接管了工业设备的监控任务，并......

赞助商

阅读排行