首页 > 其他分享 >SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION论文阅读笔记

SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION论文阅读笔记

时间:2024-01-13 17:55:59浏览次数:22  
标签:SAM MINIMIZATION epsilon boldsymbol SHARPNESS GENERALIZATION rho mathcal omega

Intro

在训练集上最小化损失很可能导致泛化性低,因为当今模型的过参数化会导致training loss的landscape异常复杂且非凸,包含很多local/global minima,因此优化器的选择至关重要。loss landscape的几何性质(特别是minima的flatness)与泛化性有着紧密的联系,为此作者提出了SAM(Sharpness-Aware Minimization),通过寻找位于具有一致低损失值的邻域中的参数(而不是仅本身具有低损失值的参数)以提升模型的泛化性。

SHARPNESS-AWARE MINIMIZATION (SAM)

令标量为\(\alpha\),向量为\(\boldsymbol{\alpha}\),矩阵为\(\boldsymbol{A}\),集合为\(A\),“定义为”表示为\(\triangleq\),给定来自分布\(\mathscr{D}\)的训练集\(\mathcal{S}\triangleq \{(\boldsymbol{x}_i,\boldsymbol{y}_i)\}\),训练集的损失表示为\(L_{\mathcal{S}}(\boldsymbol{\omega})\triangleq \frac{1}{n}\sum_{i=1}^nl(\boldsymbol{\omega},\boldsymbol{x}_i,\boldsymbol{y}_i)\),泛化误差表示为\(L_{\mathscr{D}(\boldsymbol{\omega})}\triangleq \mathbb{E}_{(\boldsymbol{x},\boldsymbol{y})\sim D}[l(\boldsymbol{\omega},\boldsymbol{x}, \boldsymbol{y})]\)。

由于模型只能看到训练集,因此通常的做法是让训练损失近可能小,然而这可能导致测试时的性能不佳。为此作者提出了SAM,不去寻找带来最小训练损失的参数,而是寻找整个邻域都具有一致低训练损失的参数值(邻域具有低损失和低曲率)。

Theorem (stated informally) 1.

对于任意\(\rho > 0\),生成的训练集大概率满足:

\[L_{\mathscr{D}}(\boldsymbol{\omega})\leq max_{||\epsilon||_2\leq\rho}L_{\mathcal{S}}(\boldsymbol{\omega}+\boldsymbol{\epsilon})+h(||\boldsymbol{\omega}||_2^2/\rho^2) \]

其中\(h:\mathbb{R}_+\to \mathbb{R}_+\)是严格单调递增函数。证明位于附录A。

因此,为了使泛化损失近可能小,我们可以近可能减小其上界,而右边的项带有一个max,所以这构成了一个min-max问题。为了明确和sharpness有关的项,可以将不等式右边写为:

\[[max_{||\epsilon||_2\leq\rho}L_{\mathcal{S}}(\boldsymbol{\omega}+\boldsymbol{\epsilon})-L_{\mathcal{S}}(\boldsymbol{\omega})]+L_{\mathcal{S}}(\boldsymbol{\omega})+h(||\boldsymbol{\omega}||_2^2/\rho^2) \]

中括号中的部分表示的就是\(L_{\mathcal{S}}\)的锐度。鉴于右边的\(h\)函数很大程度上受到证明细节的影响,这里作者将其写为标准的正则化项\(\lambda||\omega||_2^2\),通过超参数\(\lambda\)加以控制。由此,作者提出通过求解SharpnessAware Minimization问题来进行参数的选择:

\[min_{\boldsymbol{\omega}}L_{\mathcal{S}}^{SAM}(\boldsymbol{\omega})+\lambda||\boldsymbol{\omega}||_2^2 \]

其中\(L_{\mathcal{S}}^{SAM}(\boldsymbol{\omega})\triangleq max_{||\boldsymbol{\epsilon}||_p\leq \rho} L_{\mathcal{S}}(\boldsymbol{\omega}+\boldsymbol{\epsilon})\),\(\rho \geq 0\)为超参数,\(p\in [1,\infin]\)(\(p\)的值取2是最优的)。

为了最小化\(L_{\mathcal{S}}^{SAM}\),作者通过对inner maximization求微分来得到\(\nabla_{\boldsymbol{\omega}}L_{\mathcal{S}}^{SAM}(\boldsymbol{\omega})\)的近似,这让我们能够通过SGD实现SAM的优化目标。为此,作者首先对\(L_{\mathcal{S}}(\boldsymbol{\omega}+\boldsymbol{\epsilon})\)在\(\boldsymbol{\epsilon}\to\boldsymbol{0}\)进行一阶泰勒展开:

\[\boldsymbol{\epsilon}^*(\boldsymbol{\omega})\triangleq argmax_{||\boldsymbol{\epsilon}||_p\leq \rho} L_{\mathcal{S}}(\boldsymbol{\omega}+\boldsymbol{\epsilon})\approx argmax_{||\boldsymbol{\epsilon}||_p\leq \rho}L_{\mathcal{S}}(\boldsymbol{\omega})+\boldsymbol{\epsilon}^{\top}\nabla_{\boldsymbol{\epsilon}}L_{\mathcal{S}}(\boldsymbol{\omega})=argmax_{||\boldsymbol{\epsilon}||_p\leq \rho}\boldsymbol{\epsilon}^{\top}\nabla_{\boldsymbol{\epsilon}}L_{\mathcal{S}}(\boldsymbol{\omega}) \]

优化问题的解可以通过求解经典的对偶范数问题得到:

\[\hat{\boldsymbol{\epsilon}}(\boldsymbol{\omega})=\rho\,{\rm sign}(\nabla_{\boldsymbol{\omega}}L_{\mathcal{S}}(\boldsymbol{\omega}))|\nabla_{\boldsymbol{\omega}}L_{\mathcal{S}}(\boldsymbol{\omega})|^{q-1}/(||\nabla_{\boldsymbol{\omega}}L_{\mathcal{S}}({\omega})||_q^q)^{1/p} \]

其中\(1/p+1/q=1\)。代入\(p=2\)这个最优的值(\(q=2\)) 计算\(\hat{\boldsymbol{\epsilon}}(\boldsymbol{\omega})\),之后将其回代到前面的公式,可以得到:
截屏2024-01-13 17.35.30

其中第二个等号通过复合微分的运算法则得到。为了加速计算,将二阶项丢掉,就可以得到最后的梯度近似:

截屏2024-01-13 17.41.47

伪代码和示意图:

截屏2024-01-13 17.25.44

实验

截屏2024-01-13 17.46.04

等等

参考:https://blog.csdn.net/qq_40744423/article/details/121570423

标签:SAM,MINIMIZATION,epsilon,boldsymbol,SHARPNESS,GENERALIZATION,rho,mathcal,omega
From: https://www.cnblogs.com/lipoicyclic/p/17962672

相关文章

  • [论文阅读] Exact Feature Distribution Matching for Arbitrary Style Transfer and
    ExactFeatureDistributionMatchingforArbitraryStyleTransferandDomainGeneralization论文源码:https://github.com/YBZh/EFDM1.Introduction传统的特征分布匹配方法通常假定特征遵循高斯分布,通过匹配特征的均值和标准差来实现。然而,现实世界中的数据特征分布通常较......
  • Graph transduction via alternating minimization
    目录概符号说明GTAM交替优化求解WangJ.,JebaraT.andChangS.Graphtransductionviaalternatingminimization.ICML,2008.概一种对类别不均更鲁棒的半监督算法.符号说明\(\mathcal{X}_l=\{\mathbf{x}_1,\cdots,\mathbf{x}_l\}\),labeledinputs;\(\mathcal......
  • 洛谷 P8923 -『MdOI R5』Many Minimizations
    怎么ARC还能撞题的?只能说Kubic牛逼。首先显然没法保序回归。考虑用类似于凸壳优化DP的做法解决原问题(也就是P4331):设\(dp_{i,j}\)表示考虑前\(i\)位,\(x_i=j\)的最小代价,显然有\(dp_{i,j}=\min_{k\lej}\{dp_{i-1,k}+|j-a_i|\}\)\(dp\)值显然是一个折线,用堆维护斜......
  • 题解 Yet Another Minimization Problem
    YetAnotherMinimizationProblem神仙题。第一眼看上去就是DP。定义\(f_{i,j}\)表示当前点\(i\),分\(j\)段的最小费用。\(f_{i,j}=\min(f_{i,j},f_{k,j-1}+val_{k+1,i})\)然后发现复杂度\(O(n^2k)\),直接T飞,需要优化。我们发现\(j\)那一维可以滚掉,也就是只考虑第......
  • Regret Minimization Experience Replay in Off-Policy Reinforcement Learning
    发表时间:2021(NeurIPS2021)文章要点:理论表明,更高的hindsightTDerror,更加onpolicy,以及更准的targetQvalue的样本应该有更高的采样权重(ThetheorysuggeststhatdatawithhigherhindsightTDerror,betteron-policinessandmoreaccuratetargetQvalueshouldbea......
  • AtCoder Regular Contest 153 E Deque Minimization
    洛谷传送门AtCoder传送门我们考虑给定\(X\),如何贪心地求\(f(X)\)。队列为空时加入队首或队尾都是一样的。队列不为空,设队首为\(c\)。因为我们的目标是最小化字典序,于是如果\(X_i\lec\),我们把\(X_i\)加入队首,否则加入队尾。由此也容易发现,加入队首的数一定单调不升。......
  • Spectrum Random Masking for Generalization in Image-based Reinforcement Learning
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ......
  • Yet Another Minimization Problem(CF1637D)
    \(\text{Des}\)Youaregiventwoarrays$a$and$b$,bothoflength$n$.Youcanperformthefollowingoperationanynumberoftimes(possiblyzero):selectanindex$i$($1\leqi\leqn$)andswap$a_i$and$b_i$.Let'sdefi......
  • AtCoder Regular Contest 130 C Digit Sum Minimization
    洛谷传送门AtCoder传送门分类讨论,但是写起来挺答辩的。首先发现我们要使进位尽量多。特判怎么重排都没有进位的情况(\(a_i+b_i<10\))。然后枚举个位选的两个数字,并且要求它们和\(\ge10\)。如果当前位两个位都有数字,那么从小到大枚举数位的和\(\in[9,18]\);如果有数字......
  • 迁移学习《mixup: Beyond Empirical Risk Minimization》
    论文信息论文标题:mixup:BeyondEmpiricalRiskMinimization论文作者:TakeruMiyato,S.Maeda,MasanoriKoyama,S.Ishii论文来源:2018ICLR论文地址:download 论文代码:download视屏讲解:click ......