首页 > 其他分享 >Symbolic Discovery of Optimization Algorithms

Symbolic Discovery of Optimization Algorithms

时间:2024-11-28 14:54:57浏览次数:8  
标签:AdamW 10 梯度 Symbolic beta Lion Optimization Algorithms

目录

Chen X., Liang C., Huang D., Real E., Wang K., Liu Y., Pham H., Dong X., Luong T., Hsieh C., Lu Y. and Le Q. V. Symbolic discovery of optimization algorithms. NeurIPS, 2024.

本文搜索出了一个优雅的, 且经验上似乎更好的优化器: Lion.

Lion

  • 作者通过一些技巧, 搜索出了一个优雅的优化器, 和 Adam 的最大不同在于:

    1. 它仅需要维护一个 momentum (一阶);
    2. 更新的时候采用的是符号梯度更新.
  • 特别地,

    \[c_t \leftarrow \beta_1 m_{t-1} + (1 - \beta_1) g_t, \]

    这个保证了我们可以像 Adam 一样通过 \(\beta_1\) 控制对当前梯度 \(g_t\) 的一个倾向.

  • 作者认为, 符号梯度 \(\text{sign}(c_t)\) 的一个优势就是能够保证模型整体的参数的大小是保持一致的, 所以泛化性更好. 实际上, 作者发现, 有些时候, Lion 最终的收敛的损失可能是比 AdamW 要高的, 但是最终在验证集上的实际精度却是要更高, 这一定程度上说明了猜想的合理性.

  • 在权重调节方面, 与 AdamW 稍有不同:

    1. \((\beta_1, \beta_2)\) 的建议大小为 \((0.9, 0.99)\) 而不是和 AdamW 一样的 \((0.9, 0.999)\).
    2. Lion 学习率差不多为 AdamW 的学习率的 1/10~1/3 (既然采用的是符号梯度);
    3. Lion 所需要的 weight_decay 系数则要相应的乘上 3-10, 则是为了保持:

      \[lr * \lambda \]

      不变.

代码

[official-code]

标签:AdamW,10,梯度,Symbolic,beta,Lion,Optimization,Algorithms
From: https://www.cnblogs.com/MTandHJ/p/18574308

相关文章

  • COMP4134 Algorithms and Data Structures
    ProjectinAdvancedAlgorithmsandDataStructuresCOMP4134UNNCOverviewForthisproject,youaretaskedwithsolvingareal-worldtransportationproblem.Formallyspeaking,itiscalledthepickupanddeliveryproblemwithtimewindows(PDPTW).Thepi......
  • CS 2210b — Data Structures and Algorithms
    CS2210b—DataStructuresandAlgorithmsAssignment5DueDate:April10,11:55pmTotalmarks:201MazeSolvingForthisassignmentyouwillwriteaprogramforsolvingamaze.Theprogramwillreceiveasinputafilewithadescriptionofthemaze,andit......
  • abc374E Sensor Optimization Dilemma 2
    abc374E传感器优化困境2#include<bitsstdc++.h>#definelllonglong#defineN105usingnamespacestd;//最小值最大,二分?//猜测最小值,每一个过程都要大于最小值,如果可行,就放大intn;llans,X;structNode{ lla,b,p,q;}c[105];intchk(llw){//猜测的是产品个数(加......
  • abc374E Sensor Optimization Dilemma 2
    生产某种产品有N道工序,对于工序i,有S[i]和T[i]两类机器可供选择,机器S[i]单价为P[i],每台每天能处理A[i]件;机器T[i]单价为Q[i],每台每天能处理B[i]件。在不超预算X的前提下,每天最多能生产多少件产品?1<=N<=100;1<=A[i],B[i]<=100;1<=P[i],Q[i],X<=1E7分析:最大产能为所有工序的最小......
  • Study Plan For Algorithms - Part48
    1.不同的二叉搜索树II给定一个整数n,请生成并返回所有由n个节点组成且节点值从1到n互不相同的不同二叉搜索树。classSolution:defgenerateTrees(self,n:int)->List[Optional[TreeNode]]:ifn==0:return[]returnself.g......
  • 粒子群算法(Particle Swarm Optimization,PSO)详解
    算法背景粒子群算法,也称粒子群优化算法或鸟群觅食算法(ParticleSwarmOptimization),缩写为PSO。粒子群优化算法是一种进化计算技术(evolutionarycomputation),1995年由Eberhart博士和kennedy博士提出,源于对鸟群捕食的行为研究。该算法最初是受到飞鸟集群活动的规律性启......
  • 无人机集群路径规划:​北方苍鹰优化算法(Northern Goshawk Optimization,NGO)​求解无人机
     一、单个无人机路径规划模型介绍无人机三维路径规划是指在三维空间中为无人机规划一条合理的飞行路径,使其能够安全、高效地完成任务。路径规划是无人机自主飞行的关键技术之一,它可以通过算法和模型来确定无人机的航迹,以避开障碍物、优化飞行时间和节省能量消耗。二、无人......
  • Study Plan For Algorithms - Part35
    1.x的平方根给定一个非负整数x,计算并返回x的算术平方根。classSolution:defmySqrt(self,x:int)->int:ifx==0:return0left,right=1,xwhileleft<=right:mid=left+(right-left)//2......
  • Study Plan For Algorithms - Part36
    1.简化路径给定一个字符串path,表示指向某一文件或目录的Unix风格绝对路径(以'/'开头),请将其转化为更加简洁的规范路径。在Unix风格的文件系统中规则如下:一个点'.'表示当前目录本身。此外,两个点'..'表示将目录切换到上一级(指向父目录)。任意多个连续的斜杠(即,'//......
  • Study Plan For Algorithms - Part33
    1.和为s的两个数字输入一个递增排序的数组和一个数字s,在数组中查找两个数,使得它们的和正好是s。方法一:deftwoSum(nums,target):left=0right=len(nums)-1whileTrue:res=nums[left]+nums[right]ifres==target:......