AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients

时间：2024-07-10 17:10:27浏览次数：19

标签：Adapting Optimizer Belief 梯度 AdaBelief 步长 Adam

概
AdaBelief
代码

Zhuang J., Tang T., Ding Y., Tatikonda S., Dvornek N., Papademetris X. and Duncan J. S. AdaBelief Optimizer: Adapting stepsizes by the belief in observed gradients. NeurIPS, 2020.

概

本文提出了一种 Adam 优化器上的改进, 能够更加有效地设计步长.

AdaBelief

AdaBelief 的初衷很简单, 如上图所示, 据此我们分析三种情况下的合理步长.
对于第一种情况, 梯度 \(|g|\) 很小, 此时理想的 optimizer 理应给予一个较大的步长, Adam 的确有能力做到这一点 (估计的方差比较小);
对于第二种情况, 梯度 \(|g|\) 很大, 且位于极小值附近, 理应设置一个较小的步长, Adam 也有能力做到这一点 (此时估计的方差比较大);
对于第三种情况, 梯度 \(|g|\) 很大, 但是此时可以设置一个较大的步长, 但是实际上 Adam 依然给予一个较小的步长. 由于前后梯度差异很大, 所以 AdaBelief 实际上依然可以给予一个较大的步长.

注: 根据 github 的 issue 里, 有人发现 \(\epsilon\) 对于替代 SGD 的一个重要性, 注意到, 当 \(\epsilon\) 足够大的时候, \(s_t\) 后面会收敛到相同的值, 此时 AdaBelief 的表现就和 SGD 类似了. 所以这也可能是为什么 AdaBelief 也能够在 CV 上取得比较好的结果原因之一.

注: 我不是很清楚 Update

\[\theta_{t} \leftarrow \prod_{\mathcal{F}, \ldots} (\cdots) \]

是怎么来的, 好像和 online learning 有点关系.

代码

[official-code]

标签：Adapting,Optimizer,Belief,梯度,AdaBelief,步长,Adam
From： https://www.cnblogs.com/MTandHJ/p/18294534

SciTech-BigDataAIML-Tensorflow-模型的训练与评估： tf.keras.losses + tf.keras.optim
模型的训练：tf.keras.losses和tf.keras.optimizer定义一些模型超参数：num_epochs=5batch_size=50learning_rate=0.001实例化模型和数据读取类，并实例化一个tf.keras.optimizer的优化器（这里使用常用的Adam优化器）：model=MLP()data_loader=MNISTLoader()optimiz......
SciTech-BigDataAIML-Tensorflow-Optimizer:优化器
https://keras.io/api/optimizers/OptimizersAvailableoptimizers：SGDRMSpropAdamAdamWAdadeltaAdagradAdamaxAdafactorNadamFtrlLionLossScaleOptimizerUsagewithcompile()&fit()Anoptimizerisoneofthetwoargumentsrequiredforcompilin......
SciTech-BigDataAIML-TensorFlow-Model的编译：设置(LossFunction+Optimizer+Metrics)与
机器学习|model.compile()用法model.compile()的作用:为经过设计的Model(神经网络模型)设置好：loss损失函数、optimizer优化器、metrics准确性评价函数。并且进行编译；Optimizers优化器：Optimizer的主要功能是作用在GD(梯度下降)的过程,使得Gradient(梯度)更快(快速......
深度探索：机器学习Deep Belief Networks（DBN）算法原理及其应用
目录1.引言与背景2.定理3.算法原理4.算法实现5.优缺点分析优点：缺点：6.案例应用7.对比与其他算法8.结论与展望1.引言与背景深度学习在近年来取得了显著进展，其在图像识别、语音识别、自然语言处理等多个领域的成功应用引发了广泛的关注。其中，DeepBeliefNetworks......
FJSP：蜣螂优化算法( Dung beetle optimizer, DBO)求解柔性作业车间调度问题（FJSP），提供MAT
一、柔性作业车间调度问题柔性作业车间调度问题（FlexibleJobShopSchedulingProblem，FJSP），是一种经典的组合优化问题。在FJSP问题中，有多个作业需要在多个机器上进行加工，每个作业由一系列工序组成，每个工序需要在特定的机器上完成。同时，每个机器一次只能处理一个工序，且每个工......
多目标应用：基于非支配排序的蜣螂优化算法（Non-Dominated Sorting Dung beetle optimize
一、柔性作业车间调度问题柔性作业车间调度问题(FlexibleJobSchedulingProblem,FJSP)的描述如下：n个工件{J,J......
train_transforms，Normalize，CrossEntropyLoss，optimizer，前向传播进行特征提取，反向传播优
目录train_transforms：变换Normalize(mean=127.5,std=127.5) ：缩放到[-1,1]......
Optimizer: SGD, SGD with Momentum, Adagrad, RMSProp, Adam, AdamW
......
Optimizer: SGD, SGD with Momentum, Adagrad, RMSProp, Adam, AdamW
......
脚本exlpain结果与optimizer_trace结果不一致
先说结论：表数据量太少，使用索引的效率不如全表扫描。表信息：CREATETABLE`w_map_cell`(`id`int(11)NOTNULLAUTO_INCREMENTCOMMENT'主键',`shelf_id`bigint(11)DEFAULTNULLCOMMENT'货架id',`cell_no`varchar(50)DEFAULTNULLCOMMENT'储位编号',`cell_name......

AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients

概

AdaBelief

代码

相关文章

赞助商

阅读排行