AdEMAMix: 一种创新的神经网络优化器

时间：2024-09-24 09:36:37浏览次数：1

这是9月发布的一篇论文，Pagliardini等人在其论文中提出了一种新的优化算法——AdEMAMix。这种算法旨在解决当前广泛使用的Adam及其变体（如AdamW）在利用长期梯度信息方面的局限性。研究者们通过巧妙地结合两个不同衰减率的指数移动平均（EMA），设计出了这种新的优化器，以更有效地利用历史梯度信息。

研究动机

作者们指出，传统的动量优化器通常使用单一EMA来累积过去的梯度，这种方法面临一个两难困境：

较小的衰减率（β）会导致优化器对近期梯度给予较高权重，但快速遗忘旧梯度。
较大的衰减率可以保留更多旧梯度信息，但会减慢对近期梯度的响应。

研究者们发现，即使在数万步训练之后，梯度信息仍然可能保持有用。这一发现促使他们设计了AdEMAMix，以同时利用近期和远期的梯度信息。

AdEMAMix算法

核心思想

AdEMAMix的核心在于使用两个EMA项：

快速EMA（低β值）: m₁ = β₁m₁ + (1-β₁)g
慢速EMA（高β值）: m₂ = β₃m₂ + (1-β₃)g

其中g为当前梯度，β₁和β₃分别为快速和慢速EMA的衰减率。

参数更新规则

作者们给出了AdEMAMix的参数更新规则：

θ = θ - η((m̂₁ + αm₂) / (√v̂ + ε) + λθ)

其中θ为模型参数，η为学习率，α为权衡两个EMA项的系数，v̂为Adam中的二阶矩估计，λ为权重衰减系数。

https://avoid.overfit.cn/post/aec60154f99a42ab81274c7f7afe15f3

标签：EMA,AdEMAMix,信息,神经网络,梯度,优化,衰减
From： https://www.cnblogs.com/deephub/p/18428386

NOIP2024集训Day36 DP优化
NOIP2024集训Day36DP优化A.[NOIP2023]天天爱打卡前段时间才看过这道题。dp+线段树优化+离散化。经典。考虑朴素dp。定义\(f_i\)表示考虑到第\(i\)个位置，并钦定第\(i\)天跑步的最大能量值。枚举最后一段跑步时间，有：\(f_i=\max(\max\limits_{k\ltj}f_k-(i-......
[深度学习]神经网络
1人工神经网络全连接神经网络2激活函数隐藏层激活函数由人决定输出层激活函数由解决的任务决定：二分类：sigmoid多分类：softmax回归：不加激活（恒等激活identify）2.1sigmoid激活函数x为加权和小于-6或者大于6，梯度接近于0，会出现梯度消失的问题即使取值[-6......
基于真实山地场景下的超多目标优化算法求解无人机三维路径规划，MATLAB代码
超多目标优化算法是一类专门用于解决存在三个以上目标函数的最优化问题的算法。这类问题在现实世界中非常常见，例如在工程设计、资源管理、机器学习等领域。由于目标之间的冲突性，很难找到一个单一的解来同时优化所有目标，因此超多目标优化算法旨在找到一组解，这些解在目标之间......
计及新能源出力不确定性的电气设备综合能源系统协同优化（Matlab代码实现）
运行视频及运行结果：计及碳排放成本的电-气-热综合能源系纷充节点能价计算方法研究（Matlab代码实现）目录第一部分文献一《计及新能源出力不确定性的电气设备综合能源系统协同优化》0引言１新能源出力不确定性处理1.1 新能源出力预测误差分......
【鲁棒优化】微电网鲁棒优化定价方案研究（Matlab代码实现）
......
基于氢储能的热电联供型微电网优化调度方法（Matlab代码实现）
......
基于氢储能的热电联供型微电网优化调度方法（Matlab代码实现）
......
计及新能源出力不确定性的电气设备综合能源系统协同优化（Matlab代码实现）
运行视频及运行结果：计及碳排放成本的电-气-热综合能源系纷充节点能价计算方法研究（Matlab代码实现）目录第一部分文献一《计及新能源出力不确定性的电气设备综合能源系统协同优化》0引言１新能源出力不确定性处理1.1 新能源出力预测误差分......
XGBoost6种优化算法分类模型一键对比 +交叉验证 Matlab代码
......
优化商业运营利器！SAP BI助您实现高效决策
在当今竞争激烈的商业环境中，企业面临着大量复杂的数据和信息流。为了在这样的洪流中立于不败之地，优化商业运营显得尤为重要。SAPBI（BusinessIntelligence，商业智能）作为一款强大的数据分析和决策支持工具，帮助企业高效整合资源，实现科学决策。通过深入分析销售、生产、客户等各方面的......

AdEMAMix: 一种创新的神经网络优化器

研究动机

AdEMAMix算法

核心思想

参数更新规则

相关文章

赞助商

阅读排行