为什么Adam 不是默认的优化算法?

时间：2022-08-25 11:01:32浏览次数：87

由于训练时间短，越来越多人使用自适应梯度方法来训练他们的模型，例如Adam它已经成为许多深度学习框架的默认的优化算法。尽管训练结果优越，但Adam和其他自适应优化方法与随机梯度下降(SGD)相比，有时的效果并不好。这些方法在训练数据上表现良好，但在测试数据却差很多。

最近，许多研究人员已经开始针对这个问题进行研究，尤其是我们最常用的Adam。本篇文章将试着理解一下这些研究结果。

Adam收敛速度更快，但最终的结果却并不好！

为了充分理解这一说法，我们先看一看ADAM和SGD的优化算法的利弊。

传统的梯度下降是用于优化深度学习网络的最常见方法。该技术在1950年代首次提出，可以通过观察参数变化如何影响目标函数，选择一个降低错误率的方向来更新模型的每个参数，并且可以进行继续迭代，直到目标函数收敛到最小值。

SGD是梯度下降的一种变体。SGD并不对整个数据集执行计算——而是只对随机选择的数据示例的一个小子集进行计算。在学习率较低的情况下，SGD的性能与常规梯度下降相同。

Adam的优化方法根据对梯度的一阶和二阶的估计来计算不同参数的个体自适应学习率。它结合了RMSProp和AdaGrad的优点，对不同的参数计算个别的自适应的学习率。与RMSProp中基于平均第一阶矩(平均值)来调整参数学习率不同，Adam还使用了梯度的第二阶矩(非中心方差)的平均值。

上图来自cs231n，根据上面的描述Adam能迅速收敛到一个“尖锐的最小值”，而SGD计算时间长步数多，能够收敛到一个“平坦的最小值”，并且测试数据上表现良好。

完整文章：

https://avoid.overfit.cn/post/0ef6af02aa2947bca154a89cc9c67436

标签：梯度,默认,算法,参数,Adam,优化,SGD
From： https://www.cnblogs.com/deephub/p/16623542.html

跨平台UI组件DevExpress XAF v22.1 - 程序集默认面向 .NET 6
DevExpressXAF是一款强大的现代应用程序框架，允许同时开发ASP.NET和WinForms。DevExpressXAF采用模块化设计，开发人员可以选择内建模块，也可以自行创建，从而以更快的速度和比......
LeetCode 重排链表算法题解 All In One
LeetCode重排链表算法题解AllInOnejs/ts实现重排链表重排链表原理图解//快慢指针重排链表https://leetcode.com/problems/reorder-list/https://le......
Ribbon：自定义负载均衡算法
在springcloud同级，与启动类所在包不同级创建myrule包，写MyWTYRule配置 SpringCloud还允许您通过使用@RibbonClient声明其他配置（位于RibbonClientConfiguration之上......
【力扣算法题】寻找树中最左下结点的值
题目：给定一个二叉树的根节点root，请找出该二叉树的最底层最左边节点的值。假设二叉树中至少有一个节点。样例示例1:输入:root=[2,1,3]输出:1示例2: ......
数据结构与算法
数据结构与算法（第五次课）顺序表的查找算法分析对含有n个记录的表，查找成功的时候：ASL= 顺序查找的平均查找长度：假设每个记录的查找概率相等：则顺序表的插入算......
#前端算法救赎系列#LeetCode01.两数之和
1.两数之和给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。示例1：输入：nums=[2,7,11,1......
使用zap接收gin框架默认的日志并配置日志归档
使用zap接收gin框架默认的日志并配置日志归档gin默认的中间件本文介绍了在基于gin框架开发的项目中如何配置并使用zap来接收并记录gin框架默认的日志和如何配置......
考研数据结构与算法（一）绪论
目录一、数据结构概念1.1数据的逻辑结构1.2数据的存储结构二、基本术语2.1数据2.2数据元素2.3数据对象2.4数据类型三、抽象数据类型ADT四、算法和算法分析4.1算法4......
视觉算法-软件-芯片-电驱技术
视觉算法-软件-芯片-电驱技术参考文献链接https://mp.weixin.qq.com/s/vabcv7fKNkVI3xNA7rdTiwhttps://mp.weixin.qq.com/s/xIEFeavU4Pi7b0vwBaW6GAhttps://mp.weixin.......
算法秋招之【最小生成树】
cvte笔试遇到了该题型，特此学习。首先，最小生成树是与图、图论相关的概念花时间看b站的视频：[算法训练营-最小生成树]:最小生成树：简单来说最小生成树就是用最少的代价使......

为什么Adam 不是默认的优化算法?

相关文章

赞助商

阅读排行