Gradient descent梯度下降(Steepest descent)

时间：2023-01-18 10:33:18浏览次数：63

标签：之字形函数迭代 Gradient 梯度步长 Steepest 梯度方向 descent

Welcome To My Blog
梯度下降(gradient descent)也叫最速下降(steepest descent),用来求解无约束最优化问题的一种常用方法,结果是局部最优解,对于目标函数为凸的情况,可以得到全局最优解.梯度下降是迭代算法,每一步需要求解目标函数的梯度向量.

采用线搜索的框架

Gradient descent梯度下降(Steepest descent)_搜索

搜索方向取负梯度方向,步长可以通过精确线搜索或非精确线搜索获得

关于步长,之前的文章有提过:Line search and Step length线搜索与步长

泰勒展开简化形式

假设f(x)是R^n上具有一阶连续偏导数的函数.要求解的无约束最优化问题是min f(x),x*标识目标函数f(x)的极小点.
选取适当的初值x^(0),不断迭代,更新x的值,进行目标函数的极小化,直到收敛.由于负梯度方向是使函数值下降最快的方向,在迭代的每一步,以负梯度方向更新x的值,从而达到减小函数值的目的.
因为f(x)具有一阶连续偏导数, 若第k次迭代值为x^(k),则可将f(x)在x^(k)附近进行一阶泰勒展开(Taylor expansion):

算法流程

Gradient descent梯度下降(Steepest descent)_搜索_02

简化版:

Gradient descent梯度下降(Steepest descent)_梯度下降_03

缺点

收敛慢

碗形函数(bowl shape)

蓝色的线是函数的等高线(线上的函数值相等)

从x_0点开始,沿x_0的负梯度方向(与该点切线垂直)的前进适当的步长,函数值会减小

对于该图来说,一次一次迭代可以收敛全局最优点

Gradient descent梯度下降(Steepest descent)_梯度下降_04

之字形Zig-Zagging

实际中的等高线可能并没有这么好

下图这样的等高线会导致每次迭代走的是之字形(Zig-Zagging),这样会使得收敛速度很慢

Gradient descent梯度下降(Steepest descent)_迭代_05

Rosenbrock 函数

对于像Rosenbrock这样的病态函数(pathological functions)来说,等高线如下图

不仅有走之字形(Zig-Zagging)的情况,而且函数图像的底部很平坦,这样每次前进的步长很小,导致收敛速度太慢

The bottom of the valley is very flat. Because of the curved flat valley the optimization is zig-zagging slowly with small stepsizes towards the minimum.

Gradient descent梯度下降(Steepest descent)_搜索_06

梯度下降的收敛速度比起很多其他方法都慢,如果函数不凸,梯度下降过程中会走更多的之字形,因为总有当前点的梯度方向与当前点到最小点的方向是垂直的情况,也就是说要走很多冤枉路

不可微的函数

对于不可微的函数,就不能直接用梯度下降了,需要进行额外的平滑处理

参考:
李航,统计学习方法

标签：之字形,函数,迭代,Gradient,梯度,步长,Steepest,梯度方向,descent
From： https://blog.51cto.com/u_2420922/6019040

梯度下降算法 Gradient Descent
梯度下降算法GradientDescent梯度下降算法是一种被广泛使用的优化算法。在读论文的时候碰到了一种参数优化问题：在函数\(F\)中有若干参数是不确定的，已知\(n\)组训练数......
2019, Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Locali
AbstractGradient-weightedClassActivationMapping,usesthegradientsofanytargetconceptflowingintothefinalconvolutionallayertoprodeceacoarselo......
《Adaptive Incentive Design with Multi-Agent Meta-Gradient Reinforcement Learnin
多智能体元梯度强化学习的自适应激励设计总结：提出了一种基于元梯度的多智能体强化学习自适应奖励机制，解决了较为复杂的多智能体强化学习下的奖励机制问题，最终证明该方法......
[AGC060D] Same Descent Set
题解考虑给定一个由<和>组成的长度为\(n-1\)的字符串，第\(i\)位为<表示\(p_i<p_{i+1}\)，否则表示\(p_i>p_{i+1}\)。假设有一个这样的字符串\(t\)，那么设\(......
几种渐变CSS写法：线性渐变（Linear Gradients）- 向下/向上/向左/向右/对角方向径向渐变（Rad
CSS3渐变（gradients）可以让你在多个指定的颜色之间显示两个过渡。以前，你使用图像的效果减少了这些。但是，通过CSS3实现（实现渐变，实现下载）的效果。必须使用的效果，你可以在使用......
2015,Histogram of Gradients of Time–Frequency Representations for Audio Scene C
DOI:10.1109/TASLP.2014.2375575paper......
论文阅读：Zeno: Distributed Stochastic Gradient Descent with Suspicion-based Fault
论文链接：http://proceedings.mlr.press/v97/xie19b/xie19b.pdf基于怀疑容错的分布式SGDAbstactzeno优势在于只需要假设系统中存在一个正常节点。核心思想：怀疑有潜在缺......
python 使用梯度下降法找最小值（Find the minimum using gradient descent）
最近在看《深度学习全书公式+推导+代码+TensorFlow全程案例》——洪锦魁主编清华大学出版社ISBN978-7-302-61030-4这本书，在第2章神经网络原理中2-3-3偏微分的内......
react-native 渐变组件 react-native-linear-gradient
react-native渐变组件react-native-linear-gradient安装linkyarnaddreact-native-linear-gradientreact-nativelinkreact-native-linear-gradientlink......
Bagging策略和随机森林的应用以及线性回归与局部加权回归三种实例（线性回归、AdaBoost
一.Bagging策略bootstrapaggregation有放回抽样集合从样本集中重采样（有重复的）选出n个样本在所有属性上，对这n个样本建立分类器（ID3、C4.5、CART、SVM、Logistic回......