自适应的两点步长梯度法

时间：2023-02-03 00:22:27浏览次数：47

标签：max min 梯度 leq 步长 mathop 两点 alpha

自适应的两点步长梯度法

该算法来自于戴彧虹研究员的一篇论文，该文章将两点步长梯度法与非单调搜索结合，并且对非单调搜索的法则进行了改进。
_____________________________________________________________________________

问题引入：
考虑无约束优化问题：$$\mathop{min}\limits_{x\in \mathbb{R}^n} \quad f(x)$$两点步长的迭代法则是：$$x_{k+1}=x_k-\alpha_kg_k$$其中$g_k=\nabla f(x_k),\alpha_k=\frac{s_{k-1}^Ts_{k-1}}{s_{k-1}^Ty_{k-1}},s_{k-1}=x_k-x_{k-1},y_{k-1}=g_k-g_{k-1}$

一般的非单调搜索是寻找满足下面条件的$\alpha_k$:$$f(x_k+\alpha_kd_k) \leq \mathop{min}\limits_{0 \leq i \leq m(k)}f(x_{k-i})+\delta\alpha_kg_k^Td_k$$其中$m(k)=min(k,M-1)$，在实际运算中，数值效果很大程度上取决于$M$的选择。
_____________________________________________________________________________
改进思路如下：

令：$f_{min}=\mathop{min}\limits_{0 \leq i \leq k}f(x_i)$,$l=k-k_{min}$,而$k_{min}$是取到目前最小值的第一个下标。

又令：$f_{max}=\mathop{max}\limits_{0 \leq i \leq min\{k,M-1\}}f(x_{k-i}),f_c=\mathop{max}\limits_{k_{min} \leq i \leq k}f(x_{i})$

一种改进方法是设置参考值$f_r$代替一般非单调搜索中$\mathop{min}\limits_{0 \leq i \leq m(k)}f(x_{k-i})$的位置，具体地：当$l=L(某个正整数)$时，取$f_r=f_{max}$。但是有时会出现$f_{max}$太大的情况，这时戴老师的处理方法是取$f_r=f_c$,即：
$$ f_r=\left\{
\begin{array}{rcl}
f_c & , & if \quad \frac{f_{max}-f_{min}}{f_c-f_{min}} > \gamma_1 \\
f_{max} & , & otherwise
\end{array} \right. $$
其中$\gamma_1$为一个大于1的常数。这个修改我们称为(1).

另外一种情况是，非单调搜索算法在之前很多的迭代次数内都直接接受初始步长$\alpha_k^{(1)}$作为迭代步长，令$p$为之前连续接收的次数，即$\alpha_{k-1}^{(1)},\alpha_{k-2}^{(1)},\dots,\alpha_{k-p}^{(1)}$都被接受，而$\alpha_{k-p-1}^{(1)}$不被接受。如果$p$太大了，这很可能是因为$f_r$一直不改变所引起的。此时，戴老师的改进方法是：当$p >P$（正整数、常数），令：
$$ f_r=\left\{
\begin{array}{rcl}
f_{max} & , & if \quad f_{max} > f(x_k) \quad and \quad \frac{f_{max}-f_{min}}{f_c-f_{min}} \geq \gamma_2 \\
f_r & , & otherwise
\end{array} \right. $$

其中$\gamma_2$为一个大于1的常数。这个修改我们称为(2).

_____________________________________________________________________________

综上，改进的非单调搜索方法如下：

Step1(修改参考值)：
如果$l=L$,按(1)的方式更新$f_r$,同时令$l=0$；
如果 $ p \geq P$,按(2)的方式更新$f_r$,同时令$l=0$;

Step2(测试原始步长)：
如果$$f(x_k+\alpha_k^{(1)}d_k) \leq f_r+\delta\alpha_k^{(1)}g_k^Td_k$$则令$\alpha_k=\alpha_k^{(1)}$和$p=p+1$，并转到Step4;否则，令$p=0$;

Step3(调整步长满足条件)：
$(i)$令$\alpha_{old}=\alpha_k^{(1)}$;
$(ii)$取$\alpha_{new} \in [\sigma_1 \alpha_{old},\sigma_2 \alpha_{old}].$如果$$f(x_k+\alpha_{new}d_k) \leq \mathop{min}(f_r,f_{max})+\delta\alpha_{new}g_k^Td_k$$则令$\alpha_k=\alpha_{new}$，并转向Step4；否则，令$\alpha_{old}=\alpha_{new}$，并重复$(ii)$;

Step4(更新一些数值)：
$(i)$令$f_{k+1}=f(x_k+\alpha_kd_k)$；
$(ii)$如果$f_{k+1} < f_{min}$，设$f_c=f_{min}=f_{k+1}$且$l=0$;否则，令$l=l+1$；
$(iii)$如果$f_{k+1} > f_c$，令$f_c=f_{k+1}$；
$(iv)$计算$f_{max}$，并令$k=k+1$.

本文未完待续

标签：max,min,梯度,leq,步长,mathop,两点,alpha
From： https://www.cnblogs.com/wjma2719/p/17087823.html

梯度方向导数
基本概念方向导数：是一个数；反映的是f(x,y)在P0点沿方向v的变化率。梯度：是一个向量；每个元素为函数对一元变量的偏导数；它既有大小（其大小为最大方向导数），也有方向。Ref:方向......
反向传播与梯度下降详解
一，前向传播与反向传播1.1，神经网络训练过程神经网络训练过程是：先通过随机参数“猜“一个结果（模型前向传播过程），这里称为预测结果$a$；然后计算$a$与样本标签值$y$的差......
在 PyTorch 中使用梯度检查点在GPU 上训练更大的模型
作为机器学习从业者，我们经常会遇到这样的情况，想要训练一个比较大的模型，而GPU却因为内存不足而无法训练它。当我们在出于安全原因不允许在云计算的环境中工作时，这个问题经......
JMeter压测——从0开始创建测试计划（RT&TPS分析、常规&梯度加压线程组）
之前做过一部分的接口性能自测，主要使用的JMeter，记录下测试计划如何创建的过程。1.插件准备安装好JMeter后，由于默认没有RT&TPS分析及梯度加压等的配置，所以需要引入插件管......
深度学习基础课：卷积层的梯度检查
大家好~我开设了“深度学习基础班”的线上课程，带领同学从0开始学习全连接和卷积神经网络，进行数学推导，并且实现可以运行的Demo程序线上课程资料：本节课录像回放加QQ群，获得......
梯度下降法（1）
1.梯度下降法基本原理1.1什么是梯度梯度下降法(gradientdescent)是一种常用的一阶(first-order)优化方法，是求解无约束优化问题最简单、最经典的方法之一。梯度下降最典型......
研究一下加速梯度下降的方法(试图找到一种不会收敛于局部最优的方法)
研究一下加速梯度下降的方法(试图找到一种不会收敛于局部最优的方法)发现自己很久没有更新了,现在又在学习着机器学习的内容,正好对梯度下降这里比较感兴趣,因此写了一篇......
m基于梯度优化的混沌PSO磁悬浮球系统模型优化的matlab仿真
1.算法描述基本确定融合后的优化控制算法，即混沌粒子群优化算法，将该算法应用于对PID的参数整定上，通过仿真验证算法的可行性。将混沌思想引入PSO算法，前期工作首先对混沌算法......
m基于梯度优化的混沌PSO磁悬浮球系统模型优化的matlab仿真
1.算法描述基本确定融合后的优化控制算法，即混沌粒子群优化算法，将该算法应用于对PID的参数整定上，通过仿真验证算法的可行性。将混沌思想引入PSO算法，前期......
dvgis计算两点间距离的问题
先贴一段代码，是dvgis里的distance.js源码，dvgis是cesium的二次封装，可以参考参考：1import{Cesium}from'@dc-modules/namespace'2import{Transform}from'@dc-modules/trans......

自适应的两点步长梯度法

相关文章

赞助商

阅读排行