首页 > 其他分享 >梯度下降法的两个收敛性证明

梯度下降法的两个收敛性证明

时间:2024-04-27 18:33:56浏览次数:20  
标签:right frac Vert 梯度 nabla 证明 alpha 收敛性 left

**梯度下降法:**
对于无约束最优化问题:$$\mathop{min}_{x} f(x)$$其中$f$是可微函数,梯度下降法的更新方式如下:
$$x_{k+1}=x_k-\alpha_k\nabla f(x_k)$$
步长$\alpha_k$有多种选择方式,普通的梯度法就选择固定步长$\alpha$。

下面介绍固定步长的梯度下降法在凸函数以及强凸函数的收敛性证明

**梯度法在凸函数上的收敛性**
假设$f(x)$为凸函数,是梯度L利普西茨连续,最优值$f^*=\mathop{inf}\limits_{x}f(x)$可达,且步长$\alpha\in\left(0,\frac{1}{L} \right) $,则梯度下降法得到的点列$\left\lbrace x^k \right\rbrace$的函数值列$\left\lbrace f_k \right\rbrace $收敛到$f^*$,且收敛速度为$O(\frac{1}{k})$

proof
由于$f$为凸函数且梯度皮利希茨连续,根据二次上界原理得到:
\begin{align*}
f_{k+1}&=f\left(x_k-\alpha \nabla f( x_k) \right)\\
&\leq f(x_k)-\alpha \Vert
\nabla f( x_k) \Vert^2+\frac{L\alpha^2}{2}\Vert
\nabla f( x_k) \Vert^2 \\
&= f(x_k)-\alpha\left( 1-\frac{\alpha L}{2}\right) \Vert
\nabla f( x_k) \Vert^2
\end{align*}
由于$\alpha\in\left(0,\frac{1}{L} \right)$,则
\begin{align*}
f_{k+1}&\leq f(x_k)-\frac{\alpha}{2} \Vert
\nabla f( x_k) \Vert^2\\
&\leq f^*+\nabla f(x_k)^\top \left(x_k-x^* \right)-\frac{\alpha}{2}\Vert
\nabla f( x_k) \Vert^2\\
&=f^*+\frac{1}{2\alpha}\left(\Vert x_k-x^* \Vert^2-\Vert x_k-x^*-\alpha\nabla f(x_k) \Vert^2 \right)\\
&=f^*+\frac{1}{2\alpha}\left(\Vert x_k-x^* \Vert^2-\Vert x_{k+1}-x^*\Vert^2 \right)\\
\end{align*}
其中第二个不等式是根据$f$的凸性得到的。

进一步得到$$f_{k+1}-f^*=\frac{1}{2\alpha}\left(\Vert x_k-x^* \Vert^2-\Vert x_{k+1}-x^*\Vert^2 \right)$$
分别令$k=0,1,\dots,n$然后累加得到:
\begin{align*}
\mathop{\sum}_{k=0}^{n}\left(f_{k+1}-f^* \right) &\leq \frac{1}{2\alpha}\left(\Vert x_0-x^* \Vert^2-\Vert x_{k+1}-x^*\Vert^2 \right)\\
&=\frac{1}{2\alpha}\Vert x_0-x^* \Vert^2
\end{align*}
有因为$\left\lbrace f_k\right\rbrace $是单调下降的,所以
$$f_{n+1}-f^*\leq \frac{1}{n+1}\mathop{\sum}_{k=0}^{n}\left(f_{k+1}-f^* \right) \leq \frac{1}{2(n+1)\alpha}\Vert x_0-x^* \Vert^2$$
得证.


**梯度法在强凸函数上的收敛性**
引理:$f(x)$是在$\mathbb{R}^n$上的可微凸函数,则以下结论等价:
(1)$f$是梯度$L-$利普西茨连续的;
(2)函数$g(x)=\frac{L}{2}x^\top x-f(x)$是凸函数;
(3)$\nabla f(x) $有余强制性,即对$\forall x,y\in \mathbb{R}^n$,有$$\left(\nabla f(x)-\nabla f(y) \right) ^\top \left(x-y \right) \geq \frac{1}{L}\Vert \nabla f(x)-\nabla f(y) \Vert^2$$
证明略.

假设$f(x)$为$m-$强凸函数,且是梯度L利普西茨连续的,最优值$f^*=f(x^*)=\mathop{inf}\limits_{x}f(x)$可达,且步长$\alpha\in\left(0,\frac{2}{m+L} \right) $,则梯度下降法得到的点列$\left\lbrace x^k \right\rbrace$收敛到$x^8$,且为$Q$收敛。

proof:由于$f$强凸且梯度$L$利普西茨连续,则:
$$g(x)=f(x)-\frac{m}{2}x^\top x$$
为凸函数且$\frac{L-m}{2}x^\top x-g(x)$为凸函数,根据引理得到$g$为梯度$L-m$利普西茨连续的,则有余强制性:
$$\left(\nabla g(x)-\nabla g(y) \right) ^\top \left(x-y \right) \geq \frac{1}{L-m}\Vert \nabla g(x)-\nabla g(y) \Vert$$
展开就得到:
$$\left(\nabla f(x)-\nabla f(y) \right) ^\top \left(x-y \right) \geq \frac{mL}{m+L}\vert x-y \Vert^2+\frac{1}{L+m}\Vert \nabla f(x)-\nabla f(y) \Vert^2$$
则在梯度下降法中有:
\begin{align*}
\Vert x_{k+1}-x^* \Vert^2 &=\Vert x_k-x^*-\alpha \nabla f(x_k)\Vert^2\\
&=\Vert x_k-x^* \Vert^2 -2\alpha\nabla f(x_k)^\top\left( x^k-x^* \right) +\alpha^2 \Vert\nabla f(x_k)\Vert^2\\
&=\Vert x_k-x^* \Vert^2 -2\alpha\left( \nabla f(x_k)-\nabla f(x^*)\right)^\top \left( x^k-x^* \right) +\alpha^2 \Vert\nabla f(x_k)-\nabla f(x^*)\Vert^2\\
&\leq \left(1-\alpha \frac{2mL}{m+L} \right) \Vert x_k-x^* \Vert^2 +\alpha\left(\alpha-\frac{2}{m+L}\Vert\nabla f(x_k)\Vert^2 \right)
\end{align*}
此时因为$\alpha\in\left(0,\frac{2}{m+L} \right)$,于是有
$$\Vert x_{k+1}-x^* \Vert^2 \leq \left(1-\alpha \frac{2mL}{m+L} \right) \Vert x_k-x^* \Vert^2 $$
且此时$\left(1-\alpha \frac{2mL}{m+L} \right)\in (0,1) $于是
$$\Vert x_{k+1}-x^* \Vert^2 \leq c^{k+1}\Vert x_0-x^* \Vert^2 $$
其中$0<c<1$,于是这是$Q$线性收敛的

 

 

 

 

标签:right,frac,Vert,梯度,nabla,证明,alpha,收敛性,left
From: https://www.cnblogs.com/wjma2719/p/18162340

相关文章

  • amCharts粒状梯度柱形图
    代码案例<!DOCTYPEhtml><html><head><scriptsrc="https://cdn.amcharts.com/lib/5/index.js"></script><scriptsrc="https://cdn.amcharts.com/lib/5/xy.js"></script><scriptsrc=&qu......
  • JMeter的梯度压测
        ApacheJMeter是Apache组织基于Java开发的压力测试工具,用于对软件做压力测试。   一般大家说熟悉的压测脚本方案是,通过一次次去提高线程数量,来对接口性能峰值进行摸底,如果压测任务中出现了几十几百个接口,每个接口都去压5min的(10、20、30、40.。。并发)这样......
  • 方向导数和梯度
    今天我们来讨论一下梯度与方向导数。偏导数的概念非常容易理解,例如下图,z=$x^{2}$+$y^{2}$,x与y形成的二维平面上,每个点(对应一组xy值)都能在z的函数图像上找到对应的投影点,这个点的高度就是z值的大小。z对x的偏导数就在保持变量y大小不变的情况下(粉色切面上y值均相等),沿着x轴的方向,z......
  • 回归问题求解 python---梯度下降+最小二乘法
      MSE=1/m*∑i=1m(yi−y^i)2 a=[1.,2.,3.,4.,5.,6.,7.,8.,9.]b=[3.,5.,7.,9.,11.,13.,15.,17.,19.]points=[[a[i],b[i]]foriinrange(len(a))]lr=0.001eps=0.0001m=len(......
  • SciTech-BigDataAIML-Adam动量自适应的梯度快速收敛
    http://faculty.bicmr.pku.edu.cn/~wenzw/optbook/pages/stograd/Adam.html版权声明此页面为《最优化:建模、算法与理论》、《最优化计算方法》配套代码。代码作者:文再文、刘浩洋、户将,代码整理与页面制作:杨昊桐。Adam算法考虑优化问题:minx∈Rnf(x)=1N∑i=1Nfi(x).Adam算......
  • 扩展中国剩余定理证明及例题 Strange Way to Express Integers
    前置知识中国剩余定理(CRT),逆元;EXCRT是什么我们知道对于\[\begin{equation} \begin{cases} x\equivc_1\(mod\m_1)\\ x\equivc_2\(mod\m_2)\\ .\\ .\\ .\\ x\equivc_i\(mod\\m_i)\\ \end{cases}\end{equation}\]一个一元线性同余方......
  • 扩展中国剩余定理证明及例题 Strange Way to Express Integers
    前置知识中国剩余定理(CRT),逆元;EXCRT是什么我们知道,对于对于\[\begin{equation} \begin{cases} x\equivc_1\(mod\m_1)\\ x\equivc_2\(mod\m_2)\\ .\\ .\\ .\\ x\equivc_i\(mod\\m_i)\\ \end{cases}\end{equation}\]一个一元线性......
  • 闲话 4.12——对 Worpitzky 恒等式的几个证明
    \[\sum_{i}\left\langle\begin{matrix}n\\i\end{matrix}\right\rangle\binom{i+k}{n}=k^n\]通俗的证明(具体数学的习题6.15)是使用归纳法。我们也可以对后面几个式子用二项式反演证明,而有如下过程:\[\begin{aligned}z^n&=\sum_{i=0}^n{n\bracei}z^\underlinei\\&=\sum_{i=0}......
  • Qt加Opencv实现 梯度矫正 功能
    废话:有时候我们是从物品的斜上方拍摄的图片,看起来不直观,需要把视角拉正,这样的一个操作就叫做梯度矫正,需要用到的技术是Opencv的透视变换。这个只是一个简单的演示demo,如果完善一下,比如物品检测,可以应用更多的场景,比如常见的:文件、资料上传,软管摄像头的应用等,怎么说也是一个......
  • 如何进行快速求解大数是否是11的倍数证明(如果奇数位数字和与偶数位数字和的差是11的倍
    当一个数的奇数位上数字和与偶数位上数字和的差是11的倍数时,这个数就是11的倍数。这个性质可以通过数学归纳法和模运算的性质来证明。观察模运算的性质首先,观察到对于任意正整数k,10^k对11取模的结果是循环的:......