次梯度算法:
梯度下降法的迭代格式为$$x_{k+1}=x_k-\alpha_k\nabla f(x_k)$$
但是对于不可微的凸函数,梯度并不存在,于是使用此梯度算法:
$$x_{k+1}=x_k-\alpha_k g_k)$$其中$g_k\in \partial f(x_k)$
次梯度算法的收敛性证明:
假设:$f$是凸函数且存在最小值点$f^*$,且是$G-$利普西茨连续的,即$$\vert f(x)-f(y)\vert\leq G\Vert x-y\Vert ,\forall x,y\in \mathbb{R}^n$$
引理:在前提假设下,$f$的次梯度一致有界,即$$\exists M>0,s.t.\Vert g \Vert<M.\forall g \in \partial f(x),\forall x\in \mathbb{R}^n $$
收敛性:$$2\left(\sum_{i=0}^k \alpha_i\right)\left( {\mathop{f}^{-}}_k\right)\leq \Vert x_0-x^*\Vert + \sum_{i=0}^k \alpha_i^2 G^2 $$
其中${\mathop{f}\limits^{-}}_k=\mathop{min}\limits_{0\leq i\leq k} f_i$
proof:
\begin{align*}
\Vert x_{i+1}-x^*\Vert^2&=\Vert x_i-\alpha_ig_i-x^*\Vert\\
&=\Vert x_i-x^*\Vert^2-2\alpha_i\left< g_i, x_i-x^* \right> +\alpha_i+\Vert g_i \Vert^2\\
&\leq \Vert x_i-x^*\Vert^2-2\alpha_i\left( f_i-f^* \right) +\alpha_i G^2
\end{align*}
于是得到$$2\alpha_i\left( f_i-f^* \right)\leq \Vert x_i-x^*\Vert^2-\Vert x_{i+1}-x^*\Vert^2+\alpha_i^2 G^2$$
分别令$i=0,1,\dots,k$再累加得到
$$2\sum_{i=0}^k\alpha_i\left( f_i-f^* \right)\leq\Vert x_0-x^*\Vert^2+G^2\sum_{i=0}^k\alpha_i^2 $$
于是进一步得到:
$$2\left( \sum_{i=0}^k\alpha_i\right) \left( {\mathop{f}\limits^{-}}_i-f^* \right)\leq\Vert x_0-x^*\Vert^2+G^2\sum_{i=0}^k\alpha_i^2 $$
如果取$\alpha_i=\frac{1}{i}$,易得算法收敛。