不动点迭代(Fixed-point iteration)
(不动点)
$x$为单值算子$\mathbb{T}$的不动点,如果$$\mathbb{T} x =x$$
记$\text{Fix} \mathbb{T}=\{x|x=\mathbb{T}x\}=(\mathbb{I}-\mathbb{T})^{-1}(0)$为单值算子$\mathbb{T}$的不动点集合。
如果单值算子$\mathbb{T}$是非扩张的且$\text{dom} {\mathbb{T}}=\mathbb{R}^n$,则$\text{Fix} \mathbb{T}$是闭凸集。
不动点迭代(FPI)的格式为:$$x^{k+1}=\mathbb{T}x^k(k=0,1,2,\dots)$$
如果$\mathbb{T}$是一个收缩算子,则可以利用$Banach$不动点定理得到收敛性,且收敛到不动点。但是对于优化问题,收缩的条件不易满足,下面我们来考虑对平均算子使用不动点迭代。
注意到,对于任意的非扩张算子$\mathbb{T}$,则有平均算子$(1-\theta)\mathbb{I}+\theta\mathbb{T}$的不动点集合与$\mathbb{T}$是相同的,于是只要对平均算子$(1-\theta)\mathbb{I}+\theta\mathbb{T}$运用不动点迭代就可以得到非扩张算子$\mathbb{T}$的不动点。
假设$\{V^k\},\{S^k\}$是非负数列,且$V^{K+1}\leq V^k-S^k(k=0,1,2,\dots)$,则$\{V^k\}$单调递减,且$S^K\rightarrow 0$\\
又若$\{S^k\}$单调递减,则$S^K\leq \frac{V^0}{N+1}$
(平均算子不动点迭代的收敛性)
有平均算子$\mathbb{I}=(1-\theta)\mathbb{I}+\theta\mathbb{S}$,其中$\mathbb{S}$为非扩张算子,且$\text{Fix}\mathbb{T}$,令:$$x^{k+1}=\mathbb{T}x^k(k=0,1,2,\dots)$$
则$\{x^k\}$收敛于$\text{Fix}\mathbb{T}$中的一点,且$\{\Vert x^{k+1}-x^k \Vert\}$单调递减且满足
$$\Vert x^{k+1}-x^k \Vert^2\leq\frac{\theta}{(k+1)(1-\theta)}dist^2(x^0,\text{Fix}\mathbb{T})$$
\begin{proof}
\begin{align*}
\Vert x^{k+1}-x^* \Vert^2&=\Vert (1-\theta)x^k+\theta\mathbb{S}x^k-x^* \Vert^2\\
&=\Vert (1-\theta)x^k+\theta\mathbb{S}x^k-(1-\theta)x^*+\theta\mathbb{S}x^* \Vert^2\\
&=\Vert (1-\theta)(x^k-x^*)+\theta(\mathbb{S}x^k-\mathbb{S}x^*)\Vert^2\\
&=(1-\theta)\Vert x^k-x^*\Vert ^2 +\theta\Vert\mathbb{S}x^k-\mathbb{S}x^*\Vert^2-\theta(1-\theta)\Vert\mathbb{S}x^k-x^k\Vert^2\\
&\leq (1-\theta)\Vert x^k-x^*\Vert ^2 +\theta\Vert x^k-x^*\Vert^2-\theta(1-\theta)\Vert\mathbb{S}x^k-x^k\Vert^2\\
&=\Vert x^k-x^*\Vert^2-\theta(1-\theta)\Vert\mathbb{S}x^k-x^k\Vert^2\\
&=\Vert x^k-x^*\Vert^2-\frac{(1-\theta)}{\theta}\Vert x^{k+1}-x^k\Vert^2\\
\end{align*}
则根据引理4.1得到$\{\Vert x^k-x^*\Vert \}$单调递减,到$\{\Vert x^{k+1}-x^k\Vert \}$收敛于0。\\
又因为$\mathbb{T}$是非扩张算子,则有$\{\Vert x^{k+1}-x^k\Vert \}$单调递减。于是根据引理4.1,得到:
$$\Vert x^{k+1}-x^k\Vert^2\leq\frac{\theta}{(k+1)(1-\theta)}\Vert x^0-x^*\Vert^2$$
则:
$$\Vert x^{k+1}-x^k\Vert^2\leq\frac{\theta}{(k+1)(1-\theta)}\text{dist}^2(x^0,\text{Fix}\mathbb{T})$$
下面证明点列$\{x^k\}$收敛于$\text{Fix}\mathbb{T}$中一点:\\
由上述证明可知,点列$\{x^k\}$有界,取其中一个聚点$y^*$,则有$\{x^{k_i}\}$使得$x^{k_i}\rightarrow y^*(i\rightarrow+\infty)$\\
由于$\Vert x^{k+1}-x^k\Vert\rightarrow 0$,则$(\mathbb{T}-\mathbb{I})(x^k)\rightarrow 0$,则$(\mathbb{T}-\mathbb{I})(x^{k_i})\rightarrow 0$,则由海涅定理得到$$(\mathbb{T}-\mathbb{I})(y^*)=0$$,则$y^*\in\text{Fix}\mathbb{T} $\\
将前半部分的$x^*$替换成$y^*$,则有$\{\Vert x^k-y^*\Vert \}$单调递减有下界,则存在极限,又因为子列$\{\Vert x^{k_i}-y^*\Vert \}$有极限$0$,则$\{\Vert x^k-y^*\Vert \}$有极限$0$,于是$$x^k\rightarrow y^*$$,即点列$\{x^k\}$收敛于$\text{Fix}\mathbb{T}$中一点。
\end{proof}
(Forward Step method)
问题:找到$x\in \mathbb{R}^n$使得$0 = \mathbb{F}(x)$等价于求解$ \text{Fix}(\mathbb{I}-\alpha\mathbb{F})$
则FPI为$$x^{k+1}=x^k-\alpha\mathbb{F}x^k:=\mathbb{T}(x^k)$$
如果$\mathbb{F}$是$\beta-$余强制的,即$\left\langle \mathbb{F}x-\mathbb{F}y,x-y \right\rangle\geq \beta \Vert \mathbb{F}x-\mathbb{F}y \Vert^2 ,\forall x,y\in dom{F}$\\
则
\begin{align*}
\Vert \mathbb{T}x-\mathbb{T}y \Vert^2 &=\Vert (\mathbb{I}-\alpha\mathbb{F})x-(\mathbb{I}-\alpha\mathbb{F})y \Vert^2\\
&=\Vert x-y-\alpha(\mathbb{F}x-\mathbb{F}y) \Vert^2\\
&=\Vert x-y\Vert^2-2\alpha\left\langle \mathbb{F}x-\mathbb{F}y,x-y \right\rangle+\alpha^2\Vert \mathbb{F}x-\mathbb{F}y \Vert^2\\
&\leq\Vert x-y\Vert^2-2\alpha\beta\Vert \mathbb{F}x-\mathbb{F}y \Vert^2+\alpha^2\Vert \mathbb{F}x-\mathbb{F}y \Vert^2
\end{align*}
由此可以得到,当$\alpha^2-2\alpha\beta \leq 0(\text{即}0<\alpha \leq 2\beta)$时,$\mathbb{T}$为非扩张算子,则$\mathbb{T}_0=\mathbb{I}-2\beta\mathbb{F}$是非扩张算子。\\
而$\mathbb{T}=\mathbb{I}-2\alpha\mathbb{F}=(1-\theta)\mathbb{I}+\theta(\mathbb{I}-2\beta\mathbb{F})=\mathbb{I}-2\theta\alpha\mathbb{F}$,其中$\theta=\frac{\alpha}{2\beta}$,则$\mathbb{T}$是$\frac{\alpha}{2\beta}-$平均算子,所以FPI收敛(当$0<\alpha < 2\beta$)。\\
又若$\mathbb{F}$是$\mu-$强单调的,即$\left\langle \mathbb{F}x-\mathbb{F}y,x-y \right\rangle\geq \mu \Vert x-y \Vert^2 ,\forall x,y\in dom{F}$\\
则
\begin{align*}
\Vert \mathbb{T}x-\mathbb{T}y \Vert^2 &=\Vert (\mathbb{I}-\alpha\mathbb{F})x-(\mathbb{I}-\alpha\mathbb{F})y \Vert^2\\
&=\Vert x-y-\alpha(\mathbb{F}x-\mathbb{F}y) \Vert^2\\
&=\Vert x-y\Vert^2-2\alpha\left\langle \mathbb{F}x-\mathbb{F}y,x-y \right\rangle+\alpha^2\Vert \mathbb{F}x-\mathbb{F}y \Vert^2\\
&\leq\Vert x-y\Vert^2-2\alpha\mu\Vert x-y \Vert^2+\frac{\alpha^2}{\beta^2}\Vert x-y \Vert^2(\beta-\text{余强制}\Rightarrow \frac{1}{\beta}-\text{Lipschitz})\\
&=(1-2\alpha\mu +\frac{\alpha^2}{\beta^2})\Vert x-y \Vert^2
\end{align*}
则当$0<\alpha<2\mu\beta^2$时,$\mathbb{T}$是收缩算子,所以收敛。
根据上述分析,当$\mathbb{F}=\nabla f$时,可以推出梯度下降法的收敛性。