6.1 motivating example : mean estimation
- 采样足够多进行平均
- 迭代求平均:
\(w_{k+1} = w_k - \frac{1}{k} (w_k - x_k)\)
6.2 Robbins-Monro algorithm
RM算法的优点是:不需要知道方程表达式,也不需要知道梯度信息啥的。随机梯度算法是RM算法的一种特殊情况。
求根问题:
RM算法求解:
RM算法收敛的条件:
- 条件1:g(w)的梯度有限而且为正,这点很多函数都不满足
- 条件2:\(a_k\)最后一定要收敛到零,而且不能收敛的太快,常用一个非常小的常数
- 条件3:\(\eta\) 的mean为零,而且方差有界,不要求高斯噪音
6.3 Stochastic gradient descent
SGD是为了求解一个最优问题:
$\min_w J(w) = E[f(w,x)] $
1. example:
SGD是将GD算法中的true gradient 换成了stochastic gradient,那会不会造成梯度的不稳定呢?下面是证明:
如果\(w_k - w^*\)比较大的时候,SGD和GD的性质很像,比较小的时候,确实会产生一些随机项
6.4 BGD, MBGD, SGD:
BGD:需要所有采样数据;
MBGD:采样一些数据;
SGD:随机采样一个数据,迭代;