梯度下降
梯度是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。梯度在物理学、机器学习和数学优化等领域有着广泛的应用。
- 挑选一个初始值\(w_0\)
- 重复迭代参数t=1,2,3
- 沿梯度方向将增加损失函数的值
- 学习率:步长的超参数
学习率的选择;
不能太小:因为梯度计算是有花费
不能太大:因为步子太大会跨过最优解,导致结果一直在震荡并没有真正的使损失函数减小
小批量随机梯度下降
- 在整个训练集上算梯度太贵
在深度神经网络模型对训练集求一遍梯度可能需要数分钟至数小时 - 我们可以随机采样\(b\)个样本\(i_1、i_2、......、i_b\)来近似损失
b是批量大小,另一个重要的超参数