梯度下降
我们的目的是找到使预测值最接近真实值的参数,也就是使损失函数最小的参数,即求解损失函数的极值点。于是引入梯度下降的方法,这是被使用最广泛的优化算法。
梯度下降算法是通过一次次的去调整参数,使得损失函数下降到极小值。
什么叫梯度?
梯度就是下降的方向,它的值为损失函数的偏导数。学习率是下降的步伐大小。
梯度是一个向量,体现函数的变化趋势,既有方向又有大小。方向代表着函数增长的方向,大小代表函数增长的速率。
随机选择一个位置(随机初始化参数)开始梯度下降,每走一步就计算一次梯度,这是为了选择下降最快的方向,同时更新参数。
批量梯度下降
参数更新:
为什么参数的更新是用参数减去梯度?
批量梯度下降容易得到最优解,但由于每次考虑所有样本,速度很慢。
随机梯度下降
参数更新:
每次找一个样本,速度快,但是不一定朝收敛方向。
小批量梯度下降
参数更新:
每次选择一部分数据计算,称为一个batch,例如10个。
标签:函数,梯度,更新,参数,下降,方向 From: https://www.cnblogs.com/dxmstudy/p/17432556.html