在小批量梯度下降中,试分析为什么学习率要和批量大小成正比
在标准的梯度下降中,参数的更新公式是:
θ=θ−η∇θJL(θ)\theta = \theta - \eta \nabla_\theta JL(\theta)θ=θ−η∇θJL(θ)
其中,η\etaη 是学习率,∇θJL(θ)\nabla_\theta JL(\theta)∇θJL(θ) 是损失函数 JL(θ)JL(\theta)JL(θ) 关于参数 θ\thetaθ 的梯度。
而在小批量梯度下降中,参数的更新公式变为:
θ=θ−η∇θJmb(θ)\theta = \theta - \eta \nabla\theta J(\theta)θ=θ−η∇θJmb(θ)
其中,Jmb(θ)J_{mb}(\theta)Jmb(θ) 是小批量样本的损失函数。
我们期望 ∇θJmb(θ)\nabla\theta J(\theta)∇θJmb(θ) 是 ∇θJL(θ)\nabla_\theta JL(\theta)∇θJL(θ) 的一个无偏估计,即:
E[∇θJmb(θ)]=∇θJL(θ)E[\nabla_\theta J_{mb}(\theta)] = \nabla_\theta JL(\theta)E[∇θJmb(θ)]=∇θJL(θ)
但由于每次只使用一小部分样本,所以 ∇θJmb(θ)\nabla\theta J(\theta)∇θJmb(θ) 会存在一定的噪声。这个噪声的大小和批量大小有关,批量越小,噪声越大。
为了抵消这个噪声的影响,我们可以增大学习率 η\etaη。这是因为,当学习率增大时,参数的更新幅度也会增大,这相当于在梯度方向上加入了一些噪声,和 ∇θJmb(θ)\nabla\theta J(\theta)∇θJmb(θ) 的噪声有一定的抵消作用。
所以,在实际应用中,我们通常会尝试不同的学习率和批量大小的组合,来找到最优的参数更新策略。
标签:JL,梯度,nabla,下降,小批量,Jmb,theta From: https://www.cnblogs.com/Zyecho/p/17739555.html