3.3 自适应学习率
当梯度大小不再下降时,并不代表梯度本身已经变得很小接近于0了,有可能是梯度在波谷之间来回震荡。
原始的梯度下降在很简单的误差表面上都不一定能够达到临界点,因此引入自适应学习率。
3.3.1 AdaGrad
传统的梯度下降更新参数 \(\theta_t^i\) 的过程是
\[\theta_{t+1}^i \leftarrow \theta_t^i-\eta g_t^i \]现在需要引入一个参数定制化的学习率
\[\theta_{t+1}^i \leftarrow \theta_t^i-\frac{\eta}{\sigma_t^i} g_t^i \]对于不同参数其 \(\sigma\) 不同,\(\sigma_t^i\) 的下标表示与迭代相关,上边表示与参数 \(i\) 相关
参数相关的一个常见类型时算 梯度的均方根 即:
当某次迭代时梯度较大,则计算得到的 \(\sigma_t^i\) 也较大,得到的学习率就比较小,反之同理。
3.3.2 RMSProp
RMSProp 与 AdaGrad 的方法类似,不同点在于,AdaGrad 方法中认为每一个梯度具有同样的重要性所以他们的权重都为1,但是在 RMSProp 中引入了一个超参数可以调整梯度的重要性
\[\theta_{t+1}^i\leftarrow \theta_t^i-\frac{\eta}{\sigma_t^i}g_t^i \ \ \sigma_t^i = \sqrt{\alpha(\sigma_t^i)^2+(1-\alpha)(g_t^i)^2} \]3.3.3 Adam
Adam 时最常用的优化策略或者优化器,可以看作时在 RMSProp 的基础上加上了动量,使用动量作为参数来更新方向,并且能够自适应的调整学习率。
3.4 学习率调度
只使用自适应学习率并不能很好的训练,因为在快到临界点时,周围的梯度比较小,此时的学习率较大移动的步伐也会很大,容易造成震荡和梯度突然暴增的问题。
通过引入学习率调度 可以缓解这个问题,之前自适应学习率中 \(\eta\) 是一个固定的值,而在学习率调度中 \(\eta\) 是和时间相关的。
一种最常见的学习率调度策略就是 学习率衰减 也称为学习率退火。
还有另外一种经典的学习率调度的方式预热。使用预热的意义在于,学习率优化的过程需要用到 \(\sigma\), 而 \(\sigma\) 是一个统计意义上的结果,因此在训练的初期 \(\sigma\) 的值是不精准的。所以我们此时希望用较小的学习率,来抑制参数的变化,先收集一些梯度的信息后再开始正式的更新参数。
3.5 总结
在了解了自适应学习率,学习率调度的优化方式后,我们目前的更新方式如下:
\[\theta_{t+1}^i\leftarrow \theta_t^i-\frac{\eta_t}{\sigma_t^i}m_t^i \]这种优化反式和 Adam 类似,通过使用不同的方式来计算 \(\sigma_t^i\) 和 动量\(m_t^i\),我们可以得到不同的优化器
虽然 \(m_t^i\) 和 \(\sigma_t^i\) 都考虑到了过去的所有梯度,但是两者应用梯度的方式是不一样的,动量是直接对梯度求矢量和,而均方根则是不考虑方向只考虑梯度的大小,所以并不矛盾。
3.6 分类
3.6.1 分类与回归的关系
根据类本身是否有关联性,我们需要考虑神否引入独热向量来表示类。每个独热向量可以看作空间中一个特定的维度,和其他维度没有直接关系。因此用独热向量计算距离的话,类之间两两的距离是相同的。
3.6.2 带有softmax的分类
当类别是独热向量时,里面的值只有0和1,所以我们需要对神经网络计算得到的结果进行归一化,才能和标签计算相似度,因此我们在分类任务中引入 softmax 函数。
\[y_i^{`}=\frac{\exp(y_i)}{\sum_j\exp(y_j)} \]当类别数量在三个及以上时我们使用 softmax 函数,当类别数量为两个时我们直接使用 sigmoid 函数,其实对于类别数为2时,sigmoid 函数和 softmax 函数的计算是等价的。
3.6.3 分类损失
常见的分类任务中的损失函数有均方误差和交叉熵,均方误差的形式为:
\[e=\sum(y_i-y_i^`)^2 \]交叉熵损失的形式为:
\[e=-\sum_iy_ilny_i^` \]在分类任务中,交叉熵损失一般来说比均方误差的优化效果更好,因为当某个标签非常小时,经过softmax函数后其得到的值非常接近于0,此时在交叉熵损失下得到的损失会非常大比较贴合实际,而对于均方误差来说这一项为损失提供的大小只有1。
标签:Task2,frac,AI,梯度,学习,eta,theta,打卡,sigma From: https://www.cnblogs.com/youth518/p/18390913