Task2.1:《深度学习详解》- 3.3&4&5 自适应学习率的概念和方法,包括AdaGrad、RMSProp和Adam等优化器。
- **训练网络时的梯度和损失变化**:训练网络时损失可能不再下降,但梯度范数不一定小,梯度可能在山谷壁间“震荡”,多数训练未到临界点就停止。
- **不同学习率的影响**:学习率过大或过小都会影响训练效果,过大步伐大无法滑到谷底,过小则难以靠近局部最小值。
- **自适应学习率方法**:包括AdaGrad能根每个参数的梯度大小自动调整学习率;RMSProp可动态调整同一参数不同时间的学习率;Adam是RMSprop加上动量,能自适应调整学习率。
- **AdaGrad**: 根据每个参数的梯度大小自动调整学习率,使得在梯度大时学习率减小,在梯度小时学习率增大。
- **RMSProp**: 同一个参数需要的学习率,也会随着时间而改变。通过引入超参数α来调整当前梯度与之前梯度的权重,实现学习率的动态调整。
- **Adam优化器**: 是RMSProp加上动量的方法,能够同时考虑参数更新的方向和大小,实现更有效的训练。
- **学习率调度**:通过让学习率与时间相关,采用学习率衰减策略,可解决训练中出现的问题,使训练更顺利地达到终点。
神经网络训练不起来怎么办(4):损失函数(Loss)也可能有影响_思维导图:
标签:Task2,训练,AI,李宏毅,RMSProp,学习,参数,Adam,梯度 From: https://www.cnblogs.com/LYLtim/p/18387675