• 2024-09-29优化器:从SGD到Adam到AdamW
    1.SGD随机梯度下降(stochasticgradientdescent,SGD)输入数据为(x,y)组成的pair,模型参数是\(W\),随机选择一批样本组成一个batch,输入模型计算loss:\(L=f(X,Y;W)\),并求出梯度,更新参数时:\(W=W-lr*\frac{\partialL}{\partialW}\)这就是随机梯度下降。2.Adam本段参考视频:https