我们知道,softmax容易使模型过度自信过拟合,label smoothing作为一种改善方案可以提高模型的泛化能力。
label_smoothing
上篇博客推导过反向求导的结果如下softmax求导/label_smoothing求导/知识蒸馏求导
其中
求导结果与上面softmax相同
令导数等于0,将代入
假定错误类别的概率相等,化简上式得:
将时记为得:
所以,使用label smoothing编码,损失函数为交叉熵的话,错误类别的logit不会要求是负无穷,当正确类别和错误类别的logit有一定误差,接近的情况下,loss就会很小趋于0。
简单的label smoothing为什么能够涨点呢