如何看待L1、L2规则化
将它们视为loss函数中引入了惩罚项。
我们的目的是希望求出在参数值取多少时,loss函数是最小的;但是引入L1、L2规则化算子后(这时就变成拉格朗日函数),相当于给参数的取值套了个“紧箍咒”:
不再像原来那样可以自由自在地随便给参数取值
原因在于我们可以看到L1、L2都恒大于0,而我们的目标是要求得min
这正是regularization(规则化)的来由(有的翻译为正则化,感觉不够贴切)。
我们还可以从另一个角度看待:
loss函数是希望参数取值往其极小值方向去;规则化是希望往其中心点去两者就像两个人在拔河,最后找到了一个平衡点,就是最后的参数值注意加入规则化会使得loss函数的等值线(上图彩色线)发生变化,实际是在新的目标函数下求解。
为什么L2规则化可以防止过拟合
L2规则化
->求得的参数值小
->不会因为输入值的微小偏差,导致输出发生巨大变化(克服了ill condition)。(这就是好的泛化)
关于L2的其他
L2将函数转为了λ-stronglyconvex(强凸):
“强凸”的话,就能对情况做一些控制,我们就可以得到一个更好的近似解。
Ref
机器学习中的范数规则化之(一)L0、L1与L2范数