1. 通常权重衰减等价于L2正则化
控制模型容量方法:
- 模型变得比较小,即参数比较少。
- 参数值的选择范围比较小。
权重衰减通过限制参数值的选择范围来控制模型容量:
\[min\ \ell(\mathbf{w}, b) \ \ \ \ subject\ to\ \ ||\mathbf{w}||^2 \leqslant \theta \tag{1} \]- 通常不限制偏移 \(b\)(限不限制都差不多)
- 小的 \(\theta\) 意味更强的正则项。
通过拉格朗日乘子法可以证明目标函数 \((1)\) 等价于:
\[min\ \ell(\mathbf{w}, b) + \frac{\lambda}{2}||\mathbf{w}||^2 \tag{2} \]超参数 \(\lambda\) 控制了正则项的重要程度。
- \(\lambda = 0\):无作用。
- \(\lambda \to \infty\),\(\mathbf{w}^* \to 0\)。
拉格朗日乘子法用于解决约束条件下的多元函数极值问题。
举例,求 \(f(x,y)\) 的最小值,但是有约束 \(C(x,y) = 0\)。
乘子法给的一般思路是,构造一个新的函数 \(g(x,y,λ) = f(x,y) +λC(x,y)\),当同时满足 \(g'x = g'y = 0\)时,函数取到最小值。这件结论的几何含义是,当\(f(x,y)\) 与 \(C(x,y)\) 的等高线相切时,取到最小值。
1.1 梯度下降法更新参数
计算梯度:
\[\frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2\right)=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w} \]时间 \(t\) 更新参数:
\[\mathbf{w}_{t+1}=(1-\eta \lambda) \mathbf{w}_t-\eta \frac{\partial \ell\left(\mathbf{w}_t, b_t\right)}{\partial \mathbf{w}_t} \]通常 \(\eta \lambda < 1\),所以 \(L2\) 正则化等价于权重衰减。
2. 权重衰减是否真正等价于L2正则化
如果用标准的梯度下降法或是随机梯度下降,那么权重衰减和 \(L2\) 正则化是等价的。
如果是用 \(Adam\) 这样的优化后的算法,那么权重衰减和 \(L2\)正则化就不等价。
标签:partial,ell,权重,正则,mathbf,衰减,lambda From: https://www.cnblogs.com/keye/p/17456392.html