首页 > 其他分享 >权重衰减

权重衰减

时间:2023-06-04 21:33:38浏览次数:33  
标签:partial ell 权重 正则 mathbf 衰减 lambda

1. 通常权重衰减等价于L2正则化

控制模型容量方法:

  • 模型变得比较小,即参数比较少。
  • 参数值的选择范围比较小。

权重衰减通过限制参数值的选择范围来控制模型容量:

\[min\ \ell(\mathbf{w}, b) \ \ \ \ subject\ to\ \ ||\mathbf{w}||^2 \leqslant \theta \tag{1} \]

  • 通常不限制偏移 \(b\)(限不限制都差不多)
  • 小的 \(\theta\) 意味更强的正则项。

通过拉格朗日乘子法可以证明目标函数 \((1)\) 等价于:

\[min\ \ell(\mathbf{w}, b) + \frac{\lambda}{2}||\mathbf{w}||^2 \tag{2} \]

超参数 \(\lambda\) 控制了正则项的重要程度。

  • \(\lambda = 0\):无作用。
  • \(\lambda \to \infty\),\(\mathbf{w}^* \to 0\)。

拉格朗日乘子法用于解决约束条件下的多元函数极值问题。

举例,求 \(f(x,y)\) 的最小值,但是有约束 \(C(x,y) = 0\)。

乘子法给的一般思路是,构造一个新的函数 \(g(x,y,λ) = f(x,y) +λC(x,y)\),当同时满足 \(g'x = g'y = 0\)时,函数取到最小值。这件结论的几何含义是,当\(f(x,y)\) 与 \(C(x,y)\) 的等高线相切时,取到最小值。

1.1 梯度下降法更新参数

计算梯度:

\[\frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2\right)=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w} \]

时间 \(t\) 更新参数:

\[\mathbf{w}_{t+1}=(1-\eta \lambda) \mathbf{w}_t-\eta \frac{\partial \ell\left(\mathbf{w}_t, b_t\right)}{\partial \mathbf{w}_t} \]

通常 \(\eta \lambda < 1\),所以 \(L2\) 正则化等价于权重衰减。

2. 权重衰减是否真正等价于L2正则化

如果用标准的梯度下降法或是随机梯度下降,那么权重衰减和 \(L2\) 正则化是等价的。

如果是用 \(Adam\) 这样的优化后的算法,那么权重衰减和 \(L2\)正则化就不等价。

标签:partial,ell,权重,正则,mathbf,衰减,lambda
From: https://www.cnblogs.com/keye/p/17456392.html

相关文章