1. 通常权重衰减等价于L2正则化

控制模型容量方法：

模型变得比较小，即参数比较少。
参数值的选择范围比较小。

权重衰减通过限制参数值的选择范围来控制模型容量：

\[min\ \ell(\mathbf{w}, b) \ \ \ \ subject\ to\ \ ||\mathbf{w}||^2 \leqslant \theta \tag{1} \]

通常不限制偏移 \(b\)（限不限制都差不多）
小的 \(\theta\) 意味更强的正则项。

通过拉格朗日乘子法可以证明目标函数 \((1)\) 等价于：

\[min\ \ell(\mathbf{w}, b) + \frac{\lambda}{2}||\mathbf{w}||^2 \tag{2} \]

超参数 \(\lambda\) 控制了正则项的重要程度。

\(\lambda = 0\)：无作用。
\(\lambda \to \infty\)，\(\mathbf{w}^* \to 0\)。

拉格朗日乘子法用于解决约束条件下的多元函数极值问题。

举例，求 \(f(x,y)\) 的最小值，但是有约束 \(C(x,y) = 0\)。

乘子法给的一般思路是，构造一个新的函数 \(g(x,y,λ) = f(x,y) +λC(x,y)\)，当同时满足 \(g'x = g'y = 0\)时，函数取到最小值。这件结论的几何含义是，当\(f(x,y)\) 与 \(C(x,y)\) 的等高线相切时，取到最小值。

1.1 梯度下降法更新参数

计算梯度：

\[\frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2\right)=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w} \]

时间 \(t\) 更新参数：

\[\mathbf{w}_{t+1}=(1-\eta \lambda) \mathbf{w}_t-\eta \frac{\partial \ell\left(\mathbf{w}_t, b_t\right)}{\partial \mathbf{w}_t} \]

通常 \(\eta \lambda < 1\)，所以 \(L2\) 正则化等价于权重衰减。

2. 权重衰减是否真正等价于L2正则化

如果用标准的梯度下降法或是随机梯度下降，那么权重衰减和 \(L2\) 正则化是等价的。

如果是用 \(Adam\) 这样的优化后的算法，那么权重衰减和 \(L2\)正则化就不等价。

标签：partial,ell,权重,正则,mathbf,衰减,lambda
From： https://www.cnblogs.com/keye/p/17456392.html

matlab 构造逐渐震荡衰减的函数
t=0:0.01:10;%时间范围freq=5;%振荡频率amp=1;%初始振幅duration=5;%振荡持续时间decay_rate=0.1;%衰减速率y=amp*sin(2*pi*freq*t).*exp(-decay_rate*t);%构造函数plot(t,y);%绘制图形xlabel('时间');ylabel('振幅');title('逐渐震荡衰减函数');......
正余弦优化算法(SCA)文章复现(非线权重改进位置更新+Levy飞行扰动策略+ABC算法思想)—
正余弦优化算法(SCA)文章复现(非线权重改进位置更新+Levy飞行扰动策略+ABC算法思想)——SCASL复现内容包括:文章改进SCA算法实现、23个基准测试函数、文中相关因子分析、与SCA对比等。代码基本上每一步都有注释，非常易懂，代码质量极高，便于新手学习和理解。ID:23596702235796......
缎蓝园丁鸟优化算法（SBO）文章复现（非均匀变异策略+非线性权重改进位置更新+互利因子改进
缎蓝园丁鸟优化算法（SBO）文章复现（非均匀变异策略+非线性权重改进位置更新+互利因子改进位置更新）——ISBO。复现内容包括:改进算法实现、23个基准测试函数、文中相关因子分析、文中相关图分析、与SBO对比等。代码基本上每一步都有注释，非常易懂，代码质量极高，便于新手学习和理解......
蝴蝶优化算法(BOA)文章复现(Logistic混沌扰动+自适应权重w+完整PSO算法融合)——HPSBA
蝴蝶优化算法(BOA)文章复现(Logistic混沌扰动+自适应权重w+完整PSO算法融合)——HPSBA复现内容包括:文章改进BOA算法实现、23个基准测试函数、文中相关因子分析、文中混沌特性分析、与BOA对比等。代码基本上每一步都有注释，非常易懂，代码质量极高，便于新手学习和理解。ID:53......
蝴蝶优化算法(BOA)文章复现(改进Tent混沌初始化种群+自适应权重w、p+最优领域扰动策略
蝴蝶优化算法(BOA)文章复现(改进Tent混沌初始化种群+自适应权重w、p+最优领域扰动策略+透镜反向学习策略)——ORBOA复现内容包括:文章改进BOA算法实现、23个基准测试函数、文中相关因子分析、文中混沌特性分析、与BOA对比等。代码基本上每一步都有注释，非常易懂，代码质量极......
麻雀搜索算法（SSA）文章复现(Chebyshev混沌初始化种群+黄金正弦算法和曲线自适应权重改进
麻雀搜索算法（SSA）文章复现(Chebyshev混沌初始化种群+黄金正弦算法和曲线自适应权重改进发现者策略+曲线自适应权重改进加入者策略+随机游走扰动策略+柯西-t扰动策略）——GCSSA复现内容包括:文章改进SSA算法实现、23个基准测试函数、改进策略因子画图分析、文中相关混沌图分析、......
tensorflow 输出权重的值
1.确定权重名称：tvars1=tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES)fortmpintvars1:print('all-->',tmp.name)2.根据网络结构从1中找到想要打印的权重名称weight_name，通过下面的方式进行打印fc_logits=tf.get_default_graph().get_tensor_by_name(weigh......
基于扩张状态观测器eso扰动补偿和权重因子调节的电流预测控制，相比传统方法，增加了参数
基于扩张状态观测器eso扰动补偿和权重因子调节的电流预测控制，相比传统方法，增加了参数鲁棒性。降低电流脉动，和误差。基于扩张状态观测器eso补偿的三矢量模型预测控制。ID:41123672941746934......
【二分查找】LeetCode 528. 按权重随机选择
题目链接528.按权重随机选择思路代码classSolution{privateint[]sum;publicSolution(int[]w){sum=newint[w.length+1];for(inti=1;i<sum.length;i++){sum[i]=sum[i-1]+w[i-1];}}p......
Nacos修改权重报错caused: errCode: 500, errMsg: do metadata operation failed ；caus
今天修改Nacos权重时报错如下：caused:errCode:500, caused:errCode:500,errMsg:dometadataoperationfailed；caused:com.alibaba.nacos.con。解决方案：停掉nacos服务将nacos文件夹下data中的protocol文件夹删除重启nacos服务即可 ......

权重衰减

1. 通常权重衰减等价于L2正则化

1.1 梯度下降法更新参数

2. 权重衰减是否真正等价于L2正则化

相关文章

赞助商

阅读排行