L1正则化、L2正则化都是一种用于防止模型过拟合的技术,常用于机器学习和统计建模中。它们的主要区别在于对权重的惩罚方式不同。
L1正则化在损失函数中加入权重绝对值的和作为惩罚项,其数学表达式为:
其中,∣wi∣表示模型参数的绝对值。
L2正则化在损失函数中加入权重平方和作为惩罚项,其数学表达式为::
其中:
Original Loss是模型的原始损失(如均方误差);
wi 表示模型的参数(权重);
λ 是正则化参数,控制惩罚项的强度。
通过引入L2正则化,模型会倾向于学习较小的权重值,这样可以减少模型对训练数据的敏感性,从而提高模型在未知数据上的泛化能力。
L2正则化的一个重要特性是它会使得权重趋向于零,但不会完全变为零,这与L1正则化(会导致某些权重变为零以实现特征选择)不同。
区别与联系
-
惩罚形式:
- L1正则化使用参数的绝对值,因此会傾向于使某些权重完全为零,这可以实现特征选择。
- L2正则化使用参数的平方,因此更倾向于将权重值减小,但不会完全为零。
-
几何意义:
- 在损失函数的图形中,L1正则化的等高线呈菱形,而L2正则化的等高线呈圆形。
- L1正则化的边界能够更容易地与坐标轴相交,从而使得某些权重为零。
-
优化结果:
- L1正则化会导致参数稀疏化,适合于特征选择。
- L2正则化则通常会产生更平滑的模型,更适合于多数特征的情况。
具体例子
假设我们要用线性回归模型来预测房价。假设我们有多个特征,例如房间数量、位置、面积和年龄等。使用这些特征时:
-
L1正则化:在训练过程中,L1正则化可能会将某些不重要特征(如房间数量)对应的权重推向零,从而使得模型只关注实际影响房价的特征(如位置和面积)。这种特性使得L1正则化特别适合于高维数据的情况,尤其是当你认为不所有的特征都是重要的时候。
-
L2正则化:与此相反,L2正则化会对所有特征施加惩罚,但不一定会将某些特征权重变为零。它可能会减小所有特征的影响力,但仍然保留它们的贡献。这对于模型的整体复杂性控制很重要,旨在确保模型尽量符合训练数据同时又避免对噪声的过度拟合。
总结来说,L1和L2正则化可以根据具体问题的需求进行选择,L1适用于需要特征选择的情况,而L2适用于一般的平滑建模。
标签:权重,特征选择,模型,化是,正则,L2,L1 From: https://blog.csdn.net/weixin_65489379/article/details/141496252