深度学习中的正则化技术 - 正则化和欠约束问题篇

时间：2024-07-10 20:26:04浏览次数：24

序言

在机器学习与深度学习中，正则化是一项至关重要的技术，特别是在处理复杂数据和构建高效模型时。正则化的引入主要为了解决一类常见问题——欠约束问题。欠约束问题通常发生在数据分布具有某些特定性质或模型复杂度过高时，导致模型在训练过程中无法稳定收敛，甚至可能出现过拟合现象。正则化作为一种有效的约束手段，通过引入额外的惩罚项来限制模型的复杂度，从而提高模型的泛化能力。

正则化和欠约束问题

在某些情况下，为了正确定义机器学习问题，正则化是必要的。
机器学习中许多线性模型，包括线性回归和主成分分析（ PCA \text{PCA} PCA），都依赖于求逆矩阵 X ⊤ X \boldsymbol{X}^\top\boldsymbol{X} X⊤X。
只要 X ⊤ X \boldsymbol{X}^\top\boldsymbol{X} X⊤X是奇异的这就是不可能的。每当数据生成分布的一些方向上确实没有差异时，或因为例子较少（即相对输入特征（ X \boldsymbol{X} X的列）来说）而在一些方向没有观察到方差，这个矩阵就是奇异的。
在这种情况下，正则化的许多形式对应于求逆 X ⊤ X + α I \boldsymbol{X}^\top\boldsymbol{X}+\alpha\boldsymbol{I} X⊤X+αI。这个正则化矩阵可以保证是可逆的。
相关矩阵可逆时，这些线性问题有闭式解。没有闭式解的问题也可能是欠定的。
- 一个例子是应用于线性可分问题的逻辑回归。如果权重向量 w \boldsymbol{w} w能够实现完美分类，那么 2 w 2\boldsymbol{w} 2w也会以较高似然实现完美分类。
- 类似随机梯度下降的迭代优化算法将持续增加 w \boldsymbol{w} w的大小，理论上永远不会停止。
- 在实践中，数值实现的梯度下降最终会达到导致数值溢出的超大权重，此时的行为将取决于程序员如何处理这些不是真正数字的值。
大多数形式的正则化能够保证应用于欠定问题的迭代方法收敛。例如，当似然的斜率（slope）等于权重衰减的系数时，权重衰减将阻止梯度下降继续增加权重的大小。
使用正则化解决欠定问题的想法超出了机器学习范畴。同样的想法在几个基本线性代数问题中也非常有用。
正如我们在应用数学与机器学习基础 - 线性代数篇看到，我们可以使用 Moore-Penrose \text{Moore-Penrose} Moore-Penrose求解欠定线性方程。回想 X \boldsymbol{X} X伪逆 X + \boldsymbol{X}^+ X+的一个定义：
X + = lim ⁡ α → 0 ( X ⊤ X + α I ) − 1 X ⊤ —公式1 \boldsymbol{X}^+=\lim\limits_{\alpha\to0}(\boldsymbol{X}^\top\boldsymbol{X}+\alpha\boldsymbol{I})^{-1}\boldsymbol{X}^\top\quad\textbf{\footnotesize{---公式1}} X+=α→0lim(X⊤X+αI)−1X⊤—公式1
现在我们可以将公式1看作执行具有权重衰减的线性回归。具体来说，当正则化系数趋向 0 0 0，公式1是公式 w = ( X ⊤ X + α I ) − 1 X ⊤ y \boldsymbol{w}=(\boldsymbol{X}^\top\boldsymbol{X}+\alpha\boldsymbol{I})^{-1}\boldsymbol{X}^\top\boldsymbol{y} w=(X⊤X+αI)−1X⊤y的极限。
因此，我们可以将伪逆解释为使用正则化来稳定欠定问题。

总结

正则化技术通过向模型的损失函数中添加正则化项，对模型的参数进行约束，使得模型在训练过程中不仅关注于减少训练误差，还考虑到模型参数的复杂性和稳定性。这种策略有效解决了欠约束问题，避免了模型在训练数据上过拟合，从而提高了模型在未见过的测试数据上的表现。
常见的正则化方法包括L1正则化、L2正则化等，它们分别通过不同的方式（如参数向量的绝对值之和或平方和）来惩罚模型的复杂度。
此外，正则化还与其他技术如数据集增强、噪声鲁棒性、多任务学习等相结合，进一步提升了模型的泛化能力和鲁棒性。
总之，正则化是解决机器学习和深度学习中欠约束问题的关键手段，对于构建高效、稳定的模型具有重要意义。

往期重要内容回顾

应用数学与机器学习基础 - 线性代数篇
 应用数学与机器学习基础 - 随机梯度下降算法篇

标签：top,boldsymbol,约束,学习,正则,深度,欠定,模型
From： https://blog.csdn.net/benny_zhou2004/article/details/140270661

Python TensorFlow Keras深度学习模型RetinaNet进行目标检测分析车牌数据
全文链接：https://tecdat.cn/?p=36968原文出处：拓端数据部落公众号目标检测作为计算机视觉领域的关键任务之一，在交通管理、智能安防、自动驾驶等众多应用场景中具有重要意义。车牌作为车辆的重要标识，其准确检测对于车辆识别、交通监控等系统的性能提升至关重要。传统的目标检测方......
机器学习深度学习用得到的数据集
以下是一些常见的机器学习数据集下载渠道：Google数据集搜索引擎：可以通过文本搜索数据集，并能按日期、数据格式和使用权限等进行过滤。地址：https://datasetsearch.research.google.com/Kaggle：这是世界领先的数据科学平台，拥有大量数据集，还允许用户发布数据集及与其他数据科学家交......
3D云渲染工具对决：Maya与Blender的性能和功能深度比较
3D建模和动画制作已成为数字领域不可或缺的一环，无论是在影视特效的震撼场面，还是在游戏角色的生动表现，3D技术都扮演着至关重要的角色。而在这一领域，Maya和Blender这两款软件，以其强大的功能和广泛的应用，成为了设计师们的首选工具。随着云渲染技术的发展，它们在性能和功能上的差异愈发......
【AI和大模型】AI到底和大模型有什么区别？机器学习，深度学习，python，NPL
什么是AI？AI是一个广泛的领域，涵盖了模拟和扩展人类智能的多种理论和技术；而大模型是AI领域中的一种具体技术，特别是在自然语言处理（NLP）方面取得了显著进展的深度学习模型。大模型通常指的是具有大量参数的深度学习模型，它们通过在大规模数据集上进行训练，能够学到丰富的数据表示和模......
精通Postman响应解析：正则表达式的实战应用
......
掌握Conda配置术：conda config命令的深度指南
掌握Conda配置术：condaconfig命令的深度指南引言Conda是一个功能强大的包管理器和环境管理器，广泛用于Python和其他科学计算语言的依赖管理。condaconfig命令是Conda套件中用于配置和自定义Conda行为的关键工具。通过这个命令，用户可以调整Conda的设置，包括环境路径、软件包......
不同深度的埋点事件如何微妙地改变广告系列的成本
/ 作者简介 /本篇文章来自现金贷领域市场投放大佬亮哥的投稿，主要分享了在广告投放过程中，不同深度的埋点事件如何微妙地改变广告系列的成本的相关经验，相信会对大家有所帮助！同时也感谢作者贡献的精彩文章。/ 前言 /在广告投放的征途中，相信每位同行必定经历......
深度学习第二课 Practical Aspect of Deep learning
PracticalAspectofDeeplearningweek1深度学习的实用层面1.1训练/开发/测试集在机器学习发展的小数据量时代，常见做法是将所有数据三七分，就是人们常说的70%验证集，30%测试集，如果没有明确设置验证集，也可以按照60%训练，20%验证和20%测试集来划分。这是前几年机器学习领域普遍......
正则表达式详解
1.正则表达式的作用（1）文本搜索和匹配：可以用来搜索、匹配和替换特定模式的文本。比如，查找所有符合特定格式的邮箱地址、电话号码等。（2）数据验证：可以用来验证用户输入是否符合特定的格式要求。比如，验证电子邮件地址、密码复杂度等。（3）数据......
JS正则从地址中获取省、市、县
varadd1='四川省西昌市航天路';varadd2='北京市北京市东城区前门大街1号'varadd3='新疆维吾尔自治区乌鲁木齐市天山区中山路479号';varadd4='四川省成都市双流县幸福社区23号';varadd5='香港特别行政区中西区尖沙嘴路';varreg=/.+?(省......

深度学习中的正则化技术 - 正则化和欠约束问题篇

序言

正则化和欠约束问题

总结

往期重要内容回顾

相关文章

赞助商

阅读排行