首页 > 其他分享 >【吴恩达机器学习笔记】10-正则化解决过拟合问题

【吴恩达机器学习笔记】10-正则化解决过拟合问题

时间:2024-11-10 15:40:43浏览次数:1  
标签:10 吴恩达 训练 模型 噪声 正则 拟合 数据



过拟合是机器学习中一个常见的问题,它发生在模型在训练数据上表现得很好,但在未见过的测试数据上表现不佳时。
这通常是因为模型过于复杂,捕捉到了训练数据中的噪声和细节,而没有学习到数据的一般模式。

过拟合的定义

过拟合是指模型在训练数据上能够获得比其他假设更好的拟合,但在训练数据外的数据集上却不能很好地拟合数据的现象。这通常发生在模型复杂度过高时,模型可能具有过多的参数,以至于可以记住训练数据的每一个细节,包括噪声和异常值。

过拟合的原因

过拟合的主要原因包括:

  1. 模型复杂度过高:模型参数过多,容易导致模型过度拟合训练数据中的噪声。
  2. 训练数据量较小:数据量不足以支持复杂数学公式,容易导致模型过拟合。
  3. 数据噪声较大:模型可能学习到数据中的噪声,而非真实的数据分布。

如何识别过拟合

过拟合可以通过观察模型在训练集和验证集(或测试集)上的性能差异来识别。如果模型在训练集上表现很好,但在验证集上表现较差,可能就存在过拟合问题。此外,训练误差和测试误差之间的差距很大也是一个明显的标志。

解决过拟合的方法

解决过拟合的方法包括但不限于:

  1. 增加训练数据量:通过增加训练数据量,可以减小模型对噪声的敏感度,提升模型的泛化能力。
  2. 降低模型复杂度:选择更简单的模型,减少模型参数的数量,避免模型过度拟合训练数据。
  3. 使用正则化方法:通过L1正则化、L2正则化等方法,限制模型参数的大小,防止模型过拟合。
    xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
  4. 早停法(Early Stopping):在训练过程中,当验证集的损失不再显著下降时,提前停止训练,避免模型过拟合。
  5. 数据增强:通过对训练数据进行旋转、翻转、缩放等操作,增加数据的多样性,提升模型的泛化能力。

这句话的意思是,在机器学习中,正则化是一种技术,它的作用是减少模型复杂度,防止过拟合。具体来说,正则化通过在损失函数中添加一个额外的项(通常是参数值的平方和),来惩罚那些参数值过大的模型。这样做的结果是,学习算法在训练过程中会倾向于选择较小的参数值,从而使得模型更加简洁,泛化能力更强。简而言之,正则化鼓励学习算法在训练时让参数值保持在一个较小的范围内,以提高模型的泛化性能。

正则化的实现:正则化所有特征(因为不知道哪个特征更重要)

引入正则化参数:λ/2m(λ>0)
若λ=0则过拟合,曲线过于弯曲;λ=∞则f(x)=b,呈现一条直线了

PS. 一些工程师也会对b也正则化,但是没什么区别。

正则化之后,代价函数J变为:

代价函数构成:

  1. 方差均值项:用于拟合数据

  2. 正则化项:用于减小wj以免过拟合
    **λ的选择:过小则导致过拟合,过大则导致模型不准确

                                  均方误差成本:              正则化项:
    

正则化线性回归:
还是和之前一样,代价函数J分别对w和b进行求导:


正则化实际是在每一次迭代中所作的是把w乘一个略小于一(eg:0.9998)的数,这会使Wj的价值略微缩水

正则化logistic回归:
也是类似的:

标签:10,吴恩达,训练,模型,噪声,正则,拟合,数据
From: https://www.cnblogs.com/mayuri-wylty/p/18537117

相关文章

  • 11/10
    Link。考虑次小生成树的大小,显然如果加了一条边后再删一条边,删的边权值一定要严格小于加的边,所以就求出所有加的边和删的边权值相同可以加的边数。为何不考虑加的边权值小于删的边?如果存在这种边,显然最小生成树不优。Link。答案显然能取到下限,因为有\(t_j<a_{s_j}\)。Link......
  • 20241110
    T1前缀后缀首先\(q\)的数据范围是在搞笑,因为最多\(n\)次操作之后序列就没了。然后可以考虑\(f_{l,r}\)表示还剩\([l,r]\)时最多执行到了哪个操作。转移考虑下一个操作在左边做还是在右边做即可。可以对每个询问预处理出每个点左右第一个能接这个询问的点。时间复杂度......
  • win10玩游戏找不到d3dx9_43.dll丢失怎么解决,d3dx9_43.dll丢失五种解决方法
    d3dx9_43.dll是MicrosoftDirectX9的一个关键组件,具体而言,它是一个动态链接库(DLL)文件。DirectX是由Microsoft开发的多媒体编程接口,旨在优化Windows操作系统上游戏和多媒体应用程序的性能,特别是图形和声音功能。d3dx9_43.dll文件包含了Direct3D9的一些关键功能,如3......
  • AIGC时代算法工程师的面试秘籍(第二十五式2024.10.21-11.3) |【三年面试五年模拟】
    写在前面【三年面试五年模拟】旨在整理&挖掘AI算法工程师在实习/校招/社招时所需的干货知识点与面试经验,力求让读者在获得心仪offer的同时,增强技术基本面。欢迎大家关注Rocky的公众号:WeThinkIn欢迎大家关注Rocky的知乎:RockyDingAIGC算法工程师面试面经秘籍分享:WeThi......
  • 牛客小白月赛104 C-小红打怪
    小红打怪答案有单调性,使用二分答案来做但是当时没有想到用二分,而是卡在怎么处理这三种攻击了。可以把进行x回合的攻击,分为先进行x回合的全体打击,再进行x回合的范围打击,最后验证剩余血量够不够x回合的单体打击。贪心的处理范围打击:对每一对相邻且都大于0的血量,这样最多只会浪费......
  • 十大最佳数据恢复软件——2024-2025年10款最佳数据恢复软件
    我们将数据存储在我们的计算机和其他设备上。我们可能拥有与我们工作的公司或我们的个人信息相关的机密信息。有时系统可能会得到维修,或者可能会发生一些事情。所以数据会丢失。在硬盘驱动器,硬盘等数据存储设备中可能会损坏。为了取回数据,我们有数据恢复软件。10款最佳数据恢......
  • 逆天!!!吴恩达+OpenAI合作出了大模型课程!重磅推出《LLM CookBook》中文版
    逆天!!!吴恩达+OpenAI合作出了大模型课程!重磅推出《LLMCookBook》中文版46/100发布文章python1234_未选择任何文件new吴恩达老师与OpenAI合作推出的大模型系列教程,从开发者在大型模型时代的必备技能出发,深入浅出地介绍了如何基于大模型API和LangChain架构快速开发出结合......
  • 100种算法【Python版】第60篇——滤波算法之粒子滤波
    本文目录1算法步骤2算法示例:多目标跟踪3算法应用:多维非线性系统状态模拟粒子滤波(ParticleFilter)是一种基于随机采样的贝叶斯滤波方法,广泛应用于动态系统的状态估计。它通过在状态空间中使用一组随机粒子(样本)来表示后验分布,从而处理非线性和非高斯的状态估计问......
  • 中文大模型基准测评2024年10月报告
    背景自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年,全球大模型竞争态势日益加剧,随着Sora、GPT-4o、o1的发布,国内大模型在2024年进行了波澜壮阔的大模型追逐赛。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进......
  • 二维椭圆拟合算法及推导过程
    目录1、间接平差法2、最小二乘法3、matlab案例4、案例结果5、参考链接1、间接平差法  该方法忽略了半长轴相对于xxx轴的旋转角度,需要较好的初......