神经网络训练中的问题

神经网络在数据之海中打捞规律，自成模型。这个过程全权由电脑完成，也因此我们担心它是否是一种泛化的模式，在其它「海域」继续工作时，它能否也能得到正确的结果？如何发现 可以泛化的模式 是机器学习的根本问题。

过拟合与欠拟合

我们的数据通常分成3份：

训练数据：用于神经网络训练的数据；
测试数据：神经网络训练完后，用于评估其准确度的数据；
验证数据：为了确定候选模型中的最佳模型所用的检验数据。

在实际训练中，会有 欠拟合 和 过拟合 的情况。我们将神经网络用训练数据计算时的误差称为「训练误差」，用测试数据计算时的误差称为「泛化误差」。那么：

当训练误差与泛化误差都很大时，称模型「欠拟合」。由于训练误差大，所以也称该模型有「高偏差」问题；
当训练误差很小，但泛化误差很大时，称模型「过拟合」。由于泛化误差大，所以也称该模型有「高方差」问题。

模型选取

在机器学习中，我们通常从几个候选模型后选择最终的模型。例如，训练多层感知机时，我们会⽐较有着不同隐藏层数、每层有着不同数量神经元以及使用不同激活函数的模型。

当神经网络「欠拟合」时，我们首先可以让它训练更长一段时间，如果仍无效，则会考虑使用更复杂的神经网络（更多隐藏层、增加层的神经元、换其它激活函数等）或者使用其它类型的神经网络。

数据集大小

在如今有大量数据（百万甚至更大）的情况下，训练数据的比重可以占得很大：训/测/验 = 98%/1%/1% 即便是1%的数据也有上万，足以用于检验了，我们可以将更多数据投入训练中。

训练数据集的大小对模型训练结果有什么影响？训练集样本过少，可能会导致严重的「过拟合」问题，反过来说，更多的训练数据能减小泛化误差，而且通常没有坏处（除了训练久一点），尤其是训练复杂的模型时。

在尝试了更多数据后，如果模型仍「过拟合」或者你原本的数据已经是高质量的了，无法再获得更多数据时，则可以考虑 正则化 ，或者换用其它类型的神经网络。

标签：误差,泛化,训练,模型,神经网络,拟合
From： https://www.cnblogs.com/OwlCat/p/17963409

谷歌推出创新SynCLR技术：借助AI生成的数据实现高效图像建模，开启自我训练新纪元！
谷歌推出了一种创新性的合成图像框架，这一框架独特之处在于它完全不依赖真实数据。这个框架首先从合成的图像标题开始，然后基于这些标题生成相应的图像。接下来，通过对比学习的技术进行深度学习，从而训练出能够精准识别和理解这些图像的模型，令人惊讶的是，这种方法在各种下游任务中都表现......
darknet-yolov4训练自己的模型记录
最近又整了一块jetsonnano的板子，就拿过来正好用一下，这个跑yolo还是很有用的，这里也记录一下过程。1、jetsonnano变化之前也玩过jetsonnano，但是最近却发现这个nano和之前的不一样了，是这样的就是原来都是sd卡烧录，但是这个是emmc了最大的区别就是原来使用那个烧录软件给sd卡......
数据科学机器学习（训练营）
地址：https://offerbang.io/......
2024-01-12 训练总结
孤注一掷没成功。T1宝藏[NOIP2017提高组]宝藏题目背景NOIP2017D2T2题目描述参与考古挖掘的小明得到了一份藏宝图，藏宝图上标出了\(n\)个深埋在地下的宝藏屋，也给出了这\(n\)个宝藏屋之间可供开发的\(m\)条道路和它们的长度。小明决心亲自前往挖掘所有宝藏屋中的......
如何开发医疗保险欺诈识别监测模型中的模型训练与调优？
医疗保险欺诈识别模型的训练与调优是一个关键的步骤，它直接影响模型的性能。以下是一些建议：1.数据准备与预处理：数据清理：处理缺失值、异常值，确保数据的质量。特征工程：提取有助于欺诈检测的特征，可能需要与领域专家一起进行。数据平衡：处理正负样本不平衡，可以考虑欠采样......
从工程化角度，详解鹏程・脑海大模型训练过程
我们有幸邀请到了鹏城实验室高效能云计算所算法工程师陶恒韬老师来进行鹏城。脑海大模型训练过程的讲解。在课程中，陶老师从工程化的角度，对鹏城。脑海大模型训练语料处理、模型训练优化、模型应用等方面做出了全面详细的经验分享。鹏城。脑海大模型介绍鹏城・脑海（PengChengMind）大模......
Yolov5 + Siamese 孪生神经网络 or CNN 图像分类训通杀点选验证码
声明本文章中所有内容仅供学习交流使用，不用于其他任何目的，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！本文章未经许可禁止转载，禁止任何修改后二次传播，擅自使用本文讲解的技术而导致的任何意外，作者均不负责，若有侵权，请在公众号【K哥爬虫】联系作者立即删除！前......
加入openEuler训练营，一起探索开源世界的无限可能！
“开源”是开放科学的核心精神在信息领域的体现,在当今这个信息时代,开源技术已经成为推动全球科技发展的重要力量。作为开源操作系统领域的佼佼者,openEuler正逐渐成为众多开发者和企业的首选。openEuler是一个开源免费的Linux发行版系统,通过开放的社区形式与全球的开发者共同构......
神经网络优化篇：理解mini-batch梯度下降法（Understanding mini-batch gradient descent）
理解mini-batch梯度下降法使用batch梯度下降法时，每次迭代都需要历遍整个训练集，可以预期每次迭代成本都会下降，所以如果成本函数\(J\)是迭代次数的一个函数，它应该会随着每次迭代而减少，如果\(J\)在某次迭代中增加了，那肯定出了问题，也许的学习率太大。使用mini-batch梯度下降法，如果......
day13 代码随想录算法训练营递归遍历
题目：144.二叉树的前序遍历145.二叉树的后序遍历94.二叉树的中序遍历我的感悟：用helper内部函数写更好理解难点：代码难点：代码示例：前序#Definitionforabinarytreenode.#classTreeNode:#def__init__(self,val=0,left=None,right=None):#......

神经网络训练中的欠拟合、过拟合问题

神经网络训练中的问题

过拟合与欠拟合

模型选取

数据集大小

相关文章

赞助商

阅读排行