数据量大小和模型大小之间的关系

时间：2022-12-05 20:24:34浏览次数：54

作者：Henry
链接：https://zhuanlan.zhihu.com/p/539233251
来源：知乎

1、从模型方面考虑。举例说明：本身问题是二次的，用线性模型处理问题就是欠拟合，用三次及更高次处理问题就是过拟合。但是这里未考虑数据量的多少，只是针对本身模型阶次的考虑。而且现实问题，越强大的模型是很难确定模型复杂度的。

2、处理相同的问题时，在数据量多的情况，可以用相对复杂的模型处理问题，在数据量少的情况下，可以用相对简单的模型处理问题。过拟合：当数据量太少时，模型无法完成充分的训练，模型过度拟合用于训练的少量数据的信息，对测试数据效果不好，泛化能力差；欠拟合：数据量很多，但是模型太简单没有充分利用数据信息模型不够准确。

3、欠拟合：表现为模型特征维度过少，参数值较小等情况，此时模型过于简单，但是数据量很大，所用模型没有充分学习大量数据提供的信息，模型准确性差；
解决方法：（1）增加特征维度；增大参数值，换用更为复杂的模型等。
过拟合：表现为特征维度过多，参数值过大，此时模型假设过于复杂，但是训练数据过少，噪声过多，导致拟合的函数完美的拟合训练集，但对新数据的测试集预测结果差，泛化能力差。
解决方法：（1）减少特征维度；（2）正则化，降低某些过大的参数值。（3）在神经网络中dropout, 随机删减一些神经元。

综上所属可以总结为

（1）当模型在训练集上准确性一般，但是在测试集上表现也尚可，即泛化能力好时为欠拟合；

（2）当模型在测试集上表现不好，泛化能力差，但是对于训练数据准确性高时表现为过拟合；

（3）两者皆不好时考虑进一步数据与处理和特征选择或者换模型；

（4）两者都好时模型能够较好的拟合现有数据，皆大欢喜。

标签：泛化,模型,维度,数据量,拟合,大小,参数值
From： https://www.cnblogs.com/h694879357/p/16953384.html

网络编程基础(1)---OSI七层模型
网络编程基础(1)心得学习网络编程的核心之一,作为程序员必须要掌握的东西虽在学校学过，同一个东西，初次学习和有经验后的学习感受确实不同需要明白自己在那一层做开发明......
ASEMI整流桥KBU808参数，KBU808尺寸，KBU808大小
编辑-ZASEMI整流桥KBU808参数：型号：KBU808最大重复峰值反向电压（VRRM）：800V最大RMS电桥输入电压（VRMS）：560V最大直流阻断电压（VDC）：800V最大平均正向整流输出电流（IF）：8.0A峰值正向浪涌电......
[C++11与并发编程]条件变量在生产者-消费者模型中的使用
条件变量在生产者-消费者模型中的使用layout:posttitle:条件变量在生产者-消费者模型中的陷阱categories:cpp_concurrencydescription:C++并发编程简介keywords:c+......
数据分享|R语言分析上海空气质量指数数据：kmean聚类、层次聚类、时间序列分析：arima模型
最近我们被客户要求撰写关于上海空气质量指数的研究报告。本文向大家介绍R语言对上海PM2.5等空气质量数据间的相关分析和预测分析，主要内容包括其使用实例，具有一定的参考价值......
SAS，Stata，HLM，R，SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据
本文用于比较六个不同统计软件程序（SAS，Stata，HLM，R，SPSS和Mplus）的两级分层线性模型的过程和输出下面介绍的六个模型都是两级分层模型的变体，也称为多级模型，这是混合模型的特殊情......
使用开源AI-Serving部署机器学习PMML和深度学习ONNX模型
AI-Serving介绍AI-Serving是一款开源的机器学习和深度学习模型部署推理（inference）系统，支持标准的PMML和ONNX格式，同时提供HTTP（RESTAPI）和gRPC两种接口，方便在不同的生产环境......
塞了一堆特征模型的准确率并没提高多少
importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdimporttorchimporttorch.fftasfftfromsklearnimporttreedf=pd.read_csv('train.c......
wandb安装注册及解决训练模型报API错误
1.什么是wandb？wandb是Weight&Bias的缩写，一句话，它是一个参数可视化平台。wandb强大的兼容性，它能够和Jupyter、TensorFlow、Pytorch、Keras、Scikit、fast.ai、LightGBM......
proto-buf模型格式测试一例
本文是在这篇博客的基础上开发一个简单的数据模型，在模型上进行序列化和反序列化操作，并检验数据的正确性。1.编写数据格式描述文件需要注意的是，为了增加难度，我定义了具有嵌套......
谈谈 Qt 程序安装包的大小，以及简要打包指南
经常看到网上有些论调说Qt程序无比庞大，甚至拿.NET程序来比，说Qt程序打包以后跟.NET安装包差不多大。由此影响了很多人对Qt的选择。我觉得有必要对此做一些澄清—......

数据量大小和模型大小之间的关系

相关文章

赞助商

阅读排行