模型中到底什么决定了效果

时间：2024-09-10 20:27:14浏览次数：10

在工作过程中，我们训练模型时，到底是哪些因素影响最大？模型深度，模型宽度，head个数，head深度，输入大小，输出大小等等。

在工业界中，基于深度学习的检测模型尤其应用广泛。今年由于内部变动，接触了各种不同的项目和模型。发现一个规律，模型可以很小，但是数据量很大时，一样能提高效果。同时输入尺寸变大时，比做多少模型重构都有用，当然前提是backbone和head类似的前提下。

之前的模型臃肿的很，耗时不说，还占显存，这样其实batchsize大小也有影响。于是，我把模型的head大刀阔斧砍到很浅的程度，然后把backbone也砍掉了很多。发现耗时减少了很多，loss训练的时候并没有变化多大。然后我再部署到硬件时，增加输入尺寸为之前小尺寸的2倍，同时由于改变了模型的复杂度，数据增加了很多。于是效果比之前很大（比目前这个尺寸大了1.5倍）尺寸的效果还高了5-6个点。

这说明两个问题：1. 就是我砍了模型的backbone和head，增加了数据，模型的效果依然在提升，比输入尺寸更大的模型效果还好，那说明模型远远没有达到饱和，也就是说模型相对数据其实还是过于复杂的。2. 就是模型变小了，输入尺寸变大了，效果比之前小尺寸的模型效果好了太多，这说明相比较模型复杂度，更应该提升模型的输入尺寸以改善实际效果。

所以在工程上，不要追求什么模型的复杂度，说把输入尺寸减小，增加模型复杂度来提升效果。输入那么小，到模型输出时，降维到什么都没有了，哪里来的效果啊，别再做这些很外行的实验了。一句话，工程上计算量有限时就要尽量增加数据和增加输入尺寸。科研上嘛，反正也不受计算量限制，输入都不会很小，多增加数据，用强大模型。

标签：head,效果,到底,模型,尺寸,复杂度,输入
From： https://www.cnblogs.com/jianyingzhou/p/18407104

现身说法，AI小白的大模型学习路径，零基础入门到精通非常详细，收藏我这一篇就够了！
写这篇文章的初衷：作为一个AI小白，把我自己学习大模型的学习路径还原出来，包括理解的逻辑、看到的比较好的学习材料，通过一篇文章给串起来，对大模型建立起一个相对体系化的认知，才能够在扑面而来的大模型时代，看出点门道。为什么要写这篇文章？首先我关注到了两个变化。从chatGPT......
IO多路复用、服务器模型
IO多路复用：epollepoll的提出--》它所支持的文件描述符上限是系统可以最大打开的文件的数目；eg：1GB机器上，这个上限10万个左右。每个fd上面有callback(回调函数)函数，只有产生事件的fd才有主动调用callback，不需要轮询。注意：Epoll处理高并发，百万级1.红黑树：是特殊的二叉树......
Baichuan-13B 大模型的网络带货博客
Baichuan-13B是由百川智能继Baichuan-7B之后开发的包含130亿参数的开源可商用的大规模语言模型，在权威的中文和英文benchmark上均取得同尺寸最好的效果。本次发布包含有预训练(Baichuan-13B-Base)和对齐(Baichuan-13B-Chat)两个版本。Baichuan-13B有如下几个特点：更大尺寸......
python的模型二维码识别
可以同时识别到多个二维码直接上代码importcv2importnumpyasnpimportpyautoguifrompyzbar.pyzbarimportdecodefromcv2.wechat_qrcodeimportWeChatQRCode#自定义区域的坐标和大小region=(1024,0,900,500)#替换为你想要的区域#设置要显示的窗......
Day5网络编程：epoll+服务器模型+ftp
1.io多路复用：epollepoll的提出--》它所支持的文件描述符上限是系统可以最大打开的文件的数目；eg：1GB机器上，这个上限10万个左右。每个fd上面有callback(回调函数)函数，只有产生事件的fd才有主动调用callback，不需要轮询。注意：Epoll处理高并发，百万级1.红黑树：是特殊的二叉......
实战千问2大模型第二天——Qwen2-VL-7B（多模态）的部署和测试
图片描述：这张图片展示了一辆蓝色的电动公交车停在街道上。公交车上有一个标志，写着“ceroemisiones”，意思是“零排放”。公交车的侧面还有一句标语，写着“Unminibús100%eléctricosiesplan”，意思是“如果计划的话，这是一辆100%电动的迷你巴士”。公交车的前方有一个标志，写......
【国内外大模型对比】
国内外语言大模型对比大语言模型技术的快速发展，大语言模型已成为各大互联网公司制造影响力的重要工具。在相互竞争和启发下，越来越多的大型语言模型以应用程序编程接口。图中主要是从大模型文本预训练模型和大模型代码预训练模型的对比。(ApplicationProgrammingInterface,......
Java并发编程第六章共享模型之无锁
1.引子实现1packagecn.itcast.testcopy;importjava.util.ArrayList;importjava.util.List;publicclassTestAccount{publicstaticvoidmain(String[]args){Accountaccount=newUnsafeAccount(10000);Account.demo(account);}......
Java并发编程第七章共享模型之不可变对象
1.不可变对象@Slf4j(topic="c.Test1")publicclassTest1{publicstaticvoidmain(String[]args){SimpleDateFormatsdf=newSimpleDateFormat("yyyy-MM-dd");for(inti=0;i<100;i++){newThread(()-......
通过LinkedIn的思想领袖广告提升有机帖子效果，降低每次结果成本
通过在LinkedIn上发布能够吸引互动（如点赞和评论）的自然帖子，并添加一个号召性用语（CTA）将其提升为思想领袖广告，Fame降低了每次结果的成本。目录摘要营销策略是什么？结果是什么？为什么这行得通？摘要营销策略是什么？在LinkedIn上，如果一个广告有许多互动，如点赞和评论，你将为你的投入获......

模型中到底什么决定了效果

相关文章

赞助商

阅读排行