CVPR 2024 | 字节提出视觉基础模型：ViTamin，实现多项SOTA！

标签：SOTA 模型 ViTamin 2024 ViT ImageNet 视觉 CV

前言视觉语言模型屡屡出现新突破，但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin，专为视觉语言时代设计。

本文转载自量子位（QbitAI）

仅用于学术分享，若侵权请联系删除

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV方向的准研究生们，未来三年如何度过？

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

在使用相同的数据集和训练方案时，ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。

此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。

当进一步扩展参数规模时，ViTamin-XL仅有436M参数，却达到了82.9%的ImageNet零样本准确率，超过了拥有十倍参数（4.4B）的EVA-E。

最终这一成果，入选计算机视觉顶会CVPR2024。

视觉语言时代新基准

在视觉语言时代下，如何设计一个更好可扩展的视觉模型？

在ImageNet时代，新的视觉模型在ImageNet数据集得以验证，也造就了不断有新的视觉模型涌现。但在视觉语言时代，新的视觉模型鲜为人见。

此外，基于现有常见视觉模型，在面对比ImageNet数据规模还大的情况下表现又是如何？研究团队们测试了几种常见模型，包括纯Transformer的ViT，纯卷积网络的ConvNeXt，以及混合卷积和Transformer的CoAtNet。

最终在一个公开的数据集上进行了系统性的训练和比较，得出了一些关键发现：

第一，模型的扩展性：由于可扩展的自注意力机制，ViT能最好地适应不同规模的任务。
第二，数据的扩展性：随着训练数据的增加，所有模型的性能都有所提升。
第三，特征的分辨率：在训练过程中，模型需要理解更广泛的信息，而不仅仅是简单的类别标签。因此，提取的特征的分辨率对模型的预测能力有很大影响。
第四，混合架构：在一般情况下，CoAtNet表现优于其他模型，但将其扩展到处理数十亿数据可能会有一些挑战。

基于这些发现，研究人员设计了ViTamin模型。

它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks，第三个阶段包含了可扩展的Transformer Blocks。

具体来说，一张图片首先经过卷积stem处理，得到2倍降采样的特征图。

然后，这个特征图经过第一阶段，由两个MBConv-LN Blocks组成，接着经过第二阶段，由四个MBConv-LN Blocks组成，然后降采样得到16倍降采样的二维特征。

接下来，这些特征被展平成一维，并输入到第三阶段，该阶段由N_B个TFB-GeGLU Block组成。最后，通过对比图像特征和语言特征，来学习对比损失函数。

作者们致力于简单有效的scaling law，只考虑模型的宽度C和模型第三阶段的深度N_B，因此在scaling到更大的模型中，通过模型的参数规模可以直接反推需要多大的宽度和深度，进而实现模型的scaling。

多项SOTA

在零样本性能上面，研究结果显示，ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。

当将特征分辨率增加到576个patch时，ViTamin-L的准确率进一步提高到了81.8%，比之前的ViT-L/14 CLIPA-v2高出了1.5%。在38个数据集的平均性能上，ViTamin-L比ViT-H/14模型高出了0.4%，而且参数数量只有ViT-H/14的一半。

此外，当进一步扩大模型规模时，参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率，超过了4.4B参数量的EVA-E取得的82.0%。

作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器。

作者们引入了一系列下游任务，包括开放词汇检测和分割，以及多模态大模型（LMMs）。

ViTamin在开放词汇检测任务OV-LVIS上，相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中，相比ViT-L平均提升了2.6%。

ViTamin能直接迁移到多模态大模型诸如LLaVA上，并在12个多模态问答等基准上表现出色。值得注意的是，ViTamin在7个开放词汇分割基准上创造了新SOTA。

在这项工作中，作者们建立了主流视觉模型在视觉语言情境下的评估基准，并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。

这四个方面的关键发现为ViTamin的设计提供指导，ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT，而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。

论文链接：
https://arxiv.org/pdf/2404.02132
项目主页:
https://beckschen.github.io/vitamin

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群：470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库，上千篇文章、专栏，CV所有资料都在这了

明年毕业，还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力，性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM：微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器！目标检测蒸馏学习新方法，浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究：全时多模态基准与多交互特征学习

听我说，Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题，即插即用真的很香

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

SAM-Med2D：打破自然图像与医学图像的领域鸿沟，医疗版 SAM 开源了！

GhostSR|针对图像超分的特征冗余，华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN，性能达到UNet家族的巅峰！

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

标签：SOTA,模型,ViTamin,2024,ViT,ImageNet,视觉,CV
From： https://www.cnblogs.com/wxkang/p/18178591

CVPR 2024 | 字节提出视觉基础模型：ViTamin，实现多项SOTA！

视觉语言时代新基准

多项SOTA

相关文章

赞助商

阅读排行