ViT暂时不会替代CNN

时间：2024-05-28 10:44:41浏览次数：33

标签：偏置 Transformer 模型 ImageNet ViT CNN 替代

概述

将 Transformer 应用到视觉领域，就形成了 ViT（Vision Transformer）。

与卷积神经网络 CNN 不同，ViT 将图像切分为块并转换为向量，像是处理文本一样处理图像。这让 ViT 拥有了超越 CNN 的全局信息捕捉能力。当训练集数量足够时，ViT 表现优于 CNN。

以下数据来源于 OpenAI 的 CLIP 模型研究。可以看到 CNN 在 ViT 面前毫无招架之力。

Dataset	ImageNet ResNet101	CLIP ViT-L
ImageNet	76.2%	76.2%
ImageNet V2	64.3%	70.1%
ImageNet Rendition	37.7%	88.9%
ObjectNet	32.6%	72.3%
ImageNet Sketch	25.2%	60.2%
ImageNet Adversarial	2.7%	77.1%

ObjectNet 验证模型对姿势和背景的识别能力；ImageNet Rendition 和 ImageNet Sketch 验证模型识别物体更抽象描绘的能力。

ViT 更是促进了多模态模型的发展。ViT 可以轻松与其他 Transformer 模型融合，诞生出像是拥有视觉阅读能力的语言模型。

只不过……

归纳偏置

ViT 需要更多的训练数据才能达到较好效果，归纳偏置则是罪魁祸首。

归纳偏置（inductive biases），指的是模型在预测其未遇到过的输入结果时，所做的假设。例如 CNN，假设了数据的特征具有局部性和平移不变性，因此 CNN 更喜欢发掘图片的局部特征，并且图片的平移变换几乎不影响 CNN 性能。在现实生活中，我们已经可以看到 CNN 这样的假设是多么的合适在视觉领域大放异彩。

ViT 则缺少 CNN 这样的归纳偏置。图像被切分为块后会被摊平，ViT 需要多得多的学习才能获知子图在空间上的关系。

太慢了

Transformer 从来不是什么轻量化模型的代名词。ViT 不仅有归纳偏置的缺陷，还不得不担上运算资源消耗更高的缺点。

ViT 训练成本更高，也绝对不能像 YOLO 一般轻量且实时。

ViT 的未来

目前看来，CNN 仍然有着自己不可复制的优势。ViT 还不能替代 CNN。

拥有更高能力上限的 ViT 似乎站在了未来。准度更高、泛化更强，且比 CNN 更适合作为多模态模型的桥梁。

我可能会拿预训练的 ViT 模型进行有趣的实验，但若要从头训练还是 CNN 吧。

参考来源

“CLIP: Connecting text and images”，https://openai.com/index/clip/
“Why Vision Tranformers?”，https://www.reddit.com/r/MachineLearning/comments/16y1rxz/d_why_vision_tranformers/
Fahim Rustamy, PhD，“Vision Transformers vs. Convolutional Neural Networks”，https://medium.com/@faheemrustamy/vision-transformers-vs-convolutional-neural-networks-5fe8f9e18efc

标签：偏置,Transformer,模型,ImageNet,ViT,CNN,替代
From： https://www.cnblogs.com/chirp/p/18217371

Activity与Fragment之间通信（二）——接口回调
一。引言上篇文章讲述了Activity和Fragment怎么样通过Bundle传递消息，这篇介绍如何通过接口回调实现通信。首先，Bundle并不适用于任何通信情况，我们来看看Bundle通信的缺点：（1）数据类型的限制：Bundle只能传递一些基本数据类型，如int，String等，无法直接传递自定义对象。（2）繁琐的代码：在......
从零开始构建 Vision Transformer（ViT）模型
Transformer模型最早由Vaswani等人在2017年论文AttentionIsAllYouNeed中提出，并已广泛应用于自然语言处理。2021年，Dosovitsky等人在论文AnImageisWorth16x16Words:TransformersforImageRecognitionatScale中提出将Transformer用于计算机视觉任务，与......
Android Toast弹出消息在指定位置（setGravity）
importandroid.widget.Toastimportandroid.view.Gravity默认Toast是显示在底部的，可以通过以下方法让其显示在顶部正中Toasttoast=Toast.makeText(SearchActivity.this,"取消关注失败",Toast.LENGTH_SHORT);toast.setGravity(Gravity.CENTER,0,0);toast.show();这样......
工作流Activiti 迁移 Camunda
后端操作意思就是：①更改maven②改包名、类名③改bpmnmodel中语法④检查迁移后有哪些功能缺失了1、更改maven 改为 2、换包名、类名意思就是将 org.activiti.* 开头的改为 org.camunda.bpm.* 3、改bpmnmodel中语法不改的话会出现语法解析错误的报错......
【WeTool升级版】WeTool最新版安装及功能使用教程，wetool企业版怎么收费，wetool电脑版怎
今天给大家推荐一款我们目前在使用的电脑群发工具掘金小蜜，不仅可以无限多开，方便你同时管理多个账号，群发功能更是十分强大，轻松释放你的双手。掘金小蜜（只支持Win7及以上操作系统，没有推Mac版和手机客户端。软件下载地址>>点击此处群发功能下载打开登录，这是账号登录进去后的......
Android 深入系统源码探讨 Activity、Window 和 View 的关系与实践
文章目录1、概括2、AndroidWindow设计2.1、Window类2.2、PhoneWindow2.3、WindowManager2.4、ViewRootImpl2.5、DecorView3、AndroidActivity设计3.1、Activity的基本概念3.2.、Activity的生命周期3.3、Activity的内部结构4、AndroidView设计4.1、View的基本概......
基于GWO灰狼优化的CNN-GRU-Attention的时间序列回归预测matlab仿真
1.算法运行效果图预览优化前优化后 2.算法运行软件版本matlab2022a 3.算法理论概述时间序列回归预测是数据分析的重要领域，旨在根据历史数据预测未来时刻的数值。近年来，深度学习模型如卷积神经网络（ConvolutionalNeuralNet......
uniapp-vue3-oadmin|vite5.x手机后台实例多端仿ios管理系统
uniapp-vue3-oadmin手机后台实例|vite5.x+uniapp多端仿ios管理系统原创vue3+uniapp+uni-ui跨端仿ios桌面后台OA管理模板Uni-Vue3-WeOS。uniapp-vue3-os一款基于uni-app+vite5.x+pinia等技术开发的仿ios手机桌面OA管理系统。实现了自定义桌面栅格磁贴布局、多分屏滑动管理、......
GPT-SoVITS音频AI工具只需几秒完美克隆声音
GPT-SoVITS音频AI工具只需几秒完美克隆声音兄弟们难道你还在使用一个月几十刀收费配音吗还有这种视频配音甚至是这种的视频配音轻松的能获得巨大的流量然后你只要掌握GPT-SoVITSAI音频工具也能做这种高流量视频接下来下来一步一步教大家安装网盘链接：https://downlo......
ViT：1 从DETR说起
大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于构建生产级别架构则可以关注AI架构设计专栏。......

ViT暂时不会替代CNN

概述

归纳偏置

太慢了

ViT 的未来

参考来源

相关文章

赞助商

阅读排行