Vision Transformer和MLP-Mixer联系和对比

时间：2022-10-03 10:14:11浏览次数：84

Vision Transformer和MLP-Mixer是深度学习领域最新的两个体系结构。他们在各种视觉任务中都非常成功。视觉Vision Transformer的性能略好于MLP-Mixers，但更复杂。但是这两个模型非常相似，只有微小的区别。本文中将对两个模型中的组件进行联系和对比，说明了它们的主要区别，并比较了它们的性能。

简介

Transformer自2016年引入以来，一直是自然语言处理(NLP)任务的重大突破。谷歌的BERT和Open AI的GPT体系结构已经成为语言翻译、文本生成、文本摘要和问题回答等任务的最先进解决方案。

Transformer在视觉领域的应用已经产生了令人印象深刻的结果。一个被称为ViT的模型能够在视觉分类中胜过经典的基于卷积的模型。出现在被称为Swin Transformer的ViT变体已经在各种计算机视觉任务中实现了最先进的性能，包括分类、检测和分割。

除此以外一个名为MLP-Mixer的架构受到了广泛关注。这类模型的简单性非常吸引人。与VIT一样，MLP-Mixer的变体也被应用于不同的计算机视觉任务，包括检测和分割。在某些情况下，这些模型的性能与基于Transformer的模型相当。

ViT和MLP-Mixer的架构如下所示。这些体系结构非常相似，通常包括三个主要部分，a)补丁嵌入，b)通过堆叠的Transformer编码器提取特征，c)分类头。

上图为VIT

MLP-Mixer

本文的主要目标是说明MLP-Mixer和ViT实际上是一个模型类，尽管它们在表面上看起来不同。

完整文章

https://avoid.overfit.cn/post/2416fcc61e2a48f4a0c288dfb30c81bf

标签：Transformer,模型,Mixer,MLP,ViT,视觉
From： https://www.cnblogs.com/deephub/p/16750071.html

python MLPRegressor神经网络回归预测
'''载入数据'''fromsklearnimportdatasetsimportsklearnboston=datasets.load_boston()x,y=boston.data,boston.target'''引入标准化函数'''from......
github疯狂涨星-基于Transformer的端到端3D目标检测
我们训练了一个端到端Transformer模型，用于点云上的三维目标检测。我们的模型有一个用于特征编码的Transformer编码器和一个用于预测盒子的Transformer解码器。对于一个看不......
transformers的近期工作成果综述
基于transformer的双向编码器表示(BERT)和微软的图灵自然语言生成(T-NLG)等模型已经在机器学习世界中广泛的用于自然语言处理(NLP)任务，如机器翻译、文本摘要、问题回答、......
Back to MLP: A Simple Baseline for Human Motion Prediction
#BacktoMLP:ASimpleBaselineforHumanMotionPrediction#paper1.paper-info1.1MetadataAuthor::[[WenGuo]],[[YumingDu]],[[XiShen]],[[VincentL......
MLP4Rec: A Pure MLP Architecture for Sequential Recommendations阅读笔记
动机本文是2022年IJCAI上的一篇论文。自注意力模型在序列推荐上取得了卓越的效果，但是它们依赖位置编码保存顺序关系，然而位置编码可能会破坏原始embedding所包含的信息。现......
Swin Transformer 论文精读笔记
参考https://www.bilibili.com/video/BV13L4y1475U/?spm_id_from=333.788&vd_source=920f8a63e92d345556c1e229d6ce363fICCV最佳论文：SwinTransformer Swin，其实就......
转：transformer综述汇总与变形分析
transformer综述汇总与变形分析（这个汇总记录了多篇transformer综述，写的很好，推荐）下面的一个relatedwork总结也写的很好，摘自：PVTv2:ImprovedBaselineswithPyramid......
《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》
论文题目：《VisionPermutator:APermutableMLP-LikeArchItectureForVisualRecognition》论文作者：QibinHou,ZihangJiang,LiYuan etal.论文发表年份：2022.2......
Attention Is All You Need transformer开山之作论文精读笔记
参考资料1、https://www.bilibili.com/video/BV1pu411o7BE/?spm_id_from=333.337.search-card.all.click&vd_source=920f8a63e92d345556c1e229d6ce363f李沐老师讲解trans......
【CVPR2022】Beyond Fixation: Dynamic Window Visual Transformer
【CVPR2022】BeyondFixation:DynamicWindowVisualTransformer论文：https://arxiv.org/abs/2203.12856代码：https://github.com/pzhren/DW-ViT个人感觉，这个论文的......

Vision Transformer和MLP-Mixer联系和对比

简介

相关文章

赞助商

阅读排行