【ECCV2022】AMixer: Adaptive Weight Mixing for Self-Attention Free Vision Transformers

时间：2022-11-14 18:22:06浏览次数：80

标签：Transformers Weight weight ECCV2022 attention 矩阵 MLP mixing Adaptive

1、Motivation

这个论文来自于清华大学鲁继文老师团队，核心是 attention 和 MLP-mixer 思想的结合。

建议用2分钟时间学习一下谷歌公司的 MLP-Mixer 「MLP-Mixer: An all-MLP Architecture for Vision」CVPR 2021

Vision Transformer模型最近非常流行，最后也出现了一些以 MLP-Mixer 为代表的完全由MLP组成的模型（下图展示了attention 和 MLP 模型的区别）。这篇论文分析了两个问题：which specific designs make self-attention more effective? Is there a more efficient way to learn the spatial mixing weights?

2、总体框架

作者对比了 vision transformer 和 MLPMixer 之间的区别，发现 vision transformer 有四个独特的地方：(1) the multihead scheme; (2) softmax; (3) V 的 projection 和 C 的 Projection; (4) query 和 key 之间的点积。

如下表所示，从 MLP 模型开始，往里面加一些模块，最终 Adaptive weight mixing 以更低的 FLOPs 和更少的参数量超越了 Transformer 模型。

请添加图片描述

通俗的来说，Adaptive weight mixing 可以实现与 self-attention 相似的功能。通过学习一个大小为B的weight bank，并预测每个token的mixing policy，以此自适应地生成相似性矩阵 M （类似于 attention 里 Q 和 K 计算得到的相似性矩阵）。最后该相似性矩阵与V相乘得到输出。

具体来说，包括下面几步：

第一步：使用MLP生成 mixing policy，图中是4个token，得到的 mixing policy 就是 Hx4xB 的矩阵。 H表示 head，B表示在 weight bank 中建立了一个 B维的线性空间。
第二步：mixing policy (Hx4xB) 与 weight bank （Bx4x4）相乘，得到 Hx4x4 的矩阵，Softmax归一化。
第三步：权重矩阵与 V相乘，得到输出。

通过调节B的值，可以实现 better trade-off between accuracy and complexity than vision Transformers and MLP models

下图中展示了各种权值生成方法，可以看出 Adaptive weight mixing 通过多头的混合策略实现了更多样化的权值。另外，f动态卷积只能生成空间共享的权值，而本文的方法可以为不同的空间位置产生特定的权值。本文的方法比使用MLP直接预测参数的方法，包括合成器和动态卷积，高效得多。

请添加图片描述

3、实验分析

在ImageNet的实验结果可以看出，AMixer-DeiT-S所取得的准确率为80.8%，比DeiT-S的79.8%提高了1%。通过左右两图的灰色高亮部分还能看出，用Amixer比用MLP性能更优，左图相差1.6%，右图相差1.3%。
请添加图片描述

标签：Transformers,Weight,weight,ECCV2022,attention,矩阵,MLP,mixing,Adaptive
From： https://www.cnblogs.com/gaopursuit/p/16889916.html

Python: Flyweight Pattern
DuFlyweight.py#享元模式FlyweightPatterngeovindu,GeovinDu,涂聚文importtimeclassArrow:def__init__(self,x,y,z,velocity):self.x=x......
YeYuan-2021-AgentFormer-AgentAwareTransformers for Socio-Tempolar Multi-Agent Fo
#AgentFormer:Agent-AwareTransformersforSocio-TemporalMulti-AgentForecasting#paper1.paper-info1.1MetadataAuthor::[[YeYuan]],[[XinshuoWeng]],......
卷积神经网络（CNN）(local receptive fields & 局部接收域 & 局部感受野、shared weights
文章目录localreceptivefieldSharedweightsspatialortemporalsubsamplinglocalreceptivefield局部感受野，也叫感受视野域。这个localrece......
*PAT_甲级_1053 Path of Equal Weight (30分) (C++)【数组排序/DFS】
目录1，题目描述题目大意输入输出2，思路数据结构如何排序如何设计DFS算法3，心路历程4，代......
权重衰减 - Weight Decay
简述权重衰减（又称L2-正则化）是一种模型正则化（Regularzation）技术。原理首先，用权重向量的L2-范数来衡量模型函数的复杂度，这是对模型复杂度的量化。把上述L2-范数加入到训......
ConvFormer: Closing the Gap Between CNN and Vision Transformers概述
0.前言相关资料：arxivgithub论文解读论文基本信息：发表时间：arxiv2022(2022.9.16)1.针对的问题CNN虽然效率更高，能够建模局部关系，易于训练，收......
Python: Flyweight Pattern
DuFlyweight.py#享元模式FlyweightPatterngeovindu,GeovinDu,涂聚文importtimeclassArrow:def__init__(self,x,y,z,velocity):self.x=x......
Transformers Pipelines
pipelines是使用模型进行推理的一种很好且简单的方法。这些pipelines是从库中抽象出大部分复杂代码的对象，提供了一个简单的API，专门用于多个任务，包括命名实体识别、屏蔽语......
CMT: Convolutional Neural Networks Meet Vision Transformers概述
0.前言相关资料：arxivgithub论文解读(CSDN，CSDN)论文基本信息：作者单位：华为诺亚,悉尼大学发表时间：CVPR2022(2021.7.13)1.针对的问题当前将......
读论文《IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Lear
论文地址：https://arxiv.org/pdf/1802.01561v2.pdf 论文《IMPALA:ScalableDistributedDeep-RLwithImportanceWeightedActor-LearnerArchitectures》是基......

【ECCV2022】AMixer: Adaptive Weight Mixing for Self-Attention Free Vision Transformers

1、Motivation

2、总体框架

3、实验分析

相关文章

赞助商

阅读排行