【ARXIV2207】LightViT: Towards Light-Weight Convolution-Free Vision Transformers

时间：2022-11-18 07:11:06浏览次数：82

标签：LightViT Towards ARXIV2207 global broadcast FFN token attention 注意力

请添加图片描述

【ARXIV2207】LightViT: Towards Light-Weight Convolution-Free Vision Transformers

论文地址：https://arxiv.org/abs/2207.05557

代码地址：https://github.com/hunto/LightViT

1、研究动机

作者认为，在ViT中混合 convolution，是一种信息聚合的方式，convolution 建立了所 token 之间的明确联系。基于这一点，作者等人提出“如果这种明确的聚合能以更均匀的方式发挥作用，那么它们对于轻量级的ViTs来说实际上是不必要的”。

请添加图片描述

因此，作者提出纯 attention 的轻量级网络，架构如上图所示，可以看出主要改进在于 attention 和 FFN 部分：

Local-global broadcast attention: 在self-attention中引入可学习的全局标记来对全局依赖关系进行建模，并被广播到局部token中，因此每一个token除了拥有局部窗口注意计算带来的局部依赖关系外，还获得了全局依赖关系
在FFN中，设计一种双维注意模块来提升模型性能

2、Local-global broadcast of attention

请添加图片描述

local windows attention：和大多数方法一样，在7x7的局部窗口中计算注意力
global aggregation：设计矩阵 \(G\in\R^{T\times C}\)，是可以学习的，其中T代表token数量，C是特征维度。G做为Q与 image token 计算注意力得到 \(\hat{G}\)，
global broadcast：将\(\hat{G}\)作为 K和V，和 image token 计算注意力，得到全局矩阵，与 local window attention 的结果相加得到输出

其中，T数量远小于窗口大小7x7（LightVIT-T中T设置为8），可以大大节省 global aggregation 和 broadcast 的计算量

3、FFN with bi-dimensional attention

作者提出了基于二维注意力的FFN，包括通道注意力和空间注意力两个分支，具体细节如下图所示，这里不再多说。

4、实验分析

该方法在多个任务上都取得了非常好的性能，这里重点介绍消融实验。如下表所示， global attn显著提升了性能，而计算量只有轻微增加。FFN中的空间注意力可以捕获空间相关性，并且选择性的关注重要的token，更好的挖掘图像结构信息。

请添加图片描述

标签：LightViT,Towards,ARXIV2207,global,broadcast,FFN,token,attention,注意力
From： https://www.cnblogs.com/gaopursuit/p/16901996.html

论文翻译：2022_DeepFilterNet2: Towards Real-Time Speech Enhancement On Embedded De
博客地址：凌逆战论文地址：DeepFilternet2:面向嵌入式设备的全波段音频实时语音增强论文代码：https://github.com/Rikorose/DeepFilterNet引用格式：SchröterH,Rosenkran......
【五期梁锐】CCF-A, （TPDS'20）Towards Fair and Privacy-Preserving Federated Deep Mod
L.Lyuetal.,"TowardsFairandPrivacy-PreservingFederatedDeepModels,"inIEEETransactionsonParallelandDistributedSystems,vol.31,no.11,pp.25......
『论文笔记』Faster R-CNN: Towards Real-Time Object Detection with Region Proposa
FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks!文章目录一.FasterR-CNN的思想1.1.R-CNN，FastR-CNN，FasterR-CNN对比......
谣言检测(RDCL)——《Towards Robust False Information Detection on Social Network
论文信息论文标题：TowardsRobustFalseInformationDetectiononSocialNetworkswithContrastiveLearning论文作者：ChunyuanYuan,QianwenMa,WeiZhou,Jizhong......
【ARXIV2207】HorNet: Efficient High-Order Spatial Interactions with Recursive Ga
【ARXIV2207】HorNet:EfficientHigh-OrderSpatialInteractionswithRecursiveGatedConvolutions论文地址：https://hornet.ivg-research.xyz代码地址：https://githu......
DropEdge: Towards Deep Graph Convolutional Networks on Node Classification
目录概符号说明本文方法代码RongY.,HuangW.,XuT.andHuangJ.DropEdge:towardsdeepgraphconvolutionalnetworksonnodeclassification.InInternational......
【论文阅读】Faster R-CNN: Towards Real-Time Object Detection with Region Proposa
原始题目：FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks中文翻译：FasterR-CNN:使用区域建议网络实现实时目标检测发表时间：2015年6......

【ARXIV2207】LightViT: Towards Light-Weight Convolution-Free Vision Transformers

1、研究动机

2、Local-global broadcast of attention

3、FFN with bi-dimensional attention

4、实验分析

相关文章

赞助商

阅读排行