【NeurIPS2022】Fast Vision Transformers with HiLo Attention

时间：2022-12-03 20:35:18浏览次数：54

标签：Transformers NeurIPS2022 Attention Fast HiLo 注意力

请添加图片描述

这个论文的核心贡献是提出了一种新的注意力机制 HiLo（High / Low frequency）。如下图所示，在上面部分，分配了 \(1-\alpha\) 比例的 head 用于提取高频注意力，下面分配了 \(\alpha\) 比例的 head 用于提取低频注意力。

请添加图片描述

高频注意力： 在2x2的窗口中计算 attention。

低频注意力： 将2x2的窗口池化，得到的特征做为 K 和 V。原始特征做为 Q，再计算注意力。（基本上和 PVT 中的计算方法一样）。因为 KV 特征维度减少，计算效率显著提升。

论文中还使用了一个 trick，使用 3x3 的 depth-wise conv 替换位置编码，这样不仅能引入 positional encoding，还能够增大网络前期的感受野。

标签：Transformers,NeurIPS2022,Attention,Fast,HiLo,注意力
From： https://www.cnblogs.com/gaopursuit/p/16948718.html

WeNet中注意力重打分（attention rescoring decoding）
我们知道CTC是非自回归，而像transformer中解码是自回归的，所以transformer很大的一个缺陷就是解码速度慢。在最近几年CTC和注意力机制联合训练得到的性能效果得到极大的提升......
已解决：一步一步扫清transformers的坑。（1）
1.jupyternotebook下关于transformers报错：无法导入管道pipeline解析：不要用新版本的transformers，一般用3.4.0或者3.0.2，因为结合网上评论和我的试用，这两个没出现啥问题。2.......
注意力机制(Attention Mechanism)
转自：https://blog.csdn.net/Michale_L/article/details/126281676?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166917753116782414933549%2522%252C%25......
【ECCV2022】DaViT: Dual Attention Vision Transformers
【ECCV2022】DaViT:DualAttentionVisionTransformers代码：https://github.com/dingmyu/davit这个论文想法很自然也容易想到。Transformer都是在处理PxC二维的数......
【ARXIV2207】LightViT: Towards Light-Weight Convolution-Free Vision Transformers
【ARXIV2207】LightViT:TowardsLight-WeightConvolution-FreeVisionTransformers论文地址：https://arxiv.org/abs/2207.05557代码地址：https://github.com/hunto/Li......
一文读懂：注意力机制（Attention Mechanism）
注意力机制注意力机制(AttentionMechanism)浅谈1.注意力机制的由来，解决了什么问题？早期在解决机器翻译这一类序列到序列(SequencetoSequence)的问题时，通常采用的做法......
【ECCV2022】AMixer: Adaptive Weight Mixing for Self-Attention Free Vision Transf
1、Motivation这个论文来自于清华大学鲁继文老师团队，核心是attention和MLP-mixer思想的结合。建议用2分钟时间学习一下谷歌公司的MLP-Mixer「MLP-Mixer:Anall-ML......
Transformer/BERT/Attention面试问题与答案
from: https://blog.csdn.net/weixin_40633696/article/details/121810403文章目录1.Self-Attention的核心是什么？2.不考虑多头的原因，self-attention中词向量不乘QKV参......
『NLP学习笔记』如何理解attention中的Q,K,V
如何理解attention中的Q,K,V？文章目录一.如何理解attention中的Q,K,V？1.1.定义三个线性变换矩阵1.2.定义QKV1.3.自注意力计算1.3.1......
Attention is all you need-论文阅读笔记
摘要主流的序列转换模型都是基于复杂的循环或者卷积神经网络，需要进行解码器和编码器处理。表现最好的模型也是基于注意力机制，并连接编码器和解码器。本文提出一个新的简单......

【NeurIPS2022】Fast Vision Transformers with HiLo Attention

相关文章

赞助商

阅读排行