论文推荐：Rethinking Attention with Performers

时间：2022-12-11 10:55:57浏览次数：68

标签：Rethinking Transformer Performers Attention 令牌稀疏 softmax 注意力

重新思考的注意力机制，Performers是由谷歌，剑桥大学，DeepMind，和艾伦图灵研究所发布在2021 ICLR的论文已经超过500次引用

传统的Transformer的使用softmax 注意力，具有二次空间和时间复杂度。Performers是Transformer的一个变体，它利用一种新颖的通过正交随机特征方法 (FAVOR+) 快速注意力来有效地模拟 softmax 之外的可核化注意力机制来近似 softmax 注意力。

背景知识

传统Transformer由于softmax attention的存在，具有二次的空间和时间复杂度:

为解决上述问题，Performers提出了一些研究建议。

标准稀疏化技术

标准稀疏化技术。

左图：稀疏模式示例，其中令牌仅关注附近的其他令牌。

右图：在图注意力网络中，令牌仅关注图中的邻居，这些节点应该比其他节点具有更高的相关性。

完整文章

https://avoid.overfit.cn/post/4e5c93d291d94bd9ba1d06e0d8c0f4c9

标签：Rethinking,Transformer,Performers,Attention,令牌,稀疏,softmax,注意力
From： https://www.cnblogs.com/deephub/p/16972927.html

Attention | Self-Attention
邱锡鹏NNDL学习笔记 ......
【NeurIPS2022】ScalableViT: Rethinking the Context-oriented Generalization of Vi
【NeurIPS2022】ScalableViT:RethinkingtheContext-orientedGeneralizationofVisionTransformer这篇论文来自清华大学深圳研究生院和字节跳动。从Swin开始，attenti......
【NeurIPS2022】Fast Vision Transformers with HiLo Attention
这个论文的核心贡献是提出了一种新的注意力机制HiLo（High/Lowfrequency）。如下图所示，在上面部分，分配了\(1-\alpha\)比例的head用于提取高频注意力，下面分配了\(\alp......
WeNet中注意力重打分（attention rescoring decoding）
我们知道CTC是非自回归，而像transformer中解码是自回归的，所以transformer很大的一个缺陷就是解码速度慢。在最近几年CTC和注意力机制联合训练得到的性能效果得到极大的提升......
注意力机制(Attention Mechanism)
转自：https://blog.csdn.net/Michale_L/article/details/126281676?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166917753116782414933549%2522%252C%25......
【ECCV2022】DaViT: Dual Attention Vision Transformers
【ECCV2022】DaViT:DualAttentionVisionTransformers代码：https://github.com/dingmyu/davit这个论文想法很自然也容易想到。Transformer都是在处理PxC二维的数......
一文读懂：注意力机制（Attention Mechanism）
注意力机制注意力机制(AttentionMechanism)浅谈1.注意力机制的由来，解决了什么问题？早期在解决机器翻译这一类序列到序列(SequencetoSequence)的问题时，通常采用的做法......
【ECCV2022】AMixer: Adaptive Weight Mixing for Self-Attention Free Vision Transf
1、Motivation这个论文来自于清华大学鲁继文老师团队，核心是attention和MLP-mixer思想的结合。建议用2分钟时间学习一下谷歌公司的MLP-Mixer「MLP-Mixer:Anall-ML......
Transformer/BERT/Attention面试问题与答案
from: https://blog.csdn.net/weixin_40633696/article/details/121810403文章目录1.Self-Attention的核心是什么？2.不考虑多头的原因，self-attention中词向量不乘QKV参......
『NLP学习笔记』如何理解attention中的Q,K,V
如何理解attention中的Q,K,V？文章目录一.如何理解attention中的Q,K,V？1.1.定义三个线性变换矩阵1.2.定义QKV1.3.自注意力计算1.3.1......

论文推荐：Rethinking Attention with Performers

背景知识

相关文章

赞助商

阅读排行