首页 > 其他分享 >【论文阅读】SpectFormer: Frequency and Attention is what you need in a Vision Transformer

【论文阅读】SpectFormer: Frequency and Attention is what you need in a Vision Transformer

时间:2024-03-22 15:02:32浏览次数:34  
标签:频谱 what Attention Transformer SpectFormer 注意力

SpectFormer: Frequency and Attention is what you need in a Vision Transformer

引用: Patro B N, Namboodiri V P, Agneeswaran V S. SpectFormer: Frequency and Attention is what you need in a Vision Transformer[J]. arXiv preprint arXiv:2304.06446, 2023.

论文链接: [2304.06446] SpectFormer: Frequency and Attention is what you need in a Vision Transformer

代码链接: SpectFormer: Frequency and Attention is what you need in a Vision Transformer | SpectFormers (badripatro.github.io)

简介

论文假设频谱注意力和多头注意力都起着重要作用。因此,提出了一种新颖的Spectformer的Transformer架构,该架构结合了频谱和多头注意力层。与 GFNet-H 和 LiT 相比,它使 ImageNet 上的 top-1 准确率提高了 2%。

Method

在这里插入图片描述
在这里插入图片描述

SpectFormer结构如图所示,Spect Former架构以此为补丁嵌入层,位置嵌入层,transformer块,最后是分类头(1000维的MLP投影)。transformer块包括一系列频谱层,随后是注意力层。图像被分割成一系列补丁,使用线性投影层获得补丁嵌入;位置嵌入使用标准的位置编码层。

Spectral Block

频谱层的目的是捕捉图像的不同频率分量,以理解局部频率。这可以使用频谱门控网络来实现,该频谱门控网络包括快速傅立叶变换(Fast Fourier Transform,FFT)层,然后是加权门控,然后是逆FFT层。频谱层使用FFT将物理空间转换到频谱空间使用可学习的权重参数来确定每个频率分量的权重,以便适当地捕捉图像的线条和边缘。可学习的权重参数特定于SpectFormer的每一层,并且使用反向传播技术来学习。

频谱层使用快速傅立叶逆变换(inverse Fast Fourier Transform,IFFT)将频谱空间带回物理空间。在IFFT之后,频谱层具有用于信道混合的层归一化和多层感知器(MLP)块,而token混合使用频谱门控技术来完成。注意,虽然提出的方法使用FFT/IFFT,但也可以使用小波/逆小波变换来实现。

Attention Block

SpectFormer的注意层是一个标准的注意力层,包括层归一化,然后是多头自注意力(MHSA),层归一化,最后是MLP。MHSA 架构类似于 DeIT 注意力架构,因为 MHSA 用于令牌混合,MLP 用于注意力层的通道混合。

SpectFormer Block

在这里插入图片描述

SpectFormer块如图所示,处于分阶段体系结构中。在SpectFormer块中引入了一个阿尔法因子,它控制频谱层和注意力层的数量。如果 α=0,SpectFormer包括所有注意力层,类似于DeIT-s,而当 α 为12时,SpectFormer变得类似于GFNet,具有所有频谱层。必须注意的是,所有注意力层都具有无法准确捕捉局部特征的缺点。类似地,所有频谱层都具有全局图像属性或语义特征不能被准确处理的缺点。SpectFormer提供了改变频谱和注意力层数量的灵活性,这有助于准确捕捉全局属性和局部特征。因此,SpectFormer考虑了有助于捕获初始层中的局部频率的局部特征,以及有助于捕捉长期依赖性的深层中的全局特征。

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

标签:频谱,what,Attention,Transformer,SpectFormer,注意力
From: https://blog.csdn.net/qq_42266272/article/details/136941585

相关文章

  • [基础] DiT: Scalable Diffusion Models with Transformers
    名称DiT:ScalableDiffusionModelswithTransformers时间:23/03机构:UCBerkeley&&NYUTL;DR提出首个基于Transformer的DiffusionModel,效果打败SD,并且DiT在图像生成任务上随着Flops增加效果会降低,比较符合scalinglaw。后续sora的DM也使用该网络架构。Method网络结构整......
  • Transformer
    建议大家看一下李宏毅老师讲解的Transformer,非常简单易懂(个人觉得史上最强transformer讲解):https://www.youtube.com/watch?前言Transformer由论文《AttentionisAllYouNeed》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2T......
  • Pytorch环境下基于Transformer模型的滚动轴承故障诊断
    注意力机制是深度学习中的重要技术之一,正日益受到重视关注。注意力机制作为一种信息贡献筛选的方法被提出,它可以帮助神经网络更多地关注与任务相关的特征,从而减少对任务贡献较小信息的影响。因此,利用注意机制可以提高神经网络的学习能力和可解释性。Transformer是一种基于纯注......
  • [IEEE TIV]基于transformer和深度学习的多层交通流预测模型
    目录简介创新点基于transformer的特征提取基于CNN与MFNN模型相结合的预测论文地址:论文简介利用交通数据准确预测未来某一时刻的交通流量,可以缓解交通拥堵等问题,对城市交通健康发展和经济发展具有重要作用。然而,目前的交通流量预测模型依赖于人的经验,只考虑了单一机......
  • 【论文笔记合集】Transformers in Time Series A Survey综述总结
    本文作者:slience_me文章目录TransformersinTimeSeriesASurvey综述总结1Introduction2Transformer的组成PreliminariesoftheTransformer2.1VanillaTransformer2.2输入编码和位置编码InputEncodingandPositionalEncoding绝对位置编码AbsolutePosit......
  • 【论文阅读】Autoformer Decomposition Transformers with Auto-Correlation for Long
    原始题目:Autoformer:DecompositionTransformerswithAuto-CorrelationforLong-TermSeriesForecasting中文翻译:Autoformer:用于长期序列预测的自相关分解变压器发表时间:2021年平台:AdvancesinNeuralInformationProcessingSystems文章链接:https://proceedings.neuri......
  • KGAT Knowledge Graph Attention Network for Recommendation
    目录概符号说明KGATEmbeddingLayerAttentiveEmbeddingPropagationLayers代码WangX.,HeX.,CaoY.,LiuM.andChuaT.KGAT:Knowledgegraphattentionnetworkforrecommendation.KDD,2019.概知识图谱for推荐系统.符号说明\(\mathcal{G}_1=\{(u,y_{ui}......
  • Transformer框架+编码器+解码器
    2024.3.14Transformer框架+编码器+解码器预训练----->NNLM----->word2vec------>ElMo--->AttentionNLP(自然语言处理)中预训练的目的,其实就是为了生成词向量transformer其实就是attention的一个堆叠Transformer的整体框架[Transformer框架]:对Transformer模型中各个结构的理......
  • OpenAI官宣开源Transformer Debugger!不用再写代码了
    刚刚,OpenAI超级对齐团队负责人官宣开源Transformer调试器。研究人员不用写代码,就能快速探索LLM的内部构造了!这项工作,是用GPT-4来分析GPT2中输入和输出之间的对应关系,从而推断各个神经元可能承担什么语言特征编码职责,如词性、句法结构、上下文关系等。如果去掉某个神经元后,模型......
  • 【ICCV2023】MOT论文阅读笔记:MeMOTR: Long-Term Memory-Augmented Transformer for Mu
    文章目录......