SpectFormer: Frequency and Attention is what you need in a Vision Transformer
引用: Patro B N, Namboodiri V P, Agneeswaran V S. SpectFormer: Frequency and Attention is what you need in a Vision Transformer[J]. arXiv preprint arXiv:2304.06446, 2023.
论文链接: [2304.06446] SpectFormer: Frequency and Attention is what you need in a Vision Transformer
简介
论文假设频谱注意力和多头注意力都起着重要作用。因此,提出了一种新颖的Spectformer的Transformer架构,该架构结合了频谱和多头注意力层。与 GFNet-H 和 LiT 相比,它使 ImageNet 上的 top-1 准确率提高了 2%。
Method
SpectFormer结构如图所示,Spect Former架构以此为补丁嵌入层,位置嵌入层,transformer块,最后是分类头(1000维的MLP投影)。transformer块包括一系列频谱层,随后是注意力层。图像被分割成一系列补丁,使用线性投影层获得补丁嵌入;位置嵌入使用标准的位置编码层。
Spectral Block
频谱层的目的是捕捉图像的不同频率分量,以理解局部频率。这可以使用频谱门控网络来实现,该频谱门控网络包括快速傅立叶变换(Fast Fourier Transform,FFT)层,然后是加权门控,然后是逆FFT层。频谱层使用FFT将物理空间转换到频谱空间。使用可学习的权重参数来确定每个频率分量的权重,以便适当地捕捉图像的线条和边缘。可学习的权重参数特定于SpectFormer的每一层,并且使用反向传播技术来学习。
频谱层使用快速傅立叶逆变换(inverse Fast Fourier Transform,IFFT)将频谱空间带回物理空间。在IFFT之后,频谱层具有用于信道混合的层归一化和多层感知器(MLP)块,而token混合使用频谱门控技术来完成。注意,虽然提出的方法使用FFT/IFFT,但也可以使用小波/逆小波变换来实现。
Attention Block
SpectFormer的注意层是一个标准的注意力层,包括层归一化,然后是多头自注意力(MHSA),层归一化,最后是MLP。MHSA 架构类似于 DeIT 注意力架构,因为 MHSA 用于令牌混合,MLP 用于注意力层的通道混合。
SpectFormer Block
SpectFormer块如图所示,处于分阶段体系结构中。在SpectFormer块中引入了一个阿尔法因子,它控制频谱层和注意力层的数量。如果 α=0,SpectFormer包括所有注意力层,类似于DeIT-s,而当 α 为12时,SpectFormer变得类似于GFNet,具有所有频谱层。必须注意的是,所有注意力层都具有无法准确捕捉局部特征的缺点。类似地,所有频谱层都具有全局图像属性或语义特征不能被准确处理的缺点。SpectFormer提供了改变频谱和注意力层数量的灵活性,这有助于准确捕捉全局属性和局部特征。因此,SpectFormer考虑了有助于捕获初始层中的局部频率的局部特征,以及有助于捕捉长期依赖性的深层中的全局特征。
实验