首页 > 其他分享 >【阅读文献笔记】TransXNet: Learning Both Global and LocalDynamics with a Dual Dynamic Token Mixer

【阅读文献笔记】TransXNet: Learning Both Global and LocalDynamics with a Dual Dynamic Token Mixer

时间:2024-11-13 16:46:04浏览次数:3  
标签:Both IDConv Learning 卷积 网络 Mixer FFN 模块

从经典的 ViTs 说起,即基于 MHSA 构建远距离建模实现全局感受野的覆盖,但缺乏像 CNNs 般的归纳偏差能力。因此在泛化能力上相对较弱,需要大量的训练样本和数据增强策略来弥补。

针对这个问题,Swin Transformer 率先引入了移位窗口自注意力来引入归纳偏差并减少计算成本。然而,作者认为由于其仍然是基于窗口的局部自注意力机制,因此感受野还是被限制。

为了使 ViTs 具有归纳偏差,后面大部分工作都选择构建了混合网络,如 PVT 等,即融合了自注意力和卷积操作。然而,由于标准卷积在这些混合网络中的使用,性能改进有限。这是因为卷积核是输入无关的,不能适应不同的输入,从而导致了自注意力和卷积之间的表示能力差异。

为了解决上述问题,这篇论文针对性地引入了一种新的混合网络模块,称为Dual Dynamic Token Mixer (D-Mixer),它以一种依赖于输入的方式聚合全局信息和局部细节。

具体来说,输入特征被分成两部分,分别经过一个全局自注意力模块和一个依赖于输入的深度卷积模块进行处理,然后将两个输出连接在一起。这种简单的设计可以使网络同时看到全局和局部信息,从而增强了归纳偏差。论文中的实验证明,这种方法在感受野方面表现出色,即网络可以看到更广泛的上下文信息。

如上图所示,同大多数 Backbone 而言,TransXNet网络采用了一个分层的结构,分为四个stage。每个阶段由一个图像块嵌入层和多个依次堆叠的模块组成。第一个图像块嵌入层使用 7×7 的卷积层(步长=4),随后是批量归一化(BN),而其余阶段的图像块嵌入层使用 3×3的卷积层(步长=2)和 BN。每个模块包括一个Dynamic Position Encoding (DPE)层,一个Dual Dynamic Token Mixer (D-Mixer),以及一个Multiscale Feed-forward Network (MS-FFN)。

Dual Dynamic Token Mixer (D-Mixer)

D-Mixer的工作流程如下图所示。对于一个特征图,首先将其沿通道维度均匀分为两个子特征图 。然后,分别经过一个全局自注意力模块(OSRA)和一个动态深度卷积模块(IDConv),生成相应的特征图然后将它们沿通道维度连接在一起,生成输出特征图。最后,作者使用 Squeezed Token Enhancer(STE) 来进行有效的局部token聚合。

可以看出,D-Mixer的主要特点是,通过堆叠多个D-Mixer,OSRA和IDConv生成的动态特征聚合权重同时考虑了全局和局部信息,从而增强了模型的表示学习能力。

D-Mixer的其中一个关键组成部分是"Input-dependent Depthwise Convolution"(IDConv),它用于在动态输入依赖方式下注入归纳偏差并执行局部特征聚合。这个 IDConv 通过自适应平均池化来聚合空间上下文,然后通过两个 1×1的卷积层产生注意力图,最终生成输入依赖的深度卷积核。与其他动态卷积方法相比,IDConv 具有更高的动态局部特征编码能力,并且在计算开销上较低。

OSRA 模块的计算流程

Multi-scale Feed-forward Network (MS-FFN)

MS-FFN 主要用于在模型的Feed-forward Network中进行多尺度的特征处理。通常,前馈神经网络(FFN)用于对输入特征进行特征提取和变换,以提高模型的表示能力。然而,传统的 FFN 可能会受限于单一尺度的特征提取,难以充分利用多尺度的信息。

为了克服这个问题,本文引入了该模块。与传统的FFN不同,其采用了多尺度的处理方式。具体来说,MS-FFN 模块使用了四个并行的depthwise convolution,每个卷积核的尺度不同,这四个卷积核分别处理输入特征的四分之一通道。这意味着每个卷积核专门负责处理输入特征的一部分通道,以有效地捕获多尺度的信息。此外,还有一个 1×1 深度卷积核,用于学习通道方面的缩放因子。这个1x1深度卷积核的作用是对通道进行加权缩放,以更好地融合多尺度信息。

贡献:

在这项工作中,作者提出了一种高效的D-Mixer,充分利用了OSRA和IDConv提供的混合特征提取。通过将基于D-Mixer的块堆叠到深度网络中,IDConv中的卷积核和OSRA中的注意力矩阵都是动态生成的,使用了前几个块中收集的局部和全局信息,从而增强了网络的表示能力,融入了强大的归纳偏差和扩展的有效感受野。

此外,作者还引入了MS-FFN,用于在前馈网络中进行多尺度的Token聚合。通过交替使用D-Mixer和MS-FFN,作者构建了一种新型的混合CNN-Transformer网络,称为TransXNet,该网络在各种视觉任务上表现出了SOTA的性能。总的来说,这项工作提出了一种新颖的网络架构,通过有效利用不同的特征提取方法,提高了网络的表示能力,同时在前馈网络中引入多尺度的特征聚合,为各种视觉任务提供了出色的性能。

标签:Both,IDConv,Learning,卷积,网络,Mixer,FFN,模块
From: https://blog.csdn.net/qq_46460379/article/details/143715472

相关文章

  • [CF1935E] Distance Learning Courses in MAC 题解
    [CF1935E]DistanceLearningCoursesinMAC难度正常的一道题。首先我们发现“挑选若干个区间”就是一句废话,因为按位或只会贡献答案而不会减小答案。所以我们需要在\([L,R]\)的每个区间都挑一个数,使得最终的按位或最大。想办法让尽可能多的二进制位都变成\(1\),且越是高......
  • 《VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Aud
    文章汉化系列目录文章目录文章汉化系列目录摘要1引言2相关工作2.1Vision中的Transformer2.2自监督学习3方法3.1标记化与位置编码3.1.1DropToken3.2Transformer架构3.3公共空间投影3.4多模态对比学习4实验4.1实验设置4.2结果4.2.1视频动作识别的微调4.2......
  • 集成学习(Ensemble Learning)简介
    1集成学习作用俗话说:“三个臭皮匠赛过诸葛亮”。当使用某一种分类器不能使我们达到很好的效果的时候,我们不妨设想将这些分类效果不好的分类器组合一下,再去看看效果是否有提升,这就是集成学习(EnsembleLearning)的思想。集成学习是机器学习中的一种思想,它通过多个模型的组合......
  • 荣登Nature! 持续学习(Continue Learning)取得最新突破
    2024深度学习发论文&模型涨点之——持续学习Nature发了一篇《Lossofplastisityindeepcontinuallearning》文章介绍了一种创新的算法——持续反向传播(ContinualBackpropagation),该算法通过在每次迭代中随机重置一小部分较少使用的神经元来保持网络的塑性。这种方法通过......
  • 语义通信论文略读(七)Contrastive Learning-Based Semantic Communications
    ContrastiveLearning-BasedSemanticCommunications基于对比学习的语义通信·作者:ShunpuTang,QianqianYang,LishengFan,XianfuLei,ArumugamNallanathan,GeorgeK.Karagiannidis·所属机构:广州大学计算机科学与网络安全学院,浙江大学信息科学与电子工程......
  • CAMixerSR:只有细节需要更多关注
    CAMixerSR:只有细节需要更多关注为了满足对大图像(2K-8K)超分辨率(SR)快速增长的需求,主流方法遵循两条独立的轨道:①通过内容感知路由加速现有网络;②通过令牌混合器重构设计更好的超分辨率网络。尽管直接,但它们遇到了不可避免的缺陷(例如,不灵活的路由或非歧视性处理),限制了质量-复杂性......
  • 树状数组learning Day1识海社区打卡1st
    鉴于上次省赛的惨烈失败教训,狠狠加训,距离下次沈阳站还有两星期,再次感谢东北大学赐予的外卡机会,你知道的,东北大学一直是我的第二户籍所在地。今天到下星期周末为止估计都会持续更新树状数组和线段树相关的笔记。我的刷题顺序大概会按照[灵神提单](LC-Rating&Training)->codefor......
  • 【人脸伪造检测】Spatial-Phase Shallow Learning: Rethinking Face Forgery Detectio
    一、研究动机[!note]创新点:利用相位谱实现伪造检测,并且证明了卷积模型可以提取隐性特征。由于上采样是伪造模型的关键步骤,这篇论文通过相位信息检测上采样的伪影。对比之前的频率模型:F3-Net:通过离散余弦变换后的统计特征实现伪造检测二、检测模型可学习的知识点......
  • 论文翻译 | Teaching Algorithmic Reasoning via In-context Learning
    摘要        大型语言模型(LLMs)通过扩大模型和数据规模,展现了不断增强的上下文学习能力。尽管取得了这一进展,LLMs仍然无法解决算法推理问题。尽管在提供最终答案的同时给出解释促进了在多步骤推理问题上的进一步改进,但Anil等人(2022年)指出,即使是简单的算法推理任务,比如......
  • 【文献阅读】Multimodal feature learning and fusion on B-mode ultrasonography and
    题目:基于点门控深度网络的b型超声和超声弹性成像的多模态特征学习与融合诊断摘要:b型超声和超声弹性成像可用于前列腺癌(PCa)的临床诊断。两种超声(US)模式的结合使用计算机辅助可能有助于提高诊断性能。提出了一种基于多模态超声的计算机辅助诊断(CAD)技术。首先,从b型US图像和超声......