网站首页
编程语言
数据库
系统相关
其他分享
编程问答
IDConv
2024-11-13
【阅读文献笔记】TransXNet: Learning Both Global and LocalDynamics with a Dual Dynamic Token Mixer
从经典的ViTs说起,即基于MHSA构建远距离建模实现全局感受野的覆盖,但缺乏像CNNs般的归纳偏差能力。因此在泛化能力上相对较弱,需要大量的训练样本和数据增强策略来弥补。针对这个问题,SwinTransformer率先引入了移位窗口自注意力来引入归纳偏差并减少计算成本。然而,作者