首页 > 其他分享 >【ARXIV2211】Efficient multi-order gated aggregation network

【ARXIV2211】Efficient multi-order gated aggregation network

时间:2022-12-07 15:24:57浏览次数:82  
标签:multi ARXIV2211 Efficient aggregation 如下 FFN 模块 所示 channel

在这里插入图片描述

作者认为,交互复杂性是视觉识别一个重要特点。为此,作者通过复杂特征交互构建了一个纯卷积的网络 MogaNet 用于图像识别。MogaNet的整体框架如下图所示,架构和一般的 Transformer 网络非常类似,核心包括两个模块:spatial aggregation (取代注意力) 和 channel aggregation (取代FFN)。

请添加图片描述

(1)spatial aggregation 如下图所示,蓝色部分叫做 feature decomposition,用于 exclude trivial interactions. (我对这个模块的动机并不太理解,不过下面的 channel aggregation 也用到了这个) 。下面是 Moga模块,也就是多次 DWConv,作者认为是多阶门控。

请添加图片描述

(2)channel aggregation 如下图所示。当前的主流方法FFN中仅包括两个FC层。因此,作者进行了如下改进。我理解这个操作类似于是一个空间位置的注意力,但貌似也并不很一样,不清楚在其它论文里有没有类似的操作。

请添加图片描述

标签:multi,ARXIV2211,Efficient,aggregation,如下,FFN,模块,所示,channel
From: https://www.cnblogs.com/gaopursuit/p/16963139.html

相关文章