LLFormer
该方法主要是基于 Restormer 的改进,主要改进有以下三点
- 注意力机制改为了轴向注意力,降低了计算复杂度
- FFN 部分由原来的单门控改成了双门控机制,增加了交互
- 加入了 LayerAttention 模块,建立了不同层之间的交互关系
ShuffleMixer
作者通过 Feature Mixing Block 获取图像的局部和非局部信息
- Shuffle Mixer Layers 采用大核 DW 卷积获取非局部信息,并使用 CSS 策略降低计算复杂度
- 使用 FMBConv 获取局部信息
FCVit
作者观察到 Attention Maps 与 query 不相关,并且比较稀疏,从而提出将卷积和注意力结合的思想
- 计算 attention 时,去掉 query
- 将注意力加入到卷积计算中,增加全局依赖信息
- 加入了 Bottleneck 结构,通过竞争增加信息