SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation

* Authors: [[Qiang Wan]], [[Zilong Huang]], [[Jiachen Lu]], [[Gang Yu]], [[Li Zhang]]

初读印象

comment:: (SeaFormer)提出了一种适用于移动设备的轻量级网络，设计了一个通用的注意力块，特点是提出了轴向压缩和细节增强。

动机

Transformer的计算成本和内存需求使得这些方法不适用于移动设备，尤其是高分辨率图像输入。
其他优化方法存在延迟过高的问题。
轴向注意力及其变种以相当低的计算成本提供了性能增益。但忽略了池化/平均操作带来的局部细节的缺失。

方法

总体框架

Pasted image 20230313163103 模型结构主要包含了MV2的Stem、上下文和空间分支和轻量分割头。- Stem：仅将特征下采样8倍，并且其中config系数在topformer的基础上对倒数第二个stage减少了一层，并增加了通道数量。

上下文分支：获得更大的感受野，获得上下文信息。特征进一步进行三个stage的下采样，并中间使用设计的seaformer layer进行特征增强。backbone部分由stem和上下文分支组成。
空间分支：采用大分辨率的特征，并使用特征融合模块不断吸收来自高分辨率的上下文信息。
轻量分割头：将特征从8倍下采样后进行像素分类。

Squeeze-Enhanced Axial Attention

Pasted image 20230313191142

上半：将QKV进行拼接并卷积以提取局部信息。
下半：分别在水平和竖直方向求平均，压缩操作将全局信息保留到单一坐标轴上，从而大大减轻了全局语义提取。在两个方向分别作注意力：
*通过广播进行相加。
嵌入绝对位置感知：

启示

可以学习此论文的写作和画图。

标签：Transformer,SeaFormer,Semantic,Segmentation,Axial,上下文,Squeeze
From： https://www.cnblogs.com/tifuhong/p/17909228.html

Fully convolutional networks for semantic segmentation
Fullyconvolutionalnetworksforsemanticsegmentation*Authors:[[JonathanLong]],[[EvanShelhamer]],[[TrevorDarrell]]DOI:10.1109/CVPR.2015.7298965Locallibrary初读印象comment::(FCN)把全连接层换成转置卷积，把用以分类的网络变成语义分割的网络。......
Expectation-Maximization Attention Networks for Semantic Segmentation 使用了EM算
Expectation-MaximizationAttentionNetworksforSemanticSegmentation*Authors:[[XiaLi]],[[ZhishengZhong]],[[JianlongWu]],[[YiboYang]],[[ZhouchenLin]],[[HongLiu]]DOI:10.1109/ICCV.2019.00926Locallibrary初读印象comment::(EMANet)用期望......
RefineNet: Multi-path Refinement Networks for High-Resolution Semantic Segmentat
RefineNet:Multi-pathRefinementNetworksforHigh-ResolutionSemanticSegmentation*Authors:[[GuoshengLin]],[[AntonMilan]],[[ChunhuaShen]],[[IanReid]]DOI:10.1109/CVPR.2017.549Locallibrary初读印象comment::(RefineNet)一种多路径的用于高分......
A Deformable Attention Network for High-Resolution Remote Sensing Images Semanti
ADeformableAttentionNetworkforHigh-ResolutionRemoteSensingImagesSemanticSegmentation*Authors:[[RenxiangZuo]],[[GuangyunZhang]],[[RongtingZhang]],[[XiupingJia]]DOI:10.1109/TGRS.2021.3119537初读印象comment::（MDANet）提出了可变形注意力，结......
BiFormer: Vision Transformer with Bi-Level Routing Attention 使用超标记的轻量ViT
alias:Zhu2023atags:超标记注意力rating:⭐share:falseptype:articleBiFormer:VisionTransformerwithBi-LevelRoutingAttention*Authors:[[LeiZhu]],[[XinjiangWang]],[[ZhanghanKe]],[[WayneZhang]],[[RynsonLau]]Locallibrary初读印象comm......
2021-CVPR-Transformer Tracking
TransformerTracking相关性在跟踪领域起着关键作用，特别是在最近流行的暹罗跟踪器中。相关操作是考虑模板与搜索区域之间相似性的一种简单的融合方式。然而，相关操作本身是一个局部线性匹配过程，导致语义信息的丢失并容易陷入局部最优，这可能是设计高精度跟踪算法的瓶颈。还有比相关......
Rethinking and Improving Relative Position Encoding for Vision Transformer: ViT
RethinkingandImprovingRelativePositionEncodingforVisionTransformer*Authors:[[KanWu]],[[HouwenPeng]],[[MinghaoChen]],[[JianlongFu]],[[HongyangChao]]初读印象comment::(iRPE)提出了专门用于图像的相对位置编码方法，code:Cream/iRPEatmain·mi......
Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition：使用大核卷
Conv2Former:ASimpleTransformer-StyleConvNetforVisualRecognition*Authors:[[QibinHou]],[[Cheng-ZeLu]],[[Ming-MingCheng]],[[JiashiFeng]]Locallibrary初读印象comment::研究一种更有效的利用卷积编码空间特征的方法，利用卷积调制来简化自注意力操作......
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解
初读印象comment::(Swin-transformer)代码：https://github.com/microsoft/Swin-Transformer动机将在nlp上主流的Transformer转换到cv上。存在以下困难：nlp中单词标记是一个基本单元，但是视觉元素在尺度上有很大的变化。图像分辨率高，自注意力操作计算复杂度是图像大小的二次方......
Fully Attentional Network for Semantic Segmentation：FLANet
FullyAttentionalNetworkforSemanticSegmentation*Authors:[[QiSong]],[[JieLi]],[[ChenghongLi]],[[HaoGuo]],[[RuiHuang]]初读印象comment::(FLANet)常规的注意力在得到相容性矩阵的时候，把会有一个维度被压缩掉。为了解决这个问题，本文提出了一种新的方法，即......

SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation

SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation

初读印象

动机

方法

总体框架

Squeeze-Enhanced Axial Attention

启示

相关文章

赞助商

阅读排行