论文:Cost Aggregation Is All You Need for Few-Shot Segmentation
代码:https://github.com/Seokju-Cho/Volumetric-Aggregation-Transformer
目录
Affinity-Aware Transformer Decoder
简介
与HSNet类似,采用的是直接对相似度矩阵进行编码、解码操作的架构。该论文主要是由Pyramidal Transformer Encoder、Affinity-aware Transformer Decoder构成,需要一点预备的swin transformer的知识。
Swin Transformer
以上是Swin Transformer的基本架构,在21年被提出,图片会经过几次下采样操作-block主体-下采样操作,以此来生成最终的预测,其中的block与Vision Transformer中的block大体上没有什么不同,包括MLP的结构也都一样(Linear-GELU-Dropout-Linear-Dropout),所以需要关注的重点就在图中标注的W-MAS(Windows Multi-Head Self-Attention)和SW-MSA(Shifted Windows Multi-Head Self-Attention)。
由于传统的注意力机制包括同一年的ViT模型,都是将图像中的一个pixel的q与其他所有pixel的k进行相乘,也就是注意力公式中所表示的,这样不可避免的会导致计算量过大。Swin Transformer中采用W-MSA来解决这一问题,方法是:将一张图片,用m*m大小的窗口划分成不同几个区域,对每个区域独立的使用自注意力计算,以此可以大大减少计算量。
新问题:如果每一层block都使用这样的windows来划分,那么感受野会受限制,只关注特定区域没有不同窗口间交互反而会使效果降低。因此在此基础上,提出了SW-MSA,具体方法也是简单易懂,如下图。
使用了移位窗口后,这样在进行block迭代时,可以对不同区域都进行注意力计算,增大了模型的感受野,而这样的方法就要求我们迭代的block的次数必须是偶数倍。但新问题是,由于transformer的并行计算,我们在分窗口进行SW-MSA的计算时,反而会大大增加计算量,而Swin Transformer使用cyclic shift与mask方法来解决这一问题。
简单来说,通过一些移位操作,可以将原图中的9个window变成4个window来计算,这样就不会有计算量的增加,移位后的一个窗口内可能有图片中并不相邻的一些像素接壤,例如下图B中与原图像最右侧的图像部分并不相邻,如果使用自注意力计算会产生干扰,因此使用mask方法将不相邻的区域给“掩盖”。
这里只是简单了解,对于Swin Transformer,需要了解更多可以阅读其原论文或者参考以下博客:Swin-Transformer网络结构详解_swin transformer-CSDN博客
VAT
上图是VAT的模型架构以及维度变化过程,整体的方法结构是经过骨干网络提取特征,计算得到不同尺度的4D相似度矩阵,经过编码器生成特征融合图像,在支持特征维度进行平均化使得局部信息压缩后,与从骨干网络提取到的查询特征拼接,通过解码器输出结果。
Volume Embedding Module
由于需要处理的是4D的高维数据,因此需要考虑到如何减少计算量同时保持信息的完整性。与寻找全局表示的图像分类不同,分割任务需要进行密集预测,这需要考虑到像素之间的上下文关联。这意味着在进行像素级别的交互分析时,不能简单地忽略局部细节,而必须保留足够的上下文信息以支持准确的分割结果。根据代码可以看出,作者使用4D最大池化、4D卷积、GELU激活函数以及组归一化来实现。过程定义如下:
Volumetric Transformer Module
该模块使用4D的Swin Transformer对特征进行聚合。作者的方法舍弃了Patch Merging和Patch Embedding层,另外只使用一层的block。从模型架构也可以看出,作者使用了从粗到细融合特征的方法,提高性能的同时,加强特征对细节部分以及上下文的理解。过程定义如下:
Affinity-Aware Transformer Decoder
考虑到金字塔聚合处理的高相关性,模型额外使用从骨干网络中提取的查询特征对编码器特征进行嵌入,使用2D的Swin Transformer能更准确的找到对应关系,对上下文的匹配更加精确。解码器中与PFENet++都使用了类似的平均支持特征维度的操作,过程定义如下:
标签:Transformer,Swin,Shot,Segmentation,Aggregation,计算,使用,4D,block From: https://blog.csdn.net/qq_51964221/article/details/143758781