首页 > 其他分享 >【小样本分割】VAT:Cost Aggregation Is All You Need for Few-Shot Segmentation

【小样本分割】VAT:Cost Aggregation Is All You Need for Few-Shot Segmentation

时间:2024-11-14 18:18:36浏览次数:3  
标签:Transformer Swin Shot Segmentation Aggregation 计算 使用 4D block

论文:Cost Aggregation Is All You Need for Few-Shot Segmentation
代码:https://github.com/Seokju-Cho/Volumetric-Aggregation-Transformer

目录

简介

Swin Transformer

 VAT​编辑

Volume Embedding Module

Volumetric Transformer Module

 Affinity-Aware Transformer Decoder


简介

        与HSNet类似,采用的是直接对相似度矩阵进行编码、解码操作的架构。该论文主要是由Pyramidal Transformer Encoder、Affinity-aware Transformer Decoder构成,需要一点预备的swin transformer的知识。

Swin Transformer

        以上是Swin Transformer的基本架构,在21年被提出,图片会经过几次下采样操作-block主体-下采样操作,以此来生成最终的预测,其中的block与Vision Transformer中的block大体上没有什么不同,包括MLP的结构也都一样(Linear-GELU-Dropout-Linear-Dropout),所以需要关注的重点就在图中标注的W-MAS(Windows Multi-Head Self-Attention)和SW-MSA(Shifted Windows Multi-Head Self-Attention)。

        由于传统的注意力机制包括同一年的ViT模型,都是将图像中的一个pixel的q与其他所有pixel的k进行相乘,也就是注意力公式中所表示的QK^{T},这样不可避免的会导致计算量过大。Swin Transformer中采用W-MSA来解决这一问题,方法是:将一张图片,用m*m大小的窗口划分成不同几个区域,对每个区域独立的使用自注意力计算,以此可以大大减少计算量。

        新问题:如果每一层block都使用这样的windows来划分,那么感受野会受限制,只关注特定区域没有不同窗口间交互反而会使效果降低。因此在此基础上,提出了SW-MSA,具体方法也是简单易懂,如下图。

         使用了移位窗口后,这样在进行block迭代时,可以对不同区域都进行注意力计算,增大了模型的感受野,而这样的方法就要求我们迭代的block的次数必须是偶数倍。但新问题是,由于transformer的并行计算,我们在分窗口进行SW-MSA的计算时,反而会大大增加计算量,而Swin Transformer使用cyclic shift与mask方法来解决这一问题。

        简单来说,通过一些移位操作,可以将原图中的9个window变成4个window来计算,这样就不会有计算量的增加,移位后的一个窗口内可能有图片中并不相邻的一些像素接壤,例如下图B中与原图像最右侧的图像部分并不相邻,如果使用自注意力计算会产生干扰,因此使用mask方法将不相邻的区域给“掩盖”。

        这里只是简单了解,对于Swin Transformer,需要了解更多可以阅读其原论文或者参考以下博客:Swin-Transformer网络结构详解_swin transformer-CSDN博客

 VAT

        上图是VAT的模型架构以及维度变化过程,整体的方法结构是经过骨干网络提取特征,计算得到不同尺度的4D相似度矩阵,经过编码器生成特征融合图像,在支持特征维度进行平均化使得局部信息压缩后,与从骨干网络提取到的查询特征拼接,通过解码器输出结果。

Volume Embedding Module

        由于需要处理的是4D的高维数据,因此需要考虑到如何减少计算量同时保持信息的完整性。与寻找全局表示的图像分类不同,分割任务需要进行密集预测,这需要考虑到像素之间的上下文关联。这意味着在进行像素级别的交互分析时,不能简单地忽略局部细节,而必须保留足够的上下文信息以支持准确的分割结果。根据代码可以看出,作者使用4D最大池化、4D卷积、GELU激活函数以及组归一化来实现。过程定义如下:

Volumetric Transformer Module

        该模块使用4D的Swin Transformer对特征进行聚合。作者的方法舍弃了Patch Merging和Patch Embedding层,另外只使用一层的block。从模型架构也可以看出,作者使用了从粗到细融合特征的方法,提高性能的同时,加强特征对细节部分以及上下文的理解。过程定义如下:

 Affinity-Aware Transformer Decoder

        考虑到金字塔聚合处理的高相关性,模型额外使用从骨干网络中提取的查询特征对编码器特征进行嵌入,使用2D的Swin Transformer能更准确的找到对应关系,对上下文的匹配更加精确。解码器中与PFENet++都使用了类似的平均支持特征维度的操作,过程定义如下:

标签:Transformer,Swin,Shot,Segmentation,Aggregation,计算,使用,4D,block
From: https://blog.csdn.net/qq_51964221/article/details/143758781

相关文章

  • cmu15545笔记-排序和聚合算法(Sorting&Aggregation Algorithms)
    目录概述排序堆排序外部归并排序使用索引聚合操作排序聚合哈希聚合概述本节和下一节讨论具体的操作算子,包括排序,聚合,Join等。排序为什么需要排序操作:关系型数据库是无序的,但是使用时往往需要顺序数据(OrderedBy,GroupBy,Distinct)。主要矛盾:磁盘很大:要排序的数据集很大,内......
  • GoldenGate抽取进程延迟严重,论FETCHOPTIONS NOUSESNAPSHOT的重要性
    1、案例概述同事新搭建的一套GoldenGate环境,刚刚搭建时,Extract抽取进程就已经出现延迟现象,当时想着可能很快就能追平,所以最开始也没当回事。结果两天时间,延迟现象没有缓解,已经累积延迟30多个小时。通过info或者stats等命令查看进程状态信息,发现该Extract抽取进程仍然在工作,只......
  • 什么是Zero-shot TTS?
    在文本到语音合成(TTS)领域,“Zero-shot”通常指的是模型在没有见过或未经过专门训练的情况下生成特定风格、音色或语言的语音的能力。具体来说,Zero-shotTTS可以理解为:新说话人:在训练数据中没有该说话人的声音数据,模型可以根据给定的参考音色(例如样本音频)直接生成这个说话......
  • [论文阅读] General Image-to-Image Translation with One-Shot Image Guidance
    写在前面原文:https://arxiv.org/abs/2307.14352GitHub:https://github.com/CrystalNeuro/visual-concept-translator关键词:I2I阅读理由:学习他们的实验方法前置知识:PTI、多概念反转multi-conceptinversion速览WHY当前方法缺乏保留内容或有效翻译视觉概念的能力,因此无法将......
  • [论文阅读] ZePo: Zero-Shot Portrait Stylization with Faster Sampling
    写在前面原文:ZePoGitHub:GithubZePo关键词:肖像风格化、扩散模型、零样本快速生成阅读理由:对扩散模型的改进,可以实现零样本快速生成图像,学习一下思路以及实验设计前置知识:LCM以及GithubLCM(找时间写一下),可参考LCM&CM,一致性蒸馏、图像质量评价速览WHY扩散模型的逐步去噪过程......
  • dc-aichat(一款支持ChatGPT+智谱AI+讯飞星火+书生浦语大模型+Kimi.ai+MoonshotAI+豆包A
    dc-aichat一款支持ChatGPT+智谱AI+讯飞星火+书生浦语大模型+Kimi.ai+MoonshotAI+豆包AI等大模型的AIGC源码。全网最易部署,响应速度最快的AIGC环境。PHP版调用各种模型接口进行问答和对话,采用Stream流模式通信,一边生成一边输出。前端采用EventSource,支持Markdown格式解析,支持公式......
  • 从截图到代码:screenshot-to-code开源项目实践指南
    一、运行效果 项目地址:GitHub-abi/screenshot-to-code:Dropinascreenshotandconvertittocleancode(HTML/Tailwind/React/Vue)二、实践步骤1.将项目下载到本地2.获取Anthropic(Claude)密钥或者 OpenAIAPI(chatGPT)密钥(1)OpenAIAPI(chatGPT)密钥......
  • EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image
    论文代码`importtorchimporttorch.nnasnnfromfunctoolsimportpartialfromtorch.nn.initimporttrunc_normal_importmathfromtimm.models.helpersimportnamed_applydefact_layer(act,inplace=False,neg_slope=0.2,n_prelu=1):#activationlayeract=......
  • zero-shot、one-shot、few-shot
    总结对比 zero-shot是一种机器学习方法,指的是模型能够处理从未在训练数据中见过的任务或类别,即模型在面对新任务时不需要额外的训练和微调也能做出合理的决策。以视觉场景为例,如CLIP(ContrastiveLanguage-ImagePre-Training),它将图像和文本嵌入到同一个语义空间中,使得模型能......
  • macOS电脑实时渲染和动画制作软件:KeyShot 2024.3 中文激活补丁版
    KeyShotKeyShot是一款互动性的光线追踪与全域光渲染程序,它凭借强大的技术算法和全局光照研究,无需复杂设定即可产生相片般真实的3D渲染影像。该软件用户界面简单直观,运行快速,支持多种3D模型格式和渲染模式,为设计师、工程师等提供了丰富的材质库、灯光库和动画功能,能够满足用户从静......