首页 > 其他分享 >Learning Dynamic Query Combinations for Transformer-based Object** Detection and Segmentation论文阅读笔记

Learning Dynamic Query Combinations for Transformer-based Object** Detection and Segmentation论文阅读笔记

时间:2024-01-11 16:24:36浏览次数:28  
标签:Transformer 系数 based 组合 Object 语义 图像 Query query

Motivation & Intro

基于DETR的目标检测范式(语义分割的Maskformer也与之相似)通常会用到一系列固定的query,这些query是图像中目标对象位置和语义的全局先验。如果能够根据图像的语义信息调整query,就可以捕捉特定场景中物体位置和类别的分布。例如,当高级语义显示图像是一张合影时,我们就知道图像中会有一群人(类别),而且他们更有可能靠近图像中心(定位)。由于检测查询是隐含特征,与 DETR 框架中的具体位置和对象类别没有直接关系,因此很难设计一种机制来更改查询,同时将其保持在对模型有意义的 "查询 "子空间内。同时,作者通过实验观察到,query的凸组合能够达到与原始的query相同的性能表现。为此,作者提出了modulated queries,同时将生成的query限制在static query所构成的凸包中。

Method

Fixed Query Combination

作者首先讨论了fixed query combination,具体包含三种setting,分别为凸组合、非凸组合以及平均组合。首先将n个query分为m组,每组包含\(\frac{n}{m}=r\)个query。对于凸组合,首先 在[-1,1]随机采样r个值,对其softmax作为加权系数对r个query进行组合得到结果。对于非凸组合,其同样要求加权系数和为1,与凸组合的区别在于不要求每个加权系数都为正。截屏2024-01-11 14.57.23

实验结果表明凸组合是除了baseline以外最优的。

Dynamic Query Combinations

本节作者探讨了如何找到一种方法学习query的动态组合以替代加权系数的随机初始化。一种想法是直接将送入decoder的特征过一个mlp得到query,但实验证明这种方式效果不佳。受到动态卷积的启发,作者提出了query modulation,引入了两种query:basic query \(Q^B\in \mathbb{R}^{n\times f}\)以及\(Q^M\in\mathbb{R}^{m\times f}\),之前的组合公式可以表示为:

截屏2024-01-11 15.36.06

其中\(W^D\in\mathbb{R}^{m\times r}\)是组合系数矩阵。为了满足query的组合是凸的,要求\(w_{ij}^D\geq0,\sum_{j=1}^rw_{ij}^D=1\)。每r个basic query组合为一个modulated query。系数矩阵\(W^D\)通过将输入特征送入一个小的网络学习得到:

截屏2024-01-11 16.01.16

其中\(\mathcal{A}\)是GAP,\(\theta\)是一个MLP,\(\sigma\)是softmax函数。在训练时,\(Q^M\)和\(Q^B\)被同时送入decoder得到对应的预测结果,分别计算对应的匈牙利损失并相加;推理时只使用\(Q^M\)。因此,这种方式

Experiments

截屏2024-01-11 16.10.45

截屏2024-01-11 16.10.58

标签:Transformer,系数,based,组合,Object,语义,图像,Query,query
From: https://www.cnblogs.com/lipoicyclic/p/17958815

相关文章

  • [NLP复习笔记] Transformer
    1.Transformer概述1.1整体结构\(\text{Transformer}\)主要由\(\text{Encoder}\)和\(\text{Decoder}\)两个部分组成。\(\text{Encoder}\)部分有\(N=6\)个相同的层,每层包含一个\(\text{Muti-HeadAttention}\)(多头注意力机制,由多个\(\text{Self-Attention}\)组成......
  • OOP语义学 第一章 关于对象(Object Lessons)
    第一章关于对象(ObjectLessons)struct与class在C语言中,"数据"与"处理数据的操作(函数)"是分开声明的.语言本身没有支持"数据和函数"之间的关联性.我们把这种程序方法称为"程序性的(procedural)."举个例子:如果我们声明一个structPoint3d,像这样:typedefstructpoint3d{......
  • Objectarx system dictionary
    ObjectARXReferenceGuide>GlobalFunctions>AcRxGlobalFunctions>acrxSysRegistryFunctionacrxSysRegistryC++ACBASE_PORTAcRxDictionary*acrxSysRegistry();Filerxdict.hDescriptionReturnsapointertotheObjectARXsystemdictionary.The......
  • the ObjectARX system dynamic linker object
    ObjectARXReferenceGuide>Macros>AcRxMacros>acrxDynamicLinkerMacroacrxDynamicLinkerC++defineacrxDynamicLinker\AcRxDynamicLinker::cast(acrxSysRegistry()->at(ACRX_DYNAMIC_LINKER))Filerxdlinkr.hDescriptionTheacrxDynamicLinkerm......
  • AttentionFreeTransformer 核心结构图(GraphViz 重绘)
    AFTFulldigraphAFTFull{ rankdir=BTnode[ style=filled, color=Black fontcolor=White, fillcolor="#30638e", fontname="SimHei", fontsize=32, width=5,height=2, ]inp[label="输入\n[BatchSize,\nSeqLen,......
  • 【五期李伟平】CCF-A(MobiCom'18 Session EdgeTech'18)A Game-Theoretic Approach to Mu
    Zafari,Faheem,etal."AGame-TheoreticApproachtoMulti-ObjectiveResourceSharingandAllocationinMobileEdgeClouds."(2018).  为了缓解移动边缘计算中资源稀缺问题,本文建议在多个边缘计算服务提供商之间共享资源,并将资源分配和共享问题建模为多目标优化......
  • ICLR 2022: Anomaly Transformer论文阅读笔记+代码复现
    本论文全名为AnomalyTransformer:TimeSeriesAnomalyDetectionwithAssociationDescrepancy(通过关联差异进行时序异常检测),主要提出了一种无监督的异常点检测算法,并在6个benchmarks上测试,获取良好结果。论文链接:ANOMALYTRANSFORMER:TIMESERIESANOMALYDETECTIONWITHAS......
  • 讲解'BatchNorm2d' object has no attribute 'track_running_stats'
    讲解'BatchNorm2d'objecthasnoattribute'track_running_stats'在使用深度学习框架PyTorch进行模型训练时,有时可能会遇到以下错误提示:plaintextCopycode'BatchNorm2d'objecthasnoattribute'track_running_stats'这个错误提示通常与PyTorch版本升级或代码中的一些配......
  • 【史上最本质】序列模型:RNN、双向 RNN、LSTM、GRU、Seq-to-Seq、束搜索、Transformer
    序列模型:RNN、双向RNN、LSTM、GRU、Seq-to-Seq、束搜索、Transformer、Bert序列模型是啥RNN结构双向RNN长短期记忆递归神经网络LSTM门控循环单元GRU编码器-解码器Seq-to-SeqBeamSearch束搜索:选择最佳翻译结果TransformerBert 序列模型是啥序列数据是,按照时间顺序或者某......
  • 【史上最小白】Bert 分析类大模型:双向 Transformer 编码器
    Bert:双向Transformer编码器Bert:论洞察语境,GPT不如我深刻;论理解含义,ELMo不如我全面输入阶段词嵌入:把词语转换为向量第一个预训练Masked:学习语言的深层次理解尝试1:预测每个单词尝试2:Masked语言模型尝试3:用随机单词替换部分遮住的单词尝试4:结合遮盖、随机替换和不变的单词......