Learning Dynamic Query Combinations for Transformer-based Object** Detection and Segmentation论文阅读笔记

时间：2024-01-11 16:24:36浏览次数：44

标签：Transformer 系数 based 组合 Object 语义图像 Query query

Motivation & Intro

基于DETR的目标检测范式（语义分割的Maskformer也与之相似）通常会用到一系列固定的query，这些query是图像中目标对象位置和语义的全局先验。如果能够根据图像的语义信息调整query，就可以捕捉特定场景中物体位置和类别的分布。例如，当高级语义显示图像是一张合影时，我们就知道图像中会有一群人（类别），而且他们更有可能靠近图像中心（定位）。由于检测查询是隐含特征，与 DETR 框架中的具体位置和对象类别没有直接关系，因此很难设计一种机制来更改查询，同时将其保持在对模型有意义的 "查询 "子空间内。同时，作者通过实验观察到，query的凸组合能够达到与原始的query相同的性能表现。为此，作者提出了modulated queries，同时将生成的query限制在static query所构成的凸包中。

Method

Fixed Query Combination

作者首先讨论了fixed query combination，具体包含三种setting，分别为凸组合、非凸组合以及平均组合。首先将n个query分为m组，每组包含\(\frac{n}{m}=r\)个query。对于凸组合，首先在[-1,1]随机采样r个值，对其softmax作为加权系数对r个query进行组合得到结果。对于非凸组合，其同样要求加权系数和为1，与凸组合的区别在于不要求每个加权系数都为正。截屏2024-01-11 14.57.23

实验结果表明凸组合是除了baseline以外最优的。

Dynamic Query Combinations

本节作者探讨了如何找到一种方法学习query的动态组合以替代加权系数的随机初始化。一种想法是直接将送入decoder的特征过一个mlp得到query，但实验证明这种方式效果不佳。受到动态卷积的启发，作者提出了query modulation，引入了两种query：basic query \(Q^B\in \mathbb{R}^{n\times f}\)以及\(Q^M\in\mathbb{R}^{m\times f}\)，之前的组合公式可以表示为：

其中\(W^D\in\mathbb{R}^{m\times r}\)是组合系数矩阵。为了满足query的组合是凸的，要求\(w_{ij}^D\geq0,\sum_{j=1}^rw_{ij}^D=1\)。每r个basic query组合为一个modulated query。系数矩阵\(W^D\)通过将输入特征送入一个小的网络学习得到：

其中\(\mathcal{A}\)是GAP，\(\theta\)是一个MLP，\(\sigma\)是softmax函数。在训练时，\(Q^M\)和\(Q^B\)被同时送入decoder得到对应的预测结果，分别计算对应的匈牙利损失并相加；推理时只使用\(Q^M\)。因此，这种方式

Experiments

截屏2024-01-11 16.10.45

截屏2024-01-11 16.10.58

标签：Transformer,系数,based,组合,Object,语义,图像,Query,query
From： https://www.cnblogs.com/lipoicyclic/p/17958815

[NLP复习笔记] Transformer
1.Transformer概述1.1整体结构\(\text{Transformer}\)主要由\(\text{Encoder}\)和\(\text{Decoder}\)两个部分组成。\(\text{Encoder}\)部分有\(N=6\)个相同的层，每层包含一个\(\text{Muti-HeadAttention}\)（多头注意力机制，由多个\(\text{Self-Attention}\)组成......
OOP语义学第一章关于对象(Object Lessons)
第一章关于对象(ObjectLessons)struct与class在C语言中,"数据"与"处理数据的操作(函数)"是分开声明的.语言本身没有支持"数据和函数"之间的关联性.我们把这种程序方法称为"程序性的(procedural)."举个例子:如果我们声明一个structPoint3d,像这样:typedefstructpoint3d{......
Objectarx system dictionary
ObjectARXReferenceGuide>GlobalFunctions>AcRxGlobalFunctions>acrxSysRegistryFunctionacrxSysRegistryC++ACBASE_PORTAcRxDictionary*acrxSysRegistry();Filerxdict.hDescriptionReturnsapointertotheObjectARXsystemdictionary.The......
the ObjectARX system dynamic linker object
ObjectARXReferenceGuide>Macros>AcRxMacros>acrxDynamicLinkerMacroacrxDynamicLinkerC++defineacrxDynamicLinker\AcRxDynamicLinker::cast(acrxSysRegistry()->at(ACRX_DYNAMIC_LINKER))Filerxdlinkr.hDescriptionTheacrxDynamicLinkerm......
AttentionFreeTransformer 核心结构图（GraphViz 重绘）
AFTFulldigraphAFTFull{ rankdir=BTnode[ style=filled, color=Black fontcolor=White, fillcolor="#30638e", fontname="SimHei", fontsize=32, width=5,height=2, ]inp[label="输入\n[BatchSize,\nSeqLen,......
【五期李伟平】CCF-A（MobiCom'18 Session EdgeTech'18）A Game-Theoretic Approach to Mu
Zafari,Faheem,etal."AGame-TheoreticApproachtoMulti-ObjectiveResourceSharingandAllocationinMobileEdgeClouds."(2018). 为了缓解移动边缘计算中资源稀缺问题，本文建议在多个边缘计算服务提供商之间共享资源，并将资源分配和共享问题建模为多目标优化......
ICLR 2022: Anomaly Transformer论文阅读笔记+代码复现
本论文全名为AnomalyTransformer:TimeSeriesAnomalyDetectionwithAssociationDescrepancy（通过关联差异进行时序异常检测），主要提出了一种无监督的异常点检测算法，并在6个benchmarks上测试，获取良好结果。论文链接：ANOMALYTRANSFORMER:TIMESERIESANOMALYDETECTIONWITHAS......
讲解'BatchNorm2d' object has no attribute 'track_running_stats'
讲解'BatchNorm2d'objecthasnoattribute'track_running_stats'在使用深度学习框架PyTorch进行模型训练时，有时可能会遇到以下错误提示：plaintextCopycode'BatchNorm2d'objecthasnoattribute'track_running_stats'这个错误提示通常与PyTorch版本升级或代码中的一些配......
【史上最本质】序列模型：RNN、双向 RNN、LSTM、GRU、Seq-to-Seq、束搜索、Transformer
序列模型：RNN、双向RNN、LSTM、GRU、Seq-to-Seq、束搜索、Transformer、Bert序列模型是啥RNN结构双向RNN长短期记忆递归神经网络LSTM门控循环单元GRU编码器-解码器Seq-to-SeqBeamSearch束搜索：选择最佳翻译结果TransformerBert 序列模型是啥序列数据是，按照时间顺序或者某......
【史上最小白】Bert 分析类大模型：双向 Transformer 编码器
Bert：双向Transformer编码器Bert：论洞察语境，GPT不如我深刻；论理解含义，ELMo不如我全面输入阶段词嵌入：把词语转换为向量第一个预训练Masked：学习语言的深层次理解尝试1：预测每个单词尝试2：Masked语言模型尝试3：用随机单词替换部分遮住的单词尝试4：结合遮盖、随机替换和不变的单词......