郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
European conference on computer vision, 2020
Abstract. 我们提出了一种新的方法,将目标检测视为一个直接集预测问题。我们的方法简化了检测流程,有效地消除了对许多手工设计的组件的需求,如非最大值抑制程序或锚生成,这些组件明确地对我们关于任务的先验知识进行编码。新框架的主要组成部分,称为DEtection TRansformer或DETR,是一种基于集合的全局损失,通过二分匹配强制进行唯一预测,以及一种Transformer编码器-解码器架构。给定一组固定的学到目标查询,DETR对目标和全局图像上下文的关系进行推理,以直接并行输出最后一组预测。与许多其他现代探测器不同,新模型概念简单,不需要专门的库。DETR在具有挑战性的COCO目标检测数据集上展示了与完善且高度优化的Faster R-CNN基线相当的准确性和运行时性能。此外,DETR可以很容易地泛化,以统一的方式产生全景分割。我们证明,它显著优于竞争基线。训练代码和预训练模型可在https://github.com/facebookresearch/detr上获得。
1 Introduction
目标检测的目标是为每个感兴趣的目标预测一组边界框和类别标签。现代检测器通过在一大组提议(proposal)[5,36]、锚[22]或窗口中心[45,52]上定义代理回归和分类问题,以间接的方式解决这一集合预测任务。它们的性能受到后处理步骤、锚集的设计以及将目标框分配给锚的启发式方法的显著影响[51]。为了简化这些流水线,我们提出了一种直接集预测方法来绕过代理任务。这种端到端的理念在复杂的结构化预测任务(如机器翻译或语音识别)方面取得了重大进展,但在目标检测方面尚未取得重大进展:之前的尝试[4,15,38,42]要么添加了其他形式的先验知识,要么在具有挑战性的基准上与强大的基线相比没有竞争力。本文旨在弥合这一差距。
我们通过将目标检测视为直接集预测问题来简化训练流水线。我们采用了一种基于Transformer [46]的编码器-解码器架构,这是一种用于序列预测的流行架构。Transformer的自注意力机制明确地对序列中元素之间的所有成对相互作用进行建模,使这些架构特别适合于集合预测的特定约束,例如去除重复预测。
我们的DEDetection TRansformer (DETR,见图1)一次预测所有对象,并使用集损失函数进行端到端训练,该集损失函数在预测对象和真实对象之间执行二分匹配。DETR通过丢弃对先验知识进行编码的多个手工设计的组件(如空间锚或非最大抑制)来简化检测流水线。与大多数现有的检测方法不同,DETR不需要任何自定义层,因此可以在任何包含标准ResNet[14]和Transformer[46]类的框架中轻松复制。
与以前关于直接集预测的大多数工作相比,DETR的主要特征是二分匹配损失和变换器与(非自回归)并行解码的结合[7,9,11,28]。相比之下,先前的工作侧重于RNN的自回归解码[29,35,40-42]。我们的匹配损失函数唯一地将预测分配给地面实况对象,并且对预测对象的排列是不变的,因此我们可以并行发射它们。
我们在最流行的对象检测数据集之一COCO[23]上评估了DETR,并与竞争激烈的更快R-CNN基线[36]进行了比较。更快的RCNN经历了多次设计迭代,自最初发布以来,其性能得到了极大的提高。我们的实验表明,我们的新模型达到了可比的性能。更准确地说,DETR在大型对象上表现出明显更好的性能,这一结果可能是由转换器的非局部计算实现的。然而,它在小物体上的性能较低。我们预计,未来的工作将以FPN[21]的开发为Faster R-CNN所做的相同方式改进这一方面。
DETR的训练设置在多个方面与标准物体探测器不同。新模型需要超长的训练时间表,并且受益于变压器中的辅助解码损耗。我们将深入探讨哪些组件对演示的性能至关重要。
DETR的设计理念很容易扩展到更复杂的任务中。在我们的实验中,我们表明,在预训练的DETR之上训练的简单分割头在泛光分割[18]上优于竞争性基线,这是一项具有挑战性的像素级识别任务,最近越来越受欢迎。
2 Related Work
我们的工作建立在几个领域的先前工作的基础上:用于集合预测的二分匹配损失、基于Transformer的编码器-解码器架构、并行解码和目标检测方法。
2.1 Set Prediction
2.2 Transformers and Parallel Decoding
2.3 Object Detection
3 The DETR Model
3.1 Object Detection Set Prediction Loss
3.2 DETR Architecture
4 Experiments
4.1 Comparison with Faster R-CNN and RetinaNet
4.2 Ablations
4.3 DETR for Panoptic Segmentation
5 Conclusion