首页 > 其他分享 >End-to-End Object Detection with Transformers

End-to-End Object Detection with Transformers

时间:2024-05-29 19:58:10浏览次数:31  
标签:Transformer Transformers 预测 检测 目标 Detection End DETR 我们

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

European conference on computer vision, 2020

 

Abstract. 我们提出了一种新的方法,将目标检测视为一个直接集预测问题。我们的方法简化了检测流程,有效地消除了对许多手工设计的组件的需求,如非最大值抑制程序或锚生成,这些组件明确地对我们关于任务的先验知识进行编码。新框架的主要组成部分,称为DEtection TRansformer或DETR,是一种基于集合的全局损失,通过二分匹配强制进行唯一预测,以及一种Transformer编码器-解码器架构。给定一组固定的学到目标查询,DETR对目标和全局图像上下文的关系进行推理,以直接并行输出最后一组预测。与许多其他现代探测器不同,新模型概念简单,不需要专门的库。DETR在具有挑战性的COCO目标检测数据集上展示了与完善且高度优化的Faster R-CNN基线相当的准确性和运行时性能。此外,DETR可以很容易地泛化,以统一的方式产生全景分割。我们证明,它显著优于竞争基线。训练代码和预训练模型可在https://github.com/facebookresearch/detr上获得。

 

 

 

1 Introduction

  目标检测的目标是为每个感兴趣的目标预测一组边界框和类别标签。现代检测器通过在一大组提议(proposal)[5,36]、锚[22]或窗口中心[45,52]上定义代理回归和分类问题,以间接的方式解决这一集合预测任务。它们的性能受到后处理步骤、锚集的设计以及将目标框分配给锚的启发式方法的显著影响[51]。为了简化这些流水线,我们提出了一种直接集预测方法来绕过代理任务。这种端到端的理念在复杂的结构化预测任务(如机器翻译或语音识别)方面取得了重大进展,但在目标检测方面尚未取得重大进展:之前的尝试[4,15,38,42]要么添加了其他形式的先验知识,要么在具有挑战性的基准上与强大的基线相比没有竞争力。本文旨在弥合这一差距。

  我们通过将目标检测视为直接集预测问题来简化训练流水线。我们采用了一种基于Transformer [46]的编码器-解码器架构,这是一种用于序列预测的流行架构。Transformer的自注意力机制明确地对序列中元素之间的所有成对相互作用进行建模,使这些架构特别适合于集合预测的特定约束,例如去除重复预测。

  我们的DEDetection TRansformer (DETR,见图1)一次预测所有对象,并使用集损失函数进行端到端训练,该集损失函数在预测对象和真实对象之间执行二分匹配。DETR通过丢弃对先验知识进行编码的多个手工设计的组件(如空间锚或非最大抑制)来简化检测流水线。与大多数现有的检测方法不同,DETR不需要任何自定义层,因此可以在任何包含标准ResNet[14]和Transformer[46]类的框架中轻松复制。

  与以前关于直接集预测的大多数工作相比,DETR的主要特征是二分匹配损失和变换器与(非自回归)并行解码的结合[7,9,11,28]。相比之下,先前的工作侧重于RNN的自回归解码[29,35,40-42]。我们的匹配损失函数唯一地将预测分配给地面实况对象,并且对预测对象的排列是不变的,因此我们可以并行发射它们。

  我们在最流行的对象检测数据集之一COCO[23]上评估了DETR,并与竞争激烈的更快R-CNN基线[36]进行了比较。更快的RCNN经历了多次设计迭代,自最初发布以来,其性能得到了极大的提高。我们的实验表明,我们的新模型达到了可比的性能。更准确地说,DETR在大型对象上表现出明显更好的性能,这一结果可能是由转换器的非局部计算实现的。然而,它在小物体上的性能较低。我们预计,未来的工作将以FPN[21]的开发为Faster R-CNN所做的相同方式改进这一方面。

  DETR的训练设置在多个方面与标准物体探测器不同。新模型需要超长的训练时间表,并且受益于变压器中的辅助解码损耗。我们将深入探讨哪些组件对演示的性能至关重要。

  DETR的设计理念很容易扩展到更复杂的任务中。在我们的实验中,我们表明,在预训练的DETR之上训练的简单分割头在泛光分割[18]上优于竞争性基线,这是一项具有挑战性的像素级识别任务,最近越来越受欢迎。

 

2 Related Work

  我们的工作建立在几个领域的先前工作的基础上:用于集合预测的二分匹配损失、基于Transformer的编码器-解码器架构、并行解码和目标检测方法。

 

2.1 Set Prediction

 

2.2 Transformers and Parallel Decoding

 

2.3 Object Detection

 

3 The DETR Model

 

3.1 Object Detection Set Prediction Loss

 

3.2 DETR Architecture

 

4 Experiments

 

4.1 Comparison with Faster R-CNN and RetinaNet

 

4.2 Ablations

 

4.3 DETR for Panoptic Segmentation

 

5 Conclusion

标签:Transformer,Transformers,预测,检测,目标,Detection,End,DETR,我们
From: https://www.cnblogs.com/lucifer1997/p/18220920

相关文章

  • EndNote里参考文献的期刊名显示错误怎么办?
      本文介绍EndNote文献管理软件导入文献引用时,期刊名称带有%J前缀从而不能正常显示的解决方法。  前期的文章中,我们多次介绍了文献管理软件EndNote的具体使用方法与技巧。而在使用EndNote软件时,我们经常下载.enw等格式的文献数据库导入文件,从而在EndNote软件中导入我们的参考......
  • DependencyCheck漏洞扫描工具使用
    一、简介Dependency-Check是OWASP(OpenWebApplicationSecurityProject)的一个实用开源程序,用于识别项目依赖项并检查是否存在任何已知的,公开披露的漏洞。目前,已支持Java、.NET、Ruby、Node.js、Python等语言编写的程序,并为C/C++构建系统(autoconf和cmake)提供了有限的支持。而......
  • Calendar方法
    publicclassDemo01{publicstaticvoidmain(String[]args){//创建一个Calendar对象Calendarcalendar=Calendar.getInstance();//打印目前时间System.out.println(calendar.getTime().toLocaleString());//打印从1970年到现在的毫秒值System.out.println(calendar.g......
  • 【ACM出版,多高校单位支持 |人工智能等计算机领域 ei 会议,EI Compendex, Scopus检索】2
    2024人工智能与自然语言处理国际学术会议(AINLP2024)将于2024年7月19-21日在中国·珠海召开,该会议作为第四届人工智能、自动化与高性能计算国际会议(AIAHPC2024)分会场召开。本次会议主要围绕“人工智能与自然语言处理”的最新研究展开,旨在荟聚世界各地该领域的专家、学者、研究......
  • echarts饼图给legend图例增加自定义点击事件
    echarts图例点击会有一个默认的点击事件,会把点击的图例对应的legend取消解决办法legendselectchanged事件中将取消选中的legend动态设置回来,主要代码如下:letchart=echarts.init(document.getElementById('main'),null)//图例点击事件chart.on('legendselectchanged',(pa......
  • Prism框架与Microsoft.Extensions.DependencyInjection的集成使用笔记
    在现代的WPF应用开发中,Prism框架提供了强大的模块化、依赖注入和MVVM支持,而Microsoft.Extensions.DependencyInjection提供了简洁而功能强大的依赖注入机制。另外很重要的一点是Microsoft.Extensions.*或者第三方的Nuget基本会提供Microsoft.Extensions.DependencyInjection,那么......
  • WPF DrawingContext DrawingVisual OnRender()
    usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Windows;usingSystem.Windows.Controls;usingSystem.Windows.Data;usingSystem.Windows.Documents;usingSystem.Windows.Input;......
  • go net/http send req
      之前写到net/http客户端发送http请求时,会开启HTTP事务发送HTTP请求并等待远程的响应,经过下面一连串的调用,我们最终来到了标准库实现底层HTTP协议的结构体— net/http.Transport:net/http.Client.Donet/http.Client.donet/http.Client.sendnet/http.sendnet/htt......
  • Towards Universal Sequence Representation Learning for Recommender Systems
    目录概符号说明UniSRec统一的文本表示统一的序列表示Parameter-EfficientFine-tuning代码HouY.,MuS.,ZhaoW.X.,LiY.,DingB.andWenJ.TowardsUniversalSequenceRepresentationLearningforRecommenderSystems.KDD,2022.概本文提出了一个用text替代ID......
  • 界面组件Kendo UI for Angular教程 - 构建强大的PDF阅读器(二)
    如今当用户需要处理PDF文件时,通常不得不下载应用程序或者浏览器插件,控制用户如何与PDF交互并不是一件容易的事。如果我们提供PDF作为内容,用户可以下载它并使用浏览器或PDF本身提供的控件进行交互。然而,一些企业可能希望控制用户使用PDF的方式,以提供更好的体验或在某些条件下限制下......