首页 > 其他分享 >极市平台 | ECCV‘24|Plain-Det:同时支持多数据集训练的新目标检测

极市平台 | ECCV‘24|Plain-Det:同时支持多数据集训练的新目标检测

时间:2024-11-02 19:20:09浏览次数:5  
标签:24 极市 训练 ECCV 检测 检测器 目标 Plain 数据

本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。

原文链接:ECCV'24|Plain-Det:同时支持多数据集训练的新目标检测

极市导读

论文提出了Plain-Det,提供了灵活性以适应新的数据集,具有跨多样数据集的稳健性能、训练效率和与各种检测架构的兼容性。结合Def-DETR和Plain-Det,在COCO上达到51.9的mAP,匹配当前最先进的检测器。在13个下游数据集上进行了广泛的实验,Plain-Det展现了强大的泛化能力。

近期在大规模基础模型上的进展引发了对训练高效大型视觉模型的广泛关注。一个普遍的共识是必须聚合大量高质量的带注释数据。然而,鉴于计算机视觉中密集任务(如目标检测和分割)标注的固有挑战,实际的策略是结合并利用所有可用的数据进行训练。

论文提出了Plain-Det,提供了灵活性以适应新的数据集,具有跨多样数据集的稳健性能、训练效率和与各种检测架构的兼容性。结合Def-DETRPlain-Det,在COCO上达到51.9mAP,匹配当前最先进的检测器。在13个下游数据集上进行了广泛的实验,Plain-Det展现了强大的泛化能力。

  • 论文地址:https://arxiv.org/abs/2407.10083

  • 论文代码:https://github.com/SooLab/Plain-Det

Introduction

图片

大规模数据集促进了计算机视觉的显著进步,从用于图像分类的ImageNet到最近的图像分割数据集SA-1B。目标检测作为计算机视觉中的基本任务之一,固有地需要大规模的带注释数据。然而,注释如此广泛和密集的对象既昂贵又具有挑战性。另一种直接且实用的方法是统一多个现有的目标检测数据集,以训练一个统一的目标检测器。然而,数据集之间的不一致性,例如如图1a所示的不同分类法和数据分布,给多数据集训练带来了挑战。

论文旨在解决使用多个目标检测数据集训练一个有效且统一的检测器所面临的挑战,期望该检测器应具备以下特性:

  1. 对新数据集具有灵活性,以无缝且可扩展的方式进行适应,而不需要手动调整、复杂设计或从头开始训练。

  2. 在逐渐引入新数据集时性能具有稳健性,始终能够提高性能,或者至少保持稳定的性能。

  3. 训练效率。多数据集训练所需的训练迭代次数不应超过单一数据集的训练次数。

  4. 与检测系列的兼容性,例如Faster-RCNN系列和基于DETR的检测架构。

首先,引入一个简单而灵活的多数据集目标检测基线,这大胆挑战了一些近期的设计原则,同时保持其他进展。近期的研究明确将不同数据集之间的分类法统一为一个单一的统一分类法。然而,尽管它们采用了自动化方法,但仍然需要精心设计的组件,并在扩展到更多数据集时缺乏灵活性。这主要是因为1) 从数据集特定标签空间到统一标签空间的映射自动学习后,随着标签空间大小的增长变得越来越嘈杂;2) 结合新数据集需要重构统一的分类法。

因此,论文引入一个共享检测器,拥有完全数据集特定的分类头,以自然地防止不同分类法之间的冲突,并确保灵活性。此外,利用类别标签的文本嵌入构建所有标签的共享语义空间。值得注意的是,语义空间隐式地建立了来自不同分类器的标签之间的连接,使得尽管有数据集特定的分类头,仍然能够充分利用所有训练数据。尽管多数据集基线模型展示了灵活性,但其性能显著低于单一数据集目标检测器。

为此,论文探讨了影响基线成功的关键因素,并提供了三个见解,以使其不仅具有超强的灵活性,同时也具有高度的有效性:

  • Semantic space calibration

语义空间校准的灵感源于质疑使用固定文本嵌入的分类器是否适用于目标检测。图1borigin展示了类别之间文本嵌入的相似性矩阵,这与由可学习分类权重生成的矩阵(图1blearnable)明显不同。

这种偏差源于CLIP的训练数据分布,例如CLIP中的文本-图像对通常在名词频率上表现出长尾分布。这导致频繁出现的名词(如图1b中的person)的文本嵌入与其他词(包括NULL)之间具有高相似性。反过来,论文发现不常出现的NULL与频繁出现的词具有高相似性,而与不常出现的词具有低相似性。

因此,可以将空字符串NULL视为一个无意义的基准,以提取受频率驱动的基准,从而得到图1bmodified中所示的校准相似性矩阵。

  • Sparse proposal generation

在目标检测中,目标提案生成至关重要,尤其是在多数据集场景下。这是因为相同的目标提案用作锚点,以预测不同数据集的不同目标集。例如,虽然COCOLVIS共享相同的图像集,但标注类别存在显著差异。这要求在同一图像中相同的目标提案能够锚定来自COCO80个类别和LVIS1203个类别的不同目标。

图片

目前,目标提案生成方法大致可分为两种类型:1) 密集或从密集到稀疏的提案生成,生成跨越所有图像网格的提案或从密集提案中选择一个小子集,以及2) 稀疏提案生成,通常直接生成一组可学习的提案(见图2a)。

因此,论文对这两种类型的提案生成方法在COCOLVIS数据集的多数据集目标检测中进行了初步实验和比较。结果表明,稀疏提案生成方法在两个目标检测器系列中始终优于密集方法,如图2b所示。一个可能的原因是,与密集提案生成相比,稀疏提案(即稀疏查询)被证明能够捕捉数据集的分布,使得从多个数据集中学习联合分布变得更加容易。然而,由于需要相同的查询来捕捉不同数据集的先验,多数据集训练的性能仍低于单数据集训练。

因此,论文基于统一的语义空间和图像先验改进稀疏查询为类感知查询,这缓解了一组查询必须适应多个数据集的挑战。

  • Dynamic sampling strategy inspired by the emergent property

尽管上述两个见解解锁了在像COCOLVIS这样的多个数据集上训练统一检测器的潜力,但纳入数据集Objects365会导致训练过程中检测性能的大幅波动(如图2bstatic sampler),主要是由于数据集大小的不平衡(见图2c)。

令人惊讶的是,论文观察到,即使在某次迭代中检测器在某个数据集上的精度较低,它也可以通过对该特定数据集进行几次额外的训练迭代显著提高其精度(如图2bemergent)。论文将这一现象归因于多数据集检测训练的涌现特性:在多个数据集上训练的检测器,固有地具备比单一数据集训练更一般化的检测能力,并且这种能力可以通过几次特定于数据集的迭代被激活并适应特定的数据集。

受到这一特性的启发,论文提出了一种动态采样策略,以在不同数据集之间实现更好的平衡,该策略在后续迭代中根据先前观察到的数据集特定损失动态调整多数据集采样策略。

最后,论文提出了Plain-Det,这是一种简单但有效的多数据集目标检测器,得益于基线的灵活性,可以通过直接将上述三项见解应用于基线来轻松实现。

总而言之,论文的贡献为:

  1. 提供了三项关键见解,以应对多数据集目标检测训练的挑战,包括标签空间的校准、稀疏查询的应用和改进,以及少量迭代的特定数据集训练的涌现特性。

  2. 基于这三项见解,提出了一种简单但灵活的多数据集检测框架,称为Plain-Det,满足以下标准:能够灵活适应新数据集、在不同数据集上表现出良好的鲁棒性、训练效率高,以及与各种检测架构兼容。

  3. Plain-Det集成到Def-DETR模型中,并在公共数据集上进行联合训练,这些数据集包含2,249个类别和400万张图像。这一集成将Def-DETR模型在COCO上的mAP性能从46.9%提升至51.9%,达到了与当前最先进的目标检测器相当的性能。此外,它在多个下游数据集上创造了新的最先进的结果。

Our Method

Preliminaries

  • Query-based object detector

Single-dataset object detection training

Dataset-specific Head with Frozen Classifier

论文的多数据集目标检测框架与任何基于查询的目标检测架构兼容。为了支持多个数据集,为每个数据集设定了一个独特的数据集特定分类头。在这些分类头中,分类器在训练期间是预先提取并且被冻结的。

Object detector with dataset-specific classification head

Frozen classifiers with a shared semantic space

Class-Aware Query Compositor

Object query generation

作为基于查询的目标检测器的核心组件,目标查询生成在单数据集训练中得到了广泛的研究,产生了多种类型,基于它们与图像的独立性。在多数据集目标检测中,由于涉及的多个数据集的多样性,初始化目标查询变得更加重要,这超出了单数据集目标检测中查询初始化的范围。

在单数据集目标检测中,查询通常是随机初始化或根据数据集特定的Top-K分数从输入图像特征图生成的(见图4ab)。在对多数据集目标检测的初步实验中,从编码器(图2中的Def-DETR++)中选择Top-K像素特征导致性能显著下降,而相比之下,单数据集训练的性能更好。这是因为图像内的Top-K候选对象在很大程度上依赖于数据集分类法,并且与数据集密切相关。过于强烈的数据集先验使检测器向特定于数据集的解码倾斜,从而阻碍了解码器充分利用多个数据集进行全面学习。相反,数据集无关的查询初始化(图2中的Def-DETR)在所有数据集之间共享相同的可学习目标查询。

基于这些观察和见解,论文提出了一种新颖的多数据集目标检测查询初始化方法(见图4c)。类感知查询初始化既不是数据集无关的,也不是强烈依赖数据集的,而是依赖于与数据集和图像相关的弱先验。

Training with Hardness-indicated Sampling

除了上述的检测器架构调整以适应多个数据集外,训练一个多数据集检测器还带来了额外的挑战,这些挑战源于数据集分布、图像数量、标签空间大小等方面的显著差异。

虽然特定于数据集的损失可以适应每个数据集的内部特征,但数据集之间的显著差异,例如数据集大小的差异,带来了必须解决的训练挑战。因此,论文提出了一种硬度指示的采样策略,以平衡不同数据集之间的图像数量,并在在线训练过程中动态评估数据集的难度。

Experiment

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

标签:24,极市,训练,ECCV,检测,检测器,目标,Plain,数据
From: https://blog.csdn.net/csdn_xmj/article/details/143081991

相关文章

  • 2024-2025-1 20241425《计算机基础与程序设计》第6周学习总结
    2024-2025-120241425《计算机基础与程序设计》第6周学习总结作业信息这个作业属于哪个课程2024-2025-1-计算机基础与程序设计这个作业要求在哪里https://edu.cnblogs.com/campus/besti/2024-2025-1-CFAP/homework/13276这个作业的目标计算机科学概论(第七版)第7章......
  • COMP2404 Introduction to Software Engineering
    COMP2404-“IntroductiontoSoftwareEngineering”Assignment31SubmissionInstructionsSubmittoBrightspaceonorbeforetheduedateacompressedfile(.taror.zip)thatincludesHeaderandsourcefilesforallclassesinstructedbelow.AworkingM......
  • 24.11.2
    (填空题)软件复用的优点有()、()、()、()。(1)提高生产率(2)减少维护代价(3)提高互操作性(4)支持快速原型2. (填空题)依据复用的对象,软件复用分为()和()。(1)产品复用(2)过程复用3. (填空题)最常用的可复用设计是()和()。(1)架构模式(2)设计模式4. (填空题)框架方法包括:()......
  • HOOPS Publish SDK 2024.7.0
    通过使用HOOPSPublishSDK向您的工程应用程序添加交互式3DPDF、HTML和标准CAD格式导出(包括STEPAP242、JT10、IGES、STL和3MF),增强您的工程应用程序。用于创建丰富工程文档的3DCAD发布SDKHOOPSPublishSDK可帮助开发人员快速扩展其工程数据的范围,并具有导......
  • NOIP2024模拟赛21
    省流:没过T1,玩了1h俄罗斯,不好评价。还好T3一个小时写完了平方暴力,还没菜到离谱,感觉这才是一个正常的分数。但是好像正解要不到1h?T2的dp优化是我弱项,做不出正常,spdarkle是真逆天。怎么一眼的怎么一眼的怎么一眼的怎么一眼的怎么一眼的怎么一眼的怎么一眼的。发现后面又......
  • 20222407 2024-2025-1 《网络与系统攻防技术》实验四实验报告
    (一)实践目标恶意代码文件类型标识、脱壳与字符串提取对提供的rada恶意代码样本,进行文件类型识别,脱壳与字符串提取,以获得rada恶意代码的编写作者,具体操作如下:o使用文件格式和类型识别工具,给出rada恶意代码样本的文件格式、运行平台和加壳工具;o使用超级巡警脱壳机等脱壳软件,对rad......
  • 公司用什么软件来监控电脑?2024年4款公司内部电脑监控软件精选推荐
    公司内部电脑的安全与效率管理成为企业不可忽视的重要任务。电脑监控软件作为一种有效的管理工具,能够帮助企业实时监控员工电脑使用情况,提升工作效率,并保障数据安全。以下是2024年四款值得推荐的公司内部电脑监控软件,它们各具特色,能够满足不同企业的需求。1.安企神安......
  • 电脑监控软件|2024年办公电脑监控必备:7款好物推荐
    如何高效地管理办公电脑,确保员工的工作效率与数据安全,已成为企业面临的重要课题。电脑监控软件作为一种有效的管理工具,能够帮助企业实时监控员工电脑使用情况,优化工作流程,并保障信息安全。以下是2024年七款必备的办公电脑监控软件,它们各具特色,能够满足不同企业的需求。......
  • PyCharm 2024.1 解锁版 (Python集成开发IDE)详细安装步骤
    分享文件:PyCharm2024.1解锁版(Python集成开发IDE)链接:https://pan.xunlei.com/s/VOAa_CiVVvZnyQgLfpmCIOABA1提取码:cx4h安装步骤1、下载解压后点击如下进行安装2、选择安装路径3、默认勾选将PyCharm创建桌面快捷方式4、默认,点击【安装】5、安装中,耐心等待2-5分......
  • 20241030每日一题洛谷P1147
    普及-每日一题洛谷P1147题目描述对一个给定的正整数\(M\),求出所有的连续的正整数段(每一段至少有两个数),这些连续的自然数段中的全部数之和为\(M\)。例子:\(1998+1999+2000+2001+2002=10000\),所以从\(1998\)到\(2002\)的一个自然数段为\(M=10000\)的一个解。输入格式......