本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。
原文链接:ECCV'24|Plain-Det:同时支持多数据集训练的新目标检测
极市导读
论文提出了Plain-Det,提供了灵活性以适应新的数据集,具有跨多样数据集的稳健性能、训练效率和与各种检测架构的兼容性。结合Def-DETR和Plain-Det,在COCO上达到51.9的mAP,匹配当前最先进的检测器。在13个下游数据集上进行了广泛的实验,Plain-Det展现了强大的泛化能力。
近期在大规模基础模型上的进展引发了对训练高效大型视觉模型的广泛关注。一个普遍的共识是必须聚合大量高质量的带注释数据。然而,鉴于计算机视觉中密集任务(如目标检测和分割)标注的固有挑战,实际的策略是结合并利用所有可用的数据进行训练。
论文提出了Plain-Det
,提供了灵活性以适应新的数据集,具有跨多样数据集的稳健性能、训练效率和与各种检测架构的兼容性。结合Def-DETR
和Plain-Det
,在COCO
上达到51.9
的mAP
,匹配当前最先进的检测器。在13
个下游数据集上进行了广泛的实验,Plain-Det
展现了强大的泛化能力。
-
论文地址:https://arxiv.org/abs/2407.10083
-
论文代码:https://github.com/SooLab/Plain-Det
Introduction
大规模数据集促进了计算机视觉的显著进步,从用于图像分类的ImageNet
到最近的图像分割数据集SA-1B
。目标检测作为计算机视觉中的基本任务之一,固有地需要大规模的带注释数据。然而,注释如此广泛和密集的对象既昂贵又具有挑战性。另一种直接且实用的方法是统一多个现有的目标检测数据集,以训练一个统一的目标检测器。然而,数据集之间的不一致性,例如如图1a
所示的不同分类法和数据分布,给多数据集训练带来了挑战。
论文旨在解决使用多个目标检测数据集训练一个有效且统一的检测器所面临的挑战,期望该检测器应具备以下特性:
-
对新数据集具有灵活性,以无缝且可扩展的方式进行适应,而不需要手动调整、复杂设计或从头开始训练。
-
在逐渐引入新数据集时性能具有稳健性,始终能够提高性能,或者至少保持稳定的性能。
-
训练效率。多数据集训练所需的训练迭代次数不应超过单一数据集的训练次数。
-
与检测系列的兼容性,例如
Faster-RCNN
系列和基于DETR
的检测架构。
首先,引入一个简单而灵活的多数据集目标检测基线,这大胆挑战了一些近期的设计原则,同时保持其他进展。近期的研究明确将不同数据集之间的分类法统一为一个单一的统一分类法。然而,尽管它们采用了自动化方法,但仍然需要精心设计的组件,并在扩展到更多数据集时缺乏灵活性。这主要是因为1
) 从数据集特定标签空间到统一标签空间的映射自动学习后,随着标签空间大小的增长变得越来越嘈杂;2
) 结合新数据集需要重构统一的分类法。
因此,论文引入一个共享检测器,拥有完全数据集特定的分类头,以自然地防止不同分类法之间的冲突,并确保灵活性。此外,利用类别标签的文本嵌入构建所有标签的共享语义空间。值得注意的是,语义空间隐式地建立了来自不同分类器的标签之间的连接,使得尽管有数据集特定的分类头,仍然能够充分利用所有训练数据。尽管多数据集基线模型展示了灵活性,但其性能显著低于单一数据集目标检测器。
为此,论文探讨了影响基线成功的关键因素,并提供了三个见解,以使其不仅具有超强的灵活性,同时也具有高度的有效性:
-
Semantic space calibration
语义空间校准的灵感源于质疑使用固定文本嵌入的分类器是否适用于目标检测。图1b
的origin
展示了类别之间文本嵌入的相似性矩阵,这与由可学习分类权重生成的矩阵(图1b
的learnable
)明显不同。
这种偏差源于CLIP
的训练数据分布,例如CLIP
中的文本-图像对通常在名词频率上表现出长尾分布。这导致频繁出现的名词(如图1b
中的person
)的文本嵌入与其他词(包括NULL
)之间具有高相似性。反过来,论文发现不常出现的NULL
与频繁出现的词具有高相似性,而与不常出现的词具有低相似性。
因此,可以将空字符串NULL
视为一个无意义的基准,以提取受频率驱动的基准,从而得到图1b
的modified
中所示的校准相似性矩阵。
-
Sparse proposal generation
在目标检测中,目标提案生成至关重要,尤其是在多数据集场景下。这是因为相同的目标提案用作锚点,以预测不同数据集的不同目标集。例如,虽然COCO
和LVIS
共享相同的图像集,但标注类别存在显著差异。这要求在同一图像中相同的目标提案能够锚定来自COCO
的80
个类别和LVIS
的1203
个类别的不同目标。
目前,目标提案生成方法大致可分为两种类型:1
) 密集或从密集到稀疏的提案生成,生成跨越所有图像网格的提案或从密集提案中选择一个小子集,以及2
) 稀疏提案生成,通常直接生成一组可学习的提案(见图2a
)。
因此,论文对这两种类型的提案生成方法在COCO
和LVIS
数据集的多数据集目标检测中进行了初步实验和比较。结果表明,稀疏提案生成方法在两个目标检测器系列中始终优于密集方法,如图2b
所示。一个可能的原因是,与密集提案生成相比,稀疏提案(即稀疏查询)被证明能够捕捉数据集的分布,使得从多个数据集中学习联合分布变得更加容易。然而,由于需要相同的查询来捕捉不同数据集的先验,多数据集训练的性能仍低于单数据集训练。
因此,论文基于统一的语义空间和图像先验改进稀疏查询为类感知查询,这缓解了一组查询必须适应多个数据集的挑战。
-
Dynamic sampling strategy inspired by the emergent property
尽管上述两个见解解锁了在像COCO
和LVIS
这样的多个数据集上训练统一检测器的潜力,但纳入数据集Objects365
会导致训练过程中检测性能的大幅波动(如图2b
的static sampler
),主要是由于数据集大小的不平衡(见图2c
)。
令人惊讶的是,论文观察到,即使在某次迭代中检测器在某个数据集上的精度较低,它也可以通过对该特定数据集进行几次额外的训练迭代显著提高其精度(如图2b
的emergent
)。论文将这一现象归因于多数据集检测训练的涌现特性:在多个数据集上训练的检测器,固有地具备比单一数据集训练更一般化的检测能力,并且这种能力可以通过几次特定于数据集的迭代被激活并适应特定的数据集。
受到这一特性的启发,论文提出了一种动态采样策略,以在不同数据集之间实现更好的平衡,该策略在后续迭代中根据先前观察到的数据集特定损失动态调整多数据集采样策略。
最后,论文提出了Plain-Det
,这是一种简单但有效的多数据集目标检测器,得益于基线的灵活性,可以通过直接将上述三项见解应用于基线来轻松实现。
总而言之,论文的贡献为:
-
提供了三项关键见解,以应对多数据集目标检测训练的挑战,包括标签空间的校准、稀疏查询的应用和改进,以及少量迭代的特定数据集训练的涌现特性。
-
基于这三项见解,提出了一种简单但灵活的多数据集检测框架,称为
Plain-Det
,满足以下标准:能够灵活适应新数据集、在不同数据集上表现出良好的鲁棒性、训练效率高,以及与各种检测架构兼容。 -
将
Plain-Det
集成到Def-DETR
模型中,并在公共数据集上进行联合训练,这些数据集包含2,249
个类别和400
万张图像。这一集成将Def-DETR
模型在COCO
上的mAP
性能从46.9%
提升至51.9%
,达到了与当前最先进的目标检测器相当的性能。此外,它在多个下游数据集上创造了新的最先进的结果。
Our Method
Preliminaries
-
Query-based object detector
Single-dataset object detection training
Dataset-specific Head with Frozen Classifier
论文的多数据集目标检测框架与任何基于查询的目标检测架构兼容。为了支持多个数据集,为每个数据集设定了一个独特的数据集特定分类头。在这些分类头中,分类器在训练期间是预先提取并且被冻结的。
Object detector with dataset-specific classification head
Frozen classifiers with a shared semantic space
Class-Aware Query Compositor
Object query generation
作为基于查询的目标检测器的核心组件,目标查询生成在单数据集训练中得到了广泛的研究,产生了多种类型,基于它们与图像的独立性。在多数据集目标检测中,由于涉及的多个数据集的多样性,初始化目标查询变得更加重要,这超出了单数据集目标检测中查询初始化的范围。
在单数据集目标检测中,查询通常是随机初始化或根据数据集特定的Top-K
分数从输入图像特征图生成的(见图4a
和b
)。在对多数据集目标检测的初步实验中,从编码器(图2
中的Def-DETR
++)中选择Top-K
像素特征导致性能显著下降,而相比之下,单数据集训练的性能更好。这是因为图像内的Top-K
候选对象在很大程度上依赖于数据集分类法,并且与数据集密切相关。过于强烈的数据集先验使检测器向特定于数据集的解码倾斜,从而阻碍了解码器充分利用多个数据集进行全面学习。相反,数据集无关的查询初始化(图2
中的Def-DETR
)在所有数据集之间共享相同的可学习目标查询。
基于这些观察和见解,论文提出了一种新颖的多数据集目标检测查询初始化方法(见图4c
)。类感知查询初始化既不是数据集无关的,也不是强烈依赖数据集的,而是依赖于与数据集和图像相关的弱先验。
Training with Hardness-indicated Sampling
除了上述的检测器架构调整以适应多个数据集外,训练一个多数据集检测器还带来了额外的挑战,这些挑战源于数据集分布、图像数量、标签空间大小等方面的显著差异。
虽然特定于数据集的损失可以适应每个数据集的内部特征,但数据集之间的显著差异,例如数据集大小的差异,带来了必须解决的训练挑战。因此,论文提出了一种硬度指示的采样策略,以平衡不同数据集之间的图像数量,并在在线训练过程中动态评估数据集的难度。
Experiment
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。
标签:24,极市,训练,ECCV,检测,检测器,目标,Plain,数据 From: https://blog.csdn.net/csdn_xmj/article/details/143081991