〔探索AI的无限可能,微信关注“AIGCmagic”公众号,让智能科技点亮你的生活〕
本文作者:AIGCmagic社区 猫先生
5月25日凌晨,由清华多媒体智能组发布YOLOv10:毫秒级实时端到端目标检测开源模型。
项目地址:https://github.com/THU-MIG/yolov10
论文地址:https://arxiv.org/pdf/2405.14458
———————————————————————————————————————————
工作简介
在过去的几年里,YOLO 因其在计算成本和检测性能之间的有效平衡而成为实时目标检测领域的主要范例。然而,后处理对非极大值抑制(NMS)的依赖阻碍了 YOLO 的端到端部署,并对推理延迟产生不利影响。
YOLOv10技术亮点:
-
研究者对 YOLO 的架构设计、优化目标、数据增强策略等进行探索,取得了显著进展;
-
NMS 极大阻碍 YOLO 的端到端部署,为此,研究者提出NMS-free 训练的一致双分配策略来解决后处理中的冗余预测问题;
-
通过对 YOLO 中的各个组件进行全面检查,提出模型架构的整体效率-准确性驱动的模型设计策略;
-
提出轻量级分类头、空间通道解耦下采样和排序引导块设计,以减少明显的计算冗余并实现更高效的架构;
-
探索大核卷积并提出有效的部分自注意力模块来增强模型能力,在低成本下挖掘性能改进的潜力。
———————————————————————————————————————————
一、引言
实时目标检测一直是计算机视觉领域的研究重点,其目标是在低延迟下准确预测图像中目标的类别和位置。它被广泛应用于各种实际应用中,包括自动驾驶、机器人导航和物体跟踪等。近年来,研究人员集中精力设计基于CNN的物体检测器以实现实时检测。其中,YOLO 因其在性能和效率之间的巧妙平衡而越来越受欢迎。 YOLO的检测流程由两部分组成:模型前处理和NMS后处理。然而,它们仍然存在缺陷,导致精度-延迟边界不理想。
具体来说,YOLO 在训练过程中通常采用一对多的标签分配策略,即一个真实对象对应多个正样本。尽管产生了优越的性能,但这种方法需要 NMS 在推理过程中选择最佳的正预测。这会减慢推理速度并使性能对 NMS 的超参数敏感,从而阻止 YOLO 实现最佳的端到端部署。
解决这一问题的方法之一是采用最近引入的端到端 DETR 架构。例如,RT-DETR 提出一种高效的混合编码器和不确定性最小的查询选择,将 DETR 推向实时应用领域。然而,部署 DETR 的固有复杂性阻碍了其在准确性和速度之间实现最佳平衡的能力。另一条路线是探索基于 CNN 的检测器的端到端检测,它通常利用一对一分配策略来抑制冗余预测。然而,它们通常会引入额外的推理开销或实现次优的性能。
此外,模型架构设计仍然是 YOLO 的基本挑战,它对准确性和速度产生重要影响。为了实现更高效、更有效的模型架构,研究人员探索了不同的设计策略。针对骨干部分提出了各种主要计算单元以增强特征提取能力,包括DarkNet ,CSPNet,EfficientRep和ELAN等。对于颈部,PAN 、BiC、GD和RepGFPN等探索增强多尺度特征融合。此外,还研究了模型缩放策略和重新参数化技术。虽然这些努力取得了显著的进步,但仍然缺乏从效率和准确性角度对 YOLO 中各个组件进行全面检查。
因此,YOLO 中仍然存在相当大的计算冗余,导致参数利用率低下和效率欠佳。此外,由此产生的模型能力受限也会导致性能较差,从而为精度改进留下了足够的空间。
在这项工作中,目标是解决这些问题并进一步提高 YOLO 的准确性-速度边界。优化整个检测流程中的后处理和模型架构。
为此,首先通过使用双标签分配和一致的匹配度量为NMS-free YOLO 提出一致的双分配策略来解决后处理中的冗余预测问题。它使模型在训练过程中享受丰富而和谐的监督,同时在推理过程中无需使用 NMS,从而获得高效率的竞争性能。其次,通过对 YOLO 中的各个组件进行全面检查,提出模型架构的整体效率-准确性驱动的模型设计策略。为了提高效率,提出轻量级分类头、空间通道解耦下采样和排序引导块设计,以减少明显的计算冗余并实现更高效的架构。为了提高准确性,探索大核卷积并提出有效的部分自注意力模块来增强模型能力,在低成本下挖掘性能改进的潜力。
基于这些方法,成功实现一系列具有不同模型尺度的实时端到端检测器,即YOLOv10-N / S / M / B / L / X。针对目标的标准基准进行了广泛的实验检测,即 COCO,证明 YOLOv10 在跨不同模型规模的计算精度权衡方面可以显著优于以前的最先进模型。
———————————————————————————————————————————
二、相关工作
2.1 实时目标检测器
实时目标检测旨在低延迟下对目标进行分类和定位,这对于实际应用至关重要。在过去的几年里,人们付出了大量的努力来开发高效的检测器。特别是YOLO系列脱颖而出,成为主流。YOLOv1、YOLOv2和YOLOv3确定由三部分组成的典型检测架构,即骨干、颈部和头部。 YOLOv4和YOLOv5引入了CSPNet设计来取代DarkNet,再加上数据增强策略、增强的PAN和更多样的模型尺度等。YOLOv6提出BiC和SimCSPPPF分别针对颈部和脊柱,采用锚定辅助训练和自蒸馏策略。YOLOv7 引入了 E-ELAN 来实现丰富的梯度流路径,并探索了几种可训练的 bag-of-freebies 方法。YOLOv8 提出用于有效特征提取和融合的 C2f 构建块。Gold-YOLO 提供先进的GD机制来增强多尺度特征融合能力。YOLOv9 提出 GELAN 来改进架构,并提出 PGI 来增强训练过程。
2.2 端到端目标检测器
端到端对象检测已经成为传统管道的范式转变,提供了简化的架构。DETR引入了 transformer 架构,并采用匈牙利损失来实现一对一匹配预测,从而消除手工制作的组件和后处理。从那时起,人们提出了各种 DETR 变体来增强其性能和效率。Deformable-DETR 利用多尺度可变形注意模块来加速收敛速度。DINO 将对比去噪、混合查询选择和前瞻两次方案集成到 DETR 中。RT-DETR 进一步设计了高效的混合编码器,并提出了不确定性最小的查询选择,以提高准确性和延迟。实现端到端目标检测的另一条路线是基于 CNN 检测器。可学习的 NMS 和关系网络提出另一个网络来删除检测器的重复预测。OneNet 和 DeFCN 提出一对一匹配策略,以通过全卷积网络实现端到端对象检测。FCOSpss引入了正样本选择器来选择最佳样本进行预测。
———————————————————————————————————————————