首页 > 其他分享 >CV再放大招 | YOLOv10:毫秒级实时端到端目标检测开源模型

CV再放大招 | YOLOv10:毫秒级实时端到端目标检测开源模型

时间:2024-05-26 18:29:23浏览次数:23  
标签:卷积 模型 YOLO 性能 AP YOLOv10 CV 端到

探索AI的无限可能,微信关注“AIGCmagic”公众号,让智能科技点亮你的生活

本文作者:AIGCmagic社区   猫先生

5月25日凌晨,由清华多媒体智能组发布YOLOv10:毫秒级实时端到端目标检测开源模型。

项目地址:https://github.com/THU-MIG/yolov10

论文地址:https://arxiv.org/pdf/2405.14458

———————————————————————————————————————————

工作简介

在过去的几年里,YOLO 因其在计算成本和检测性能之间的有效平衡而成为实时目标检测领域的主要范例。然而,后处理对非极大值抑制(NMS)的依赖阻碍了 YOLO 的端到端部署,并对推理延迟产生不利影响。

YOLOv10技术亮点:

  • 研究者对 YOLO 的架构设计、优化目标、数据增强策略等进行探索,取得了显著进展;

  • NMS 极大阻碍 YOLO 的端到端部署,为此,研究者提出NMS-free 训练的一致双分配策略来解决后处理中的冗余预测问题;

  • 通过对 YOLO 中的各个组件进行全面检查,提出模型架构的整体效率-准确性驱动的模型设计策略;

  • 提出轻量级分类头、空间通道解耦下采样和排序引导块设计,以减少明显的计算冗余并实现更高效的架构;

  • 探索大核卷积并提出有效的部分自注意力模块来增强模型能力,在低成本下挖掘性能改进的潜力。

图1:在延迟准确性(左)和大小准确性(右)方面与其他方法的比较
权衡。我们使用官方预训练模型测量端到端延迟。

———————————————————————————————————————————

一、引言

实时目标检测一直是计算机视觉领域的研究重点,其目标是在低延迟下准确预测图像中目标的类别和位置。它被广泛应用于各种实际应用中,包括自动驾驶、机器人导航和物体跟踪等。近年来,研究人员集中精力设计基于CNN的物体检测器以实现实时检测。其中,YOLO 因其在性能和效率之间的巧妙平衡而越来越受欢迎。 YOLO的检测流程由两部分组成:模型前处理和NMS后处理。然而,它们仍然存在缺陷,导致精度-延迟边界不理想。

具体来说,YOLO 在训练过程中通常采用一对多的标签分配策略,即一个真实对象对应多个正样本。尽管产生了优越的性能,但这种方法需要 NMS 在推理过程中选择最佳的正预测。这会减慢推理速度并使性能对 NMS 的超参数敏感,从而阻止 YOLO 实现最佳的端到端部署。

解决这一问题的方法之一是采用最近引入的端到端 DETR 架构。例如,RT-DETR 提出一种高效的混合编码器和不确定性最小的查询选择,将 DETR 推向实时应用领域。然而,部署 DETR 的固有复杂性阻碍了其在准确性和速度之间实现最佳平衡的能力。另一条路线是探索基于 CNN 的检测器的端到端检测,它通常利用一对一分配策略来抑制冗余预测。然而,它们通常会引入额外的推理开销或实现次优的性能。

此外,模型架构设计仍然是 YOLO 的基本挑战,它对准确性和速度产生重要影响。为了实现更高效、更有效的模型架构,研究人员探索了不同的设计策略。针对骨干部分提出了各种主要计算单元以增强特征提取能力,包括DarkNet ,CSPNet,EfficientRep和ELAN等。对于颈部,PAN 、BiC、GD和RepGFPN等探索增强多尺度特征融合。此外,还研究了模型缩放策略和重新参数化技术。虽然这些努力取得了显著的进步,但仍然缺乏从效率和准确性角度对 YOLO 中各个组件进行全面检查。

因此,YOLO 中仍然存在相当大的计算冗余,导致参数利用率低下和效率欠佳。此外,由此产生的模型能力受限也会导致性能较差,从而为精度改进留下了足够的空间。

在这项工作中,目标是解决这些问题并进一步提高 YOLO 的准确性-速度边界。优化整个检测流程中的后处理和模型架构。

为此,首先通过使用双标签分配和一致的匹配度量为NMS-free YOLO 提出一致的双分配策略来解决后处理中的冗余预测问题。它使模型在训练过程中享受丰富而和谐的监督,同时在推理过程中无需使用 NMS,从而获得高效率的竞争性能。其次,通过对 YOLO 中的各个组件进行全面检查,提出模型架构的整体效率-准确性驱动的模型设计策略。为了提高效率,提出轻量级分类头、空间通道解耦下采样和排序引导块设计,以减少明显的计算冗余并实现更高效的架构。为了提高准确性,探索大核卷积并提出有效的部分自注意力模块来增强模型能力,在低成本下挖掘性能改进的潜力。

基于这些方法,成功实现一系列具有不同模型尺度的实时端到端检测器,即YOLOv10-N / S / M / B / L / X。针对目标的标准基准进行了广泛的实验检测,即 COCO,证明 YOLOv10 在跨不同模型规模的计算精度权衡方面可以显著优于以前的最先进模型。

———————————————————————————————————————————

二、相关工作

2.1 实时目标检测器

实时目标检测旨在低延迟下对目标进行分类和定位,这对于实际应用至关重要。在过去的几年里,人们付出了大量的努力来开发高效的检测器。特别是YOLO系列脱颖而出,成为主流YOLOv1、YOLOv2和YOLOv3确定由三部分组成的典型检测架构,即骨干、颈部和头部。 YOLOv4和YOLOv5引入了CSPNet设计来取代DarkNet,再加上数据增强策略、增强的PAN和更多样的模型尺度等。YOLOv6提出BiC和SimCSPPPF分别针对颈部和脊柱,采用锚定辅助训练和自蒸馏策略。YOLOv7 引入了 E-ELAN 来实现丰富的梯度流路径,并探索了几种可训练的 bag-of-freebies 方法。YOLOv8 提出用于有效特征提取和融合的 C2f 构建块。Gold-YOLO 提供先进的GD机制来增强多尺度特征融合能力。YOLOv9 提出 GELAN 来改进架构,并提出 PGI 来增强训练过程。

2.2 端到端目标检测器

端到端对象检测已经成为传统管道的范式转变,提供了简化的架构。DETR引入了 transformer 架构,并采用匈牙利损失来实现一对一匹配预测,从而消除手工制作的组件和后处理。从那时起,人们提出了各种 DETR 变体来增强其性能和效率。Deformable-DETR 利用多尺度可变形注意模块来加速收敛速度。DINO 将对比去噪、混合查询选择和前瞻两次方案集成到 DETR 中。RT-DETR 进一步设计了高效的混合编码器,并提出了不确定性最小的查询选择,以提高准确性和延迟。实现端到端目标检测的另一条路线是基于 CNN 检测器。可学习的 NMS 和关系网络提出另一个网络来删除检测器的重复预测。OneNet 和 DeFCN 提出一对一匹配策略,以通过全卷积网络实现端到端对象检测。FCOSpss引入了正样本选择器来选择最佳样本进行预测。

———————————————————————————————————————————

三、模型结构

图 2:(a)  NMS-free 训练的一致双重分配。(b) YOLOv8-S 采用

标签:卷积,模型,YOLO,性能,AP,YOLOv10,CV,端到
From: https://blog.csdn.net/AIGCmagic/article/details/139217937

相关文章

  • Nexus未授权目录穿越漏洞(CVE-2024-4956)
    漏洞描述该漏洞允许远程攻击者通过构造特制的HTTP请求,在未经身份验证的情况下访问系统文件,该漏洞由于应用程序在处理文件路径输入时没有进行严格的验证和过滤,导致攻击者可以通过特定的目录穿越字符序列访问到应用程序根目录之外的文件fofaapp="Nexus-Repository-Manager"POCG......
  • opencv超级像素示例
       /**createSuperpixelLSC(cv::InputArrayimg,intregion_size,floatratio)其中各个参数意义如下:    image:输入图像    region_size:平均超像素大小,默认10    ratio:超像素紧凑度因子,默认0.075*/voidsuperpixelLSC(constMat&img){cv::Ptr<......
  • Python OpenCV #1 - OpenCV介绍
    一、OpenCV介绍1.1OpenCV-Python教程简介OpenCV由GaryBradsky于1999年在英特尔创立,第一个版本于2000年发布。VadimPisarevsky加入了GaryBradsky,管理英特尔的俄罗斯软件OpenCV团队。2005年,OpenCV被用于斯坦利,这辆车赢得了2005年DARPA大挑战赛。后来,在WillowGarage的支......
  • Ubuntu16.04 opencv环境搭建(C++)
    Ubuntu下vscode跑opencv程序环境搭建。目录1ubuntu查看opencv版本2下载opencv包3依赖配置4进入安装包内执行5配置环境变量6VScode配置-下载c++扩展7编译运行helloworld8在vscode中配置opencv环境9运行结果1ubuntu查看opencv版本pkg-config--modversion......
  • EasyCVR视频管理平台存在任意用户添加漏洞
    漏洞描述攻击者可以通过发送特定的POST请求,利用未授权访问的接口'/api/v1/adduser',在系统中添加任意用户,并将其设置为管理员角色。fofaapp="EasyCVR-视频管理平台"pocpassword为md5加密POST/api/v1/adduserHTTP/1.1Host:xxx.xxx.xxx.xxxContent-Type:application/x-ww......
  • Gradio存在任意文件读取漏洞(CVE-2024-1561)
    漏洞描述该漏洞是Gradio应用中的一个高危漏洞,其出现在'component_server'端点,允许攻击者调用'Component'类的任意方法,并利用'Block'类的'move_resource_to_block_cache()'方法在文件系统上复制任意文件到临时目录,随后可将其检索。这是的攻击者能够在未经授权的情况下读取本地文件......
  • 利用Python+OpenCV实现截图匹配图像,支持自适应缩放、灰度匹配、区域匹配、匹配多个结
    一、依赖安装pipinstallopencv-pythonpipinstallpyautogui二、获取系统缩放比例注意:必须先通过ctypes获取wid之后才能导入pyautogui,如果需要在其它代码中引用该模块,最好把获取分辨率这部分代码放到程序入口处,然后传递给识图函数,避免提前导入pyautogui导致获取分辨率失......
  • 基于条件风险价值CVaR的微网动态定价与调度策略(Matlab代码实现)
    ......
  • 端到端自适应大规模分布式训练技术
    端到端自适应大规模分布式训练技术随着2020年GPT-31750亿超大语言预训练模型的提出,语言、视觉、多模态等领域也随即发布多种超大规模预训练模型,不仅模型参数量越来越大,训练数据量和计算量也相应变大。针对大规模稠密参数模型高效训练问题,飞桨于2021年初在业内首发4D混合......
  • 春秋CVE-2022-23906
    简介CMSMadeSimplev2.2.15被发现包含通过上传图片功能的远程命令执行(RCE)漏洞。此漏洞通过精心制作的图像文件被利用。正文1.进入靶场2.进入登录界面,弱口令admin/1234563.进入后台,文件上传点4.上传一句话木马图片5.复制图片,后缀改为php6.蚁剑连接7.得到flag......