首页 > 编程语言 >yolov8 obb算法中的GBB和ProbIoU核心内容

yolov8 obb算法中的GBB和ProbIoU核心内容

时间:2024-09-14 13:25:23浏览次数:3  
标签:GBB obb 对象 ProbIoU OBB 损失 HBB

2021年10月提交的原论文《Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection》

一. 研究背景

  1. 研究问题:这篇文章要解决的问题是如何更好地表示对象的形状和位置,以便在目标检测任务中提高检测精度。传统的水平边界框(HBB)和定向边界框(OBB)在处理非对齐矩形对象时存在局限性。
  2. 研究难点:该问题的研究难点包括:如何在对象形状不规则的情况下提供更为精确的表示方法,以及如何设计一种适用于现有目标检测器的损失函数,使其能够无缝集成。
  3. 相关工作:该问题的研究相关工作有:HBB和OBB作为对象表示方法的广泛应用,iou及其变体(如GIoU、DIoU、CIoU)作为回归损失的探索,以及将OBB映射到高斯分布并探索高斯Wasserstein距离(GWD)作为回归损失的方法。

 

二. 研究方法

这篇论文提出了使用高斯边界框(Gaussian Bounding Boxes, GBB)来模糊表示对象区域,并提出了一种基于Hellinger距离的概率交并比(Probabilistic Intersection-over-Union, ProbIoU)作为相似性度量。具体来说,

  1. 高斯边界框(GBB):首先,使用二维高斯分布来表示对象的模糊区域。高斯分布由均值向量 μ=(x0,y0)T 和协方差矩阵 Σ 描述,它们诱导出期望的二维椭圆形状。协方差矩阵可以通过以下公式表示:

    其中 Rθ​ 是二维旋转矩阵。
  2. 概率交并比(ProbIoU):其次,提出了一种基于Hellinger距离的相似性度量,称为ProbIoU。Hellinger距离定义 其中 Bc是Bhattacharyya系数。ProbIoU可以表示为 1−HD(p,q),并且具有以下优点:
    • 满足所有距离度量标准。
    • 对象缩放不变。
    • 提供闭式的解析表达式。
  3. 回归损失函数:最后,提出了两种基于ProbIoU的损失函数:

     这些损失函数都是可微的,并且当 p=q 时达到最小值零。

 

三. 实验设计

  1. 数据集:实验使用了多个数据集,包括PASCAL VOC 2007、DOTA v1和HRSC2016。这些数据集包含了不同类型的对象,具有不同的标注方式(HBB、OBB或分割掩码)。
  2. 对比方法:实验对比了使用传统HBB和OBB的目标检测器,以及基于ProbIoU的损失函数。具体模型包括EfficientDet和SSD(用于HBB),RetinaNet和R3 Det(用于OBB)。
  3. 训练设置:实验中使用了Adam优化器和随机梯度下降(SGD)优化器。训练过程中,模型在前半部分使用 L2 损失,后半部分切换到 L1损失。

 

四. 结果与分析

  1. 不同对象表示的比较:在COCO 2017数据集上,GBB诱导的椭圆形状与分割掩码的IoU值高于HBB和OBB。具体来说,77个类别的中位IoU值高于HBB和OBB,仅有3个类别的中位IoU值低于0.5。

  2. HBB目标检测的结果:在PASCAL VOC 2007数据集上,使用ProbIoU作为评估指标的EfficientDet D0和SSD300模型的AP75值分别为56.76和72.39,均优于其他损失函数。

  3. OBB目标检测的结果:在DOTA v1数据集上,使用R-50 RetinaNet检测器,基于ProbIoU的损失函数的平均AP50值为88.80,高于GWD-ret的88.77。在HRSC2016数据集上,使用R-50 RetinaNet检测器,基于ProbIoU的损失函数的AP75值为61.32,高于GWD-ret和GWD-rep。

五. 总体结论

这篇论文提出了一种基于高斯分布的对象表示方法(GBB)和一种新的相似性度量(ProbIoU),并展示了其在目标检测任务中的有效性。实验结果表明,基于ProbIoU的损失函数在大多数情况下优于传统的iou损失函数,并且在处理定向对象检测时表现出色。未来的工作将进一步探索其他统计方法用于比较GBB,并扩展GBB到三维空间以进行体积对象检测。

六. 创新点

  1. 高斯边界框(GBB)表示:提出了使用高斯分布来模糊表示对象区域,提供了隐式的二进制表示(可能是旋转的椭圆)。
  2. 概率交并比(ProbIoU):基于Hellinger距离提出了一种相似性度量,称为概率交并比(ProbIoU),可以视为一种概率形式的IoU。
  3. 实验结果:实验结果表明,提出的GBB表示比传统的HBB和OBB更接近标注的分割掩码。
  4. 回归损失函数:提出了基于ProbIoU的损失函数,这些函数直观、可微、计算简单,并且可以无缝集成到现有的使用HBB或OBB的对象检测器中。
  5. 通用性:提出的表示方法不仅适用于传统的HBB和OBB,还可以直接应用于分割掩码,具有更强的通用性。
  6. 两阶段训练协议:建议了一种两阶段训练协议,先使用L2进行初步对齐,然后切换到L1以更好地拟合GBB。

七. 不足点

  1. 方向限制:GBB的方向是从椭圆形表示继承而来的,因此各向同性的高斯分布不能定向(不像方形的OBB)。
  2. 极细长对象的挑战:对于非常细长的对象,参数a或b可能会非常小,这可能导致在比较不对齐的GBB时,Bhattacharyya距离产生非常大的梯度,从而在训练过程中引起不稳定甚至收敛失败。
  3. 权重设置问题:尽管提出了两阶段训练协议,但仍然存在正确设置损失权重的问题,模型对权重的选择更为敏感。
  4. 三维扩展:计划探索GBB的三维版本,用于体积对象检测。

标签:GBB,obb,对象,ProbIoU,OBB,损失,HBB
From: https://blog.csdn.net/boboly186/article/details/142201657

相关文章

  • D. Sakurako's Hobby
    原题链接题意每个数要么黑色,要么白色,每个数都有跳往下一个数,请问你最多能得到几个黑色数?分析前往下一个数具有很强的指示性,所以我们可以画一个有向图出来那么问题就变成了一个有向图,问图中的每个点最多能到达几个黑色的点?(只有一个出边)但是注意本题,由于是排列,每个点最多只有......
  • YOLOv8改进 | 模块缝合 | C2f融合多尺度表征学习模块 【含OD、RTDETR、OBB等yaml文件
    秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转......
  • SP368 CSTREET - Cobbled streets 题解
    题意选n−1条道路连接n个城市,且使得其修建的价格最小。分析最小生成树的模板题,可以用kruskal来做。首先,先将所有的边权从小到大排序。然后,取当前没有选过的,且边权最小的边,判断它连接的两个点是否同属一个集合,如果不是就把他们加到同一个集合中,再记录答案。代码很简单,......
  • SP368 CSTREET - Cobbled streets 题解
    题意选n−1条道路连接n个城市,且使得其修建的价格最小。分析最小生成树的模板题,可以用kruskal来做。首先,先将所有的边权从小到大排序。然后,取当前没有选过的,且边权最小的边,判断它连接的两个点是否同属一个集合,如果不是就把他们加到同一个集合中,再记录答案。代码很简单,......
  • 题解:CF685A Robbers' watch
    题解:CF685ARobbers'watch感觉这题难点主要在理解题意。题意一天\(n\)个小时,一小时\(m\)分钟,手表用\(7\)进制表示时间(位数未填满补前导零),求问这个手表显示的每一位数字都不一样的时刻数量。分析因为是\(7\)进制,所以每一个数字位只可能出现\(0\sim6\)这\(7\)种......
  • cobbler 安装配置
    cobbler安装配置操作系统:openEulerrelease22.031、安装相关包并启动服务yuminstallcobblerdhcp-ysystemctlenable--nowcobblerdhttpdtftpdhcpd2、修改cobbler相关配置cobblercheck此时显示:Thefollowingarepotentialconfigurationitemsthatyo......
  • cobble(linux服务器安装的服务)
    一、cobble简介Cobbler是一个Linux服务器安装的服务,可以通过网络启动(PXE)的方式来快速安装、重装物理服务器和虚拟机,同时还可以管理DHCP,DNS等。Cobbler可以使用命令行方式管理,也提供了基于Web的界面管理工具(cobbler-web),还提供了API接口,可以方便二次开发使用。Cobbler......
  • SpringbBoot的运动鞋交易系统/交易网站/Java/web
    摘要近年来,随着网络产业的飞速发展,人们的日常生活和工作方式也随之发生变化。各行各业正在把常规的工作方式与因特网相融合,于是,网上交易系统亦应运而生。与传统的店铺销售相比,网上运动鞋店具有方便、快捷、信息畅通的特点,交易环节的缩减,使交易成本大为降低,消费者选择购物的......
  • cobbler学习笔记
    介绍CobblerisaversatileLinuxdeploymentservergithub链接:https://github.com/cobbler/cobbler官网:https://cobbler.github.io/文档:https://cobbler.readthedocs.io/en/latest/quickstart-guide.htmlcobblerindocker博客:https://blog.container-solutions.com/cobbl......
  • DroneVehicle数据集标签转换(.xml→.txt yolo_obb)
    1.数据集下载:目录1.数据集下载:2.数据集介绍:3.数据集标签转换1.DroneVehicle转DOTA2.DOTA转YOLO_OBB5.数据集标签可视化DroneVenicle数据集是由天津大学收集、标注的大型无人机航拍车辆数据集。DroneVenicle训练集下载地址:https://pan.baidu.com/s/1ptZCJ1mKYqFnMn......