yolov8 obb算法中的GBB和ProbIoU核心内容

2021年10月提交的原论文《Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection》

一. 研究背景

研究问题：这篇文章要解决的问题是如何更好地表示对象的形状和位置，以便在目标检测任务中提高检测精度。传统的水平边界框（HBB）和定向边界框（OBB）在处理非对齐矩形对象时存在局限性。
研究难点：该问题的研究难点包括：如何在对象形状不规则的情况下提供更为精确的表示方法，以及如何设计一种适用于现有目标检测器的损失函数，使其能够无缝集成。
相关工作：该问题的研究相关工作有：HBB和OBB作为对象表示方法的广泛应用，iou及其变体（如GIoU、DIoU、CIoU）作为回归损失的探索，以及将OBB映射到高斯分布并探索高斯Wasserstein距离（GWD）作为回归损失的方法。

二. 研究方法

这篇论文提出了使用高斯边界框（Gaussian Bounding Boxes, GBB）来模糊表示对象区域，并提出了一种基于Hellinger距离的概率交并比（Probabilistic Intersection-over-Union, ProbIoU）作为相似性度量。具体来说，

高斯边界框（GBB）：首先，使用二维高斯分布来表示对象的模糊区域。高斯分布由均值向量 μ=(x0,y0)T 和协方差矩阵 Σ 描述，它们诱导出期望的二维椭圆形状。协方差矩阵可以通过以下公式表示：
其中 Rθ 是二维旋转矩阵。
概率交并比（ProbIoU）：其次，提出了一种基于Hellinger距离的相似性度量，称为ProbIoU。Hellinger距离定义其中 Bc是Bhattacharyya系数。ProbIoU可以表示为 1−HD(p,q)，并且具有以下优点：
- 满足所有距离度量标准。
- 对象缩放不变。
- 提供闭式的解析表达式。
回归损失函数：最后，提出了两种基于ProbIoU的损失函数：
这些损失函数都是可微的，并且当 p=q 时达到最小值零。

三. 实验设计

数据集：实验使用了多个数据集，包括PASCAL VOC 2007、DOTA v1和HRSC2016。这些数据集包含了不同类型的对象，具有不同的标注方式（HBB、OBB或分割掩码）。
对比方法：实验对比了使用传统HBB和OBB的目标检测器，以及基于ProbIoU的损失函数。具体模型包括EfficientDet和SSD（用于HBB），RetinaNet和R3 Det（用于OBB）。
训练设置：实验中使用了Adam优化器和随机梯度下降（SGD）优化器。训练过程中，模型在前半部分使用 L2 损失，后半部分切换到 L1损失。

四. 结果与分析

不同对象表示的比较：在COCO 2017数据集上，GBB诱导的椭圆形状与分割掩码的IoU值高于HBB和OBB。具体来说，77个类别的中位IoU值高于HBB和OBB，仅有3个类别的中位IoU值低于0.5。
HBB目标检测的结果：在PASCAL VOC 2007数据集上，使用ProbIoU作为评估指标的EfficientDet D0和SSD300模型的AP75值分别为56.76和72.39，均优于其他损失函数。
OBB目标检测的结果：在DOTA v1数据集上，使用R-50 RetinaNet检测器，基于ProbIoU的损失函数的平均AP50值为88.80，高于GWD-ret的88.77。在HRSC2016数据集上，使用R-50 RetinaNet检测器，基于ProbIoU的损失函数的AP75值为61.32，高于GWD-ret和GWD-rep。

五. 总体结论

这篇论文提出了一种基于高斯分布的对象表示方法（GBB）和一种新的相似性度量（ProbIoU），并展示了其在目标检测任务中的有效性。实验结果表明，基于ProbIoU的损失函数在大多数情况下优于传统的iou损失函数，并且在处理定向对象检测时表现出色。未来的工作将进一步探索其他统计方法用于比较GBB，并扩展GBB到三维空间以进行体积对象检测。

六. 创新点

高斯边界框（GBB）表示：提出了使用高斯分布来模糊表示对象区域，提供了隐式的二进制表示（可能是旋转的椭圆）。
概率交并比（ProbIoU）：基于Hellinger距离提出了一种相似性度量，称为概率交并比（ProbIoU），可以视为一种概率形式的IoU。
实验结果：实验结果表明，提出的GBB表示比传统的HBB和OBB更接近标注的分割掩码。
回归损失函数：提出了基于ProbIoU的损失函数，这些函数直观、可微、计算简单，并且可以无缝集成到现有的使用HBB或OBB的对象检测器中。
通用性：提出的表示方法不仅适用于传统的HBB和OBB，还可以直接应用于分割掩码，具有更强的通用性。
两阶段训练协议：建议了一种两阶段训练协议，先使用L2进行初步对齐，然后切换到L1以更好地拟合GBB。

七. 不足点

方向限制：GBB的方向是从椭圆形表示继承而来的，因此各向同性的高斯分布不能定向（不像方形的OBB）。
极细长对象的挑战：对于非常细长的对象，参数a或b可能会非常小，这可能导致在比较不对齐的GBB时，Bhattacharyya距离产生非常大的梯度，从而在训练过程中引起不稳定甚至收敛失败。
权重设置问题：尽管提出了两阶段训练协议，但仍然存在正确设置损失权重的问题，模型对权重的选择更为敏感。
三维扩展：计划探索GBB的三维版本，用于体积对象检测。

标签：GBB,obb,对象,ProbIoU,OBB,损失,HBB
From： https://blog.csdn.net/boboly186/article/details/142201657