2021年10月提交的原论文《Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection》
一. 研究背景
- 研究问题:这篇文章要解决的问题是如何更好地表示对象的形状和位置,以便在目标检测任务中提高检测精度。传统的水平边界框(HBB)和定向边界框(OBB)在处理非对齐矩形对象时存在局限性。
- 研究难点:该问题的研究难点包括:如何在对象形状不规则的情况下提供更为精确的表示方法,以及如何设计一种适用于现有目标检测器的损失函数,使其能够无缝集成。
- 相关工作:该问题的研究相关工作有:HBB和OBB作为对象表示方法的广泛应用,iou及其变体(如GIoU、DIoU、CIoU)作为回归损失的探索,以及将OBB映射到高斯分布并探索高斯Wasserstein距离(GWD)作为回归损失的方法。
二. 研究方法
这篇论文提出了使用高斯边界框(Gaussian Bounding Boxes, GBB)来模糊表示对象区域,并提出了一种基于Hellinger距离的概率交并比(Probabilistic Intersection-over-Union, ProbIoU)作为相似性度量。具体来说,
- 高斯边界框(GBB):首先,使用二维高斯分布来表示对象的模糊区域。高斯分布由均值向量 μ=(x0,y0)T 和协方差矩阵 Σ 描述,它们诱导出期望的二维椭圆形状。协方差矩阵可以通过以下公式表示: 其中 Rθ 是二维旋转矩阵。
- 概率交并比(ProbIoU):其次,提出了一种基于Hellinger距离的相似性度量,称为ProbIoU。Hellinger距离定义 其中 Bc是Bhattacharyya系数。ProbIoU可以表示为 1−HD(p,q),并且具有以下优点:
- 满足所有距离度量标准。
- 对象缩放不变。
- 提供闭式的解析表达式。
- 回归损失函数:最后,提出了两种基于ProbIoU的损失函数: 这些损失函数都是可微的,并且当 p=q 时达到最小值零。
三. 实验设计
- 数据集:实验使用了多个数据集,包括PASCAL VOC 2007、DOTA v1和HRSC2016。这些数据集包含了不同类型的对象,具有不同的标注方式(HBB、OBB或分割掩码)。
- 对比方法:实验对比了使用传统HBB和OBB的目标检测器,以及基于ProbIoU的损失函数。具体模型包括EfficientDet和SSD(用于HBB),RetinaNet和R3 Det(用于OBB)。
- 训练设置:实验中使用了Adam优化器和随机梯度下降(SGD)优化器。训练过程中,模型在前半部分使用 L2 损失,后半部分切换到 L1损失。
四. 结果与分析
-
不同对象表示的比较:在COCO 2017数据集上,GBB诱导的椭圆形状与分割掩码的IoU值高于HBB和OBB。具体来说,77个类别的中位IoU值高于HBB和OBB,仅有3个类别的中位IoU值低于0.5。
-
HBB目标检测的结果:在PASCAL VOC 2007数据集上,使用ProbIoU作为评估指标的EfficientDet D0和SSD300模型的AP75值分别为56.76和72.39,均优于其他损失函数。
-
OBB目标检测的结果:在DOTA v1数据集上,使用R-50 RetinaNet检测器,基于ProbIoU的损失函数的平均AP50值为88.80,高于GWD-ret的88.77。在HRSC2016数据集上,使用R-50 RetinaNet检测器,基于ProbIoU的损失函数的AP75值为61.32,高于GWD-ret和GWD-rep。
五. 总体结论
这篇论文提出了一种基于高斯分布的对象表示方法(GBB)和一种新的相似性度量(ProbIoU),并展示了其在目标检测任务中的有效性。实验结果表明,基于ProbIoU的损失函数在大多数情况下优于传统的iou损失函数,并且在处理定向对象检测时表现出色。未来的工作将进一步探索其他统计方法用于比较GBB,并扩展GBB到三维空间以进行体积对象检测。
六. 创新点
- 高斯边界框(GBB)表示:提出了使用高斯分布来模糊表示对象区域,提供了隐式的二进制表示(可能是旋转的椭圆)。
- 概率交并比(ProbIoU):基于Hellinger距离提出了一种相似性度量,称为概率交并比(ProbIoU),可以视为一种概率形式的IoU。
- 实验结果:实验结果表明,提出的GBB表示比传统的HBB和OBB更接近标注的分割掩码。
- 回归损失函数:提出了基于ProbIoU的损失函数,这些函数直观、可微、计算简单,并且可以无缝集成到现有的使用HBB或OBB的对象检测器中。
- 通用性:提出的表示方法不仅适用于传统的HBB和OBB,还可以直接应用于分割掩码,具有更强的通用性。
- 两阶段训练协议:建议了一种两阶段训练协议,先使用L2进行初步对齐,然后切换到L1以更好地拟合GBB。
七. 不足点
- 方向限制:GBB的方向是从椭圆形表示继承而来的,因此各向同性的高斯分布不能定向(不像方形的OBB)。
- 极细长对象的挑战:对于非常细长的对象,参数a或b可能会非常小,这可能导致在比较不对齐的GBB时,Bhattacharyya距离产生非常大的梯度,从而在训练过程中引起不稳定甚至收敛失败。
- 权重设置问题:尽管提出了两阶段训练协议,但仍然存在正确设置损失权重的问题,模型对权重的选择更为敏感。
- 三维扩展:计划探索GBB的三维版本,用于体积对象检测。