首页 > 其他分享 >【论文阅读】FCOS: Fully Convolutional One-Stage Object Detection

【论文阅读】FCOS: Fully Convolutional One-Stage Object Detection

时间:2022-10-18 19:11:43浏览次数:110  
标签:Convolutional FCOS based Fully 检测器 boxes 检测 anchor

原始题目:FCOS: Fully Convolutional One-Stage Object Detection
中文翻译:FCOS: 全卷积 One-Stage 目标检测
发表时间:2019年4月2日
平台:arXiv
来源: 澳大利亚 阿德莱德大学
文章链接:https://arxiv.org/abs/1904.01355
开源代码:https://github.com/tianzhi0549/FCOS (官方实现)
https://github.com/open-mmlab/mmdetection

摘要

我们提出了一个 全卷积的一阶段目标检测器(FCOS),以 逐像素(per-pixel)预测的方式 解决目标检测问题,类似于语义分割。

几乎所有先进的目标检测器,如RetinaNet、SSD、YOLOv3 和 Faster R-CNN,都依赖于预定义的 anchor 框。相比之下,我们提出的检测器 FCOS 是 anchor box free ,也是 proposal free

FCOS 通过去掉预定义的 anchor boxes 集合,完全避免了训练过程中与 anchor boxes 相关的复杂计算,如 在训练中计算 overlapping 。更重要的是,我们还避免了所有与 anchor boxes 相关的超参数,对于最终检测性能来说,这些超参数往往非常敏感。在仅使用 非极大值抑制(NMS) 作为后处理方法的情况下,使用 ResNeXt-64x4d-101 作为 backbone 的 FCOS 在单模型、单尺度测试下 AP 中达到 44.7% ,优于以往的 一阶段检测器 的同时也简单得多。我们论证了一个更简单灵活的检测框架,用以提高检测的精度。我们希望所提出的 FCOS框架 可以作为其他实例级任务的简单而强效的替代方案。

1. 引言

目标检测是计算机视觉中一项基础而又具有挑战性的任务,它要求算法对图像中每个感兴趣的实例预测出一个带有类别标签的边界框。

目前主流的所有检测器,如Faster R-CNN, SSD和YOLOv2, v3,都依赖于一组预定义的 anchor boxes ,这长期以来被人们认为是检测器成功的关键。尽管取得了巨大的成功,但值得注意的是,基于 anchor box 的检测器也存在一些缺陷:

1)检测性能对 anchor boxes 的大小、长宽比和数量非常敏感。例如,在RetinaNet中,改变这些超参数对 COCO benchmark 上的性能AP影响高达 4%。因此,这些超参数需要在 anchor-based 的检测器中仔细调整。

2)即使经过精心设计,由于 anchor boxes 的尺度和长宽比保持不变,检测器在处理形状变化较大的候选物体,特别是对于小物体时,会遇到困难。 预先定义的 anchor boxes 还阻碍了检测器的泛化能力,因为它们需要在新的检测任务中重新设计不同的物体大小或长宽比。

3)为了达到高召回率,基于 anchor-based 的检测器需要在输入图像上密集放置 anchor boxes (例如在特征金字塔网络(feature pyramid networks FPN)中,对于短边为 800 的图像,anchor boxes 数量超过180K)。在训练过程中,大多数 anchor boxes 都被标记为负样本。过多的负样本会加剧训练过程中正负样本间的不平衡。

4)anchor boxes 还涉及到复杂的计算,如计算与 ground-truth bounding boxes 的IOU值。

近年来,全卷积网络在语义分割、深度估计、关键点检测和计数等密集预测任务中取得了巨大成功。目标检测作为高级视觉任务之一,由于 anchor boxes 的使用,可能是唯一偏离整洁的全卷积逐像素预测的任务框架。自然会问一个问题:我们能不能用精确的逐像素预测方式来解决目标检测问题,使之类似于语义分割问题的 FCN 网络?从而使得这些基本视觉任务可以统一成单一的框架。答案是肯定的。此外,我们还首次证明,更简单的基于 FCN 的检测器会比基于s anchor-based 的获得更优的性能。

在文献中,一些工作试图利用基于 FCNs 的框架进行对象检测,如 DenseBox。特别是这些基于 FCN 的框架直接预测了特征图中每个空间位置的 4 维向量和类别标签。如图1(左)所示,4 维向量描述了边界框的四个边到像素位置的相对偏移量。这些框架除了每个位置需要回归一个4维 的连续向量外,类似于用于语义分割的 FCNs 。然而,为了处理不同大小的 bounding boxes,DenseBox 要将训练图像裁剪和调整为固定尺度。因此 DenseBox 必须对图像金字塔的图片进行检测,这违背了 FCN 的一次计算所有卷积的理念。此外更重要的是,这些方法主要用于特殊领域的目标检测,如文本或人脸的检测场景,因为这些方法被认为在用于对 bounding boxes 高度重叠的通用目标进行检测时的效果不佳。如图1(右)所示,高度重叠的边界框导致一个棘手的歧义:对于重叠区域中的像素,不清楚要回归于哪个边界框

后续中我们仔细研究了这个问题,并表明在 FPN 中这种歧义性很大程度上被消除。该方法已经取得了与传统 anchor based 的检测器相同的检测精度。此外,我们观察到我们的方法可能在远离目标对象中心的位置产生大量的低质量预测边界框。为了抑制这些低质量的检测,我们引入一个新的 “center-ness” 分支来预测像素与其对应的边界框中心的偏差该得分用于减少低质量检测边界框的比重和用于在 NMS 中对检测结果进行合并。简单而有效的“center-ness” 分支使得基于 FCN 的检测器在完全相同的训练和测试设置下优于 anchor-based 的检测器。

这种新的检测框架具有以下优点:

  • 现在检测可以与许多 FCN 可解决的任务(如语义分割)统一起来,使得对这些任务中的想法重用变得更容易。
  • 检测变成了 proposal free 和 anchor free, 这大大减少了设计参数的数量。设计参数时为了获得良好的性能通常需要启发式调优并使用许多技巧。因此,新的检测框架使得检测器,尤其是它的训练过程,变得相当简单。
  • 通过去除 anchor boxes 的使用,新检测器完全避免了与 anchor boxes 相关的复杂计算,如 IOU计算 和训练过程中 anchor boxes 与 ground-truth boxes 之间的匹配,与 anchor-based 的同类网络相比,它的训练和测试速度更快,训练时内存占用更少。
  • 不吹不黑,我们在一阶段检测器中实现了最优结果。同时提出的 FCOS 可以作为区域提议网络(Region Proposal Networks --RPN)在两阶段检测器中使用,并明显优于 anchor-based 同类 RPN 网络。考虑到更简单的 anchor-free 检测器具有更好的性能,我们鼓励大家重新考虑目标检测中 anchor boxes 的必要性,目前它被认为是检测的标准。
  • 该检测器只需要极小的修改就可以快速扩展到解决其他视觉任务,包括实例分割和关键点检测。相信这种新方法可以成为许多实例范围预测的问题的新 baseline 。

https://zhuanlan.zhihu.com/p/403958990

标签:Convolutional,FCOS,based,Fully,检测器,boxes,检测,anchor
From: https://www.cnblogs.com/odesey/p/16803651.html

相关文章