【论文阅读】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

标签：Real Towards Faster 卷积检测网络特征 CNN RPN

原始题目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
中文翻译：Faster R-CNN: 使用区域建议网络实现实时目标检测
发表时间：2015年6月4日
平台：CVPR-2021
来源：微软亚洲研究院(任少卿、何凯明、 Ross Girshick、孙剑)
文章链接：https://arxiv.org/pdf/1506.01497
开源代码：

作者全是大佬！

摘要

最先进的目标检测网络依赖于区域建议算法来假设目标位置。 SPPnet [1] 和 Fast R-CNN [2] 等先进技术减少了这些检测网络的运行时间，使 区域建议计算成为瓶颈。

在这项工作中，我们引入了一个区域提议网络（Region Proposal Network--RPN），它与检测网络共享全图像卷积特征，从而实现几乎 cost-free 的区域建议。

RPN 是一个全卷积网络，可同时预测每个位置的目标边界和目标分数。

RPN 被端到端训练以生成高质量的区域建议，Fast R-CNN 使用这些建议进行检测。

我们通过共享它们的卷积特征进一步将 RPN 和 Fast R-CNN 合并为一个网络——使用最近流行的具有“attention” 机制的神经网络术语，RPN 组件告诉这个 unified 网络在哪里寻找。

对于非常深的 VGG-16 模型 [3]，我们的检测系统在 GPU 上的帧率为 5fps（包括所有步骤），同时在 PASCAL VOC 2007、2012 和MS COCO 数据集，每张图像只有 300 个建议(proposals) 。在 ILSVRC 和 COCO 2015 比赛中，Faster R-CNN 和 RPN 是多个赛道中获得第一名的基础。代码已公开。

有人将 Region Proposal 翻译成候选区域。

区域建议算法有多种，这个可能是第一个区域建议网络。

关键词

目标检测、区域建议、CNN

5. 结论

我们已经提出了 RPNs 用于高效和准确的区域建议生成。通过与下游检测网络共享卷积特征，区域提议步骤几乎是cost-free 。我们的方法使一个 unified、基于深度学习的目标检测系统能够以接近实时的帧率运行。学习到的 RPN 还提高了区域建议的质量，从而提高了整体目标检测的 accuracy 。

1. 引言

目标检测的最新进展是由区域建议方法（例如 [4]）和基于区域的卷积神经网络（RCNN）[5] 的成功推动的。尽管最初在 [5] 中开发的基于区域的 CNNs 在计算上是昂贵的，但由于在提议之间共享卷积，它们的 cost已大大降低 [1],[2] 。最新的版本 Fast R-CNN [2] 在 忽略区域提议所花费的时间时 ，使用非常深的网络 [3] 实现了近乎实时的速率。现在，建议是最先进检测系统中的测试时间计算瓶颈。

区域提议方法通常依赖于廉价的特征和经济的推理方案。选择性搜索（Selective Search） [4] 是最流行的方法之一，它基于（特征）工程的低级特征贪婪地合并超像素。然而，与高效的检测网络 [2] 相比，选择性搜索要慢一个数量级，在 CPU 实现中每张图像需要 2 秒。

EdgeBoxes [6] 目前在建议质量和速度之间提供了最佳权衡，每张图像 0.2 秒。尽管如此，区域提议步骤仍然消耗与检测网络一样多的运行时间。

有人可能会注意到，基于区域的快速 CNNs 利用 GPUs，而研究中使用的区域建议方法是在 CPU 上实现的，这使得这种运行时间比较不公平。加速区域建议计算的一个明显方法是为 GPU 重新实现它。这可能是一种有效的工程解决方案，但重新实现忽略了下游检测网络，因此错过了共享计算的重要机会。

在本文中，我们展示了一种算法变化——使用深度 CNN 计算建议——导致了一个优雅而有效的解决方案，其中建议计算在检测网络的计算下几乎是 cost-free 。为此，我们引入了创新的 Region Proposal Networks (RPNs)，它与最先进的目标检测网络 [1]、[2] 共享卷积层。通过在测试时共享卷积，计算建议的边际成本很小（例如，每张图像 10ms）。

我们的观察是，基于区域的检测器(如 Fast RCNN)，使用的卷积特征图，也可用于生成区域提议。在这些卷积特征之上，我们通过添加一些少的额外的卷积层来构建 RPN，这些卷积层同时在一个规则网格（grid）上每个位置回归区域边界和目标分数（ objectness scores）。因此，RPN 是一种完全卷积网络 (fully convolutional network--FCN) [7]，可以专门针对生成检测建议的任务进行端到端训练。

RPNs 旨在有效地预测具有广泛 scales 和 aspect ratios 的区域建议。与使用图像金字塔（图 1，a）或 filters 金字塔（图 1，b）的流行方法 [8]、[9]、[1]、[2] 相比，我们引入了创新的 “anchor” boxes 作为多种 scales 和 aspect ratios 的参考。我们的方案可以被认为是一个回归参考（regression references）金字塔（图 1，c），它避免了枚举多种 cales 和 aspect ratios 的图像或 filters。 该模型在使用单尺度（single-scale）图像进行训练和测试时表现良好，因此有利于运行速度。

图 1：解决多种 scales 和 sizes 的不同方案。 (a) 构建图像和特征图的金字塔，并在所有 scales 上运行分类器。 (b) 在特征图上运行具有多个 scales/sizes 的 filters 金字塔。 (c) 我们在回归函数中使用 reference boxes 金字塔。

a 图是图像金字塔，构建不同大小的图像输入来提取不同大小的特征图，在不同大小的特征图上就可以进行后续检测，比如可以采用传统的滑动窗口法等。 b 图是使用一张图得到一个特征图，在该特征图上使用不同大小的 filters 进行后面的操作，叫做 filters 金字塔。 c 图是该论文提到的 reference boxes 就是大家说的金字塔，其实这里的 reference boxes 就是大家说的不同大小的 anchors。

为了将 RPN 与 Fast R-CNN [2] 目标检测网络统一（unify）起来，我们提出了一种训练方案，该方案在区域建议任务的 fine-tuning 和目标检测的 fine-tuning 之间交替进行，同时保持 proposals 固定。该方案快速收敛，并产生一个 unified 的网络，具有在两个任务之间共享的卷积特征 ¹。

¹ 自从本文 [10] 的会议版本发表以来，我们还发现 RPN 可以与 Fast R-CNN 网络联合训练，从而减少训练时间。

我们在 PASCAL VOC 检测 benchmarks [11] 上全面评估了我们的方法，其中具有 Fast R-CNNs 的 RPNs 产生的检测精度优于具有 Fast R-CNN 的 Selective Search 的强 baseline。同时，我们的方法在 test-time 几乎免除了 Selective Search 的所有计算负担—— proposals 的有效运行时间仅为 10 ms。使用 [3] 的昂贵的非常深的模型，我们的检测方法在 GPU 上仍然具有 5fps（包括所有步骤）的帧率，因此在速度和 accuracy 方面都是一个实用的目标检测系统。我们还报告了 MS COCO 数据集 [12] 的结果，并使用 COCO 数据研究了 PASCAL VOC 的改进。代码已在 https://github.com/shaoqingren/faster_rcnn（在 MATLAB 中）和 https://github.com/rbgirshick/py-faster-rcnn（在 Python 中）公开提供。

该手稿的初步版本之前已发表 [10]。从那时起，RPN 和 Faster R-CNN 的框架已被采用并推广到其他方法，例如 3D 目标检测 [13]、基于部分的检测 [14]、实例分割 [15] 和图像描述(captioning) [16] . 我们快速有效的目标检测系统也已构建在 Pinterest [17] 等商业系统中，并报告了用户参与度的提高。

在 ILSVRC 和 COCO 2015 比赛中，Faster R-CNN 和 RPN 是 ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割赛道中的几个第一名参赛作品 [18] 的基础。 RPNs 完全学会了从数据中 propose 区域，因此可以很容易地受益于更深、更具表示能力的特征（例如 [18] 中采用的 101 层残差网络）。 Faster R-CNN 和 RPN 也被这些比赛中的其他几个主要参赛作品使用²。这些结果表明，我们的方法不仅是一种具有成本效益的实际使用解决方案，而且是提高目标检测精度的有效方法。

² https://image-net.org/challenges/LSVRC/2015/results

2. 相关工作

Object Proposals. 有大量关于 Object Proposal 方法的文献。 Object Proposal 方法的综合调查和比较可以在[19]、[20]、[21]中找到。广泛使用的 Object Proposal 方法包括基于分组超像素的方法（例如，选择性搜索 [4]、CPMC [22]、MCG [23]）和基于滑动窗口的方法（例如，objectness in windows [24]、EdgeBoxes [ 6]）。 Object Proposal 方法被用作独立于检测器的外部模块（例如，选择性搜索 [4] 目标检测器、RCNN [5] 和 Fast R-CNN [2]）。

Deep Networks for Object Detection。 R-CNN 方法 [5] 端到端训练 CNN 以将 proposal regions 分类为对象类别或背景。 R-CNN 主要起到分类器的作用，它不预测对象边界（通过边界框回归进行细化除外）。它的准确性取决于 region proposal 模块的性能（参见[20]中的比较）。几篇论文提出了使用深度网络预测目标边界框的方法 [25]、[9]、[26]、[27]。在 OverFeat 方法 [9] 中，训练一个全连接层来预测假设单个目标的定位任务的边框坐标。然后将全连接层转换为卷积层，用于检测多个特定类别的目标。 MultiBox 方法 [26]、[27] 从网络生成 region proposals，该网络的最后一个全连接层同时预测多个与类别无关的框，概括了 OverFeat 的“单框”方式。这些与类别无关的框被用作 R-CNN [5] 的 proposals。与我们的全卷积方案相比，MultiBox proposal 网络应用于单个图像裁剪或多个大图像裁剪（例如，224×224）。 MultiBox 在 proposal 网络和检测网络之间不共享特征。我们稍后会在我们的方法的上下文中更深入地讨论 OverFeat 和 MultiBox。与我们的工作同时，DeepMask 方法 [28] 被开发用于学习分割 proposals 。

卷积 [9]、[1]、[29]、[7]、[2] 的共享计算已经吸引了越来越多的关注，以实现高效而准确的视觉识别。 OverFeat 论文 [9] 计算来自图像金字塔的卷积特征，用于分类、定位和检测。共享卷积特征图上的自适应大小池化 (SPP) [1] 是为有效的基于区域的目标检测 [1]、[30] 和语义分割 [29] 而开发的。 Fast R-CNN [2] 支持对共享卷积特征进行端到端检测器训练，并显示出引人注目的 accuracy 和速度。

3. Faster R-CNN

我们的目标检测系统，称为 Faster R-CNN，由两个模块组成。第一个模块是 proposes regions 的深度全卷积网络，第二个模块是使用 proposes regions 的 Fast R-CNN 检测器 [2]。整个系统是一个单一的、统一的目标检测网络（图 2）。使用最近流行的具有“注意”[31]机制的神经网络术语，RPN 模块告诉 Fast R-CNN 模块看哪里。在第 3.1 节中，我们介绍了 region proposal 网络的设计和属性。在第 3.2 节中，我们开发了用于训练具有共享特征的两个模块的算法。

图 2：Faster R-CNN 是一个单一的、统一的目标检测网络。 RPN 模块充当这个统一网络的“注意力”。

显然这里所说的注意力只是指RPN 让 Fast R-CNN 应该看图像中的哪块区域。

3.1 Region Proposal Networks

Region Proposal Network (RPN) 将图像（任意大小）作为输入，并输出一组矩形目标 proposals ，每个 proposals 都有一个目标分数³。我们使用全卷积网络 [7] 对这个过程进行建模，我们在本节对此进行了描述。因为我们的最终目标是与 Fast R-CNN 目标检测网络 [2] 共享计算，我们假设两个网络共享一组共同的卷积层。在我们的实验中，我们研究了Zeiler 和 Fergus 模型 [32] (ZF)，它具有 5 个可共享的卷积层以及具有 13 个可共享卷积层的 Simonyan 和 Zisserman 模型 [3] (VGG-16)。

³ “Region”是一个通用术语，在本文中我们只考虑矩形区域，这在许多方法中很常见（例如，[27]、[4]、[6]）。 “Objectness” 衡量一组目标类与背景的成员资格（这里指的是 proposals的Region 是对象还是背景）。

为了生成 region proposals ，我们在最后一个共享卷积层输出的卷积特征图上滑动一个小型网络。这个小型网络将输入卷积特征图的 n × n 空间窗口作为输入。每个滑动窗口都映射到一个低维特征（ZF 为 256-d，VGG 为 512-d，随后是 ReLU [33]）。这个特征被输入到两个同级全连接层——一个边框回归层（reg）和一个边框分类层（cls）。我们在本文中使用 n = 3，注意输入图像上的有效感受野很大（ZF 和 VGG 分别为 171 和 228 像素）。这个迷你网络在图 3-1进行了说明。请注意，由于迷你网络以滑动窗口方式运行，因此全连接层在所有空间位置之间共享。这种架构自然是用一个 n×n 卷积层和两个同级 1×1 卷积层（分别用于 reg 和 cls）来实现的。

图 3-1：Region Proposal Network (RPN). drawing

图 3-2：在 PASCAL VOC 2007 测试中使用 RPN proposals 的检测例子。我们的方法检测各种尺度和纵横比的目标。

3.1.1 Anchors

在每个滑动窗口位置，我们同时预测多个 region proposals ，其中每个位置的最大可能 proposals 的数量表示为 k。所以 reg 层有 4k 个输出编码 k 个框的坐标，cls 层输出 2k 个分数，用于估计每个 proposals 的是目标或不是目标的概率 ⁴。 **k 个 proposals 框，这些框是通过这些参考框变换得到的，这些变换的参数就是网络学习的东西。

相对于 k 个参考框进行参数化，我们称之为 anchors**。一个 anchor 位于相关滑动窗口的中心，并与 scale and aspect ratio 相关联（图 3-1）。默认情况下，我们使用 3 个 scales 和 3 个 aspect ratios，在每个滑动位置产生 k = 9 个anchors。对于尺寸为 W × H（通常约为 2,400）的卷积特征图，总共有 W H k 个anchors。

⁴ 为简单起见，我们将 cls 层实现为 2分类 softmax 层。或者，可以使用逻辑回归来产生 k 个分数。

特征图的每个位置都有 k 个参考框，这些参考框被称为 anchors。同时每个位置对应有 k 个 proposals 框，这些框是通过这些参考框变换得到的，这些变换的参数就是网络学习的东西。anchors 叫参考框多好，起个这么奇怪的名字。

Translation-Invariant（平移不变） Anchors （这里不太懂）

我们的方法的一个重要特性是它是平移不变的，无论是就 anchors 和函数而言，该函数计算相对于 anchors 的 proposals。如果在一张图像中的平移一个目标，则 proposal 应该平移，并且相同的函数应该能够预测任一位置的proposal。我们的方法 ⁵ 保证了这种平移不变性。作为比较，MultiBox 方法 [27] 使用 k-means 生成 800 个 anchors，这些 anchors 不是平移不变的。因此，MultiBox 不保证在一个目标被平移时会生成相同的 proposal 。

⁵ 与 FCN [7] 的情况一样，我们的网络在网络的总 stride 内是平移不变的。

平移不变属性还减小了模型大小。 MultiBox 具有 (4 + 1) × 800 维的全连接输出层，而我们的方法在 k = 9 个anchors 的情况下具有 (4 + 2) × 9 维的卷积输出层。结果，我们的输出层有 \(2.8 × 10^4\) 个参数（VGG-16 为 512 × (4 + 2) × 9），比具有 \(6.1 × 10^6\) 参数的 MultiBox 输出层（MultiBox [27] 中的 GoogleNet [34] 为 1536 × (4 + 1) × 800）少两个数量级。如果考虑特征投影层，我们的 proposal 层的参数仍然比 MultiBox⁶ 少一个数量级。我们希望我们的方法在 PASCAL VOC 等小型数据集上过拟合的风险更小。

⁶ 考虑到特征投影层，我们的 proposal 层的参数计数为 \(3 × 3 × 512 × 512 + 512 × 6 × 9 = 2.4 × 10^6\)；
MultiBox的proposal layers的参数数为\(7×7×（64+96+64+64）×1536+1536×5×800=27×10^6\).

Multi-Scale Anchors as Regression References

我们的 anchors 设计提出了一种解决多 scales (and aspect ratios)的新方案。如图 1 所示，有两种流行的多尺度预测方法。第一种方法是基于图像/特征金字塔，例如，在 DPM [8]中的和基于 CNN 的方法 [9]、[1]、[2] 中。图像在多个 scales 上被resized，并为每个 scales 计算特征图（HOG [8] 或深度卷积特征 [9]、[1]、[2]）（图 1(a)）。这种方法通常很有用，但很耗时。第二种方法是在特征图上使用多scales（和/或 aspect ratios ）的滑动窗口。例如，在 DPM [8] 中，不同 aspect ratios 的模型使用不同的 filter sizes（如 5×7 和 7×5）分别训练。如果这种方式用于处理多 scales ，则可以将其视为“filters 金字塔”（图 1（b））。第二种方式通常与第一种方式联合使用[8]。

作为比较，我们的基于anchor的方法是建立在 anchors金字塔 上的，更具成本效益。我们的方法参考scales 和 aspect ratios的 anchor boxes 对边界框进行分类和回归。它仅依赖于单一尺度的图像和特征图，并使用单一尺寸的 filters（特征图上的滑动窗口）。我们通过实验展示了该方案对解决多个尺度和大小的影响（表 8）。

由于这种基于 anchors 的多尺度设计，我们可以简单地使用在单尺度图像上计算的卷积特征，就像 Fast R-CNN 检测器 [2] 所做的那样。多尺度 anchors 的设计是共享特征的关键组成部分，而无需额外的访问尺度成本。

3.1.2 Loss Function

4. 实验

标签：Real,Towards,Faster,卷积,检测,网络,特征,CNN,RPN
From： https://www.cnblogs.com/odesey/p/16593443.html