ThunderNet | Two-stage形式的目标检测也可很快而且精度很高

标签：主干 ThunderNet 特征检测检测器 Two 轻量级 stage

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_目标检测

一

导读

在移动平台上进行实时通用目标检测是一项至关重要但具有挑战性的计算机视觉任务。然而，以往基于cnn的检测器面临着巨大的计算成本，这阻碍了它们在计算受限的情况下进行实时推断。

今天，我们说的这个研究了two-stage检测器在实时通用检测中的有效性，提出了一种名为ThunderNet的轻量级的two-stage检测器。在主干部分，分析了以往轻量级主干网的不足，提出了一种面向目标检测的轻量级主干网络。在检测部分，开发了一种非常有效的RPN和detection head设计。为了产生更多的判别特征表示，设计了两个有效的体系结构块：上下文增强模块和空间注意力模块。

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_卷积_02

Context Enhancement Module (CEM)

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_计算机视觉_03

Spatial Attention Module (SAM)

最后，还研究了输入分辨率、主干网络和detection head之间的平衡。与轻量级one-stage检测器相比，ThunderNet在Pascal、VOC和COCO基准上仅占计算量的40%，实现了更好的性能。没有bells和whistles，新模型在基于ARM设备上运行为24.1 fps。这是第一个在ARM平台上报告的实时检测器。

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_计算机视觉_04

背景介绍

在移动设备上的实时通用对象检测是计算机视觉中的一个重要但具有挑战性的任务。与服务器类GPU相比，移动设备的计算受到限制，并对检测器的通信成本有更严格的限制。然而，基于CNN的现代检测器是资源匮乏的，需要大量的压缩才能达到理想的检测精度，这阻碍了它们在移动场景中的实时推理。

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_目标检测_05

移动端的检测效果

从网络结构的角度来看，基于CNN的检测器可以被分成用于图像的前区域特征的主干部分和检测图像中的目标实例的检测部分。在主干部分中，现有技术的检测器倾向于利用巨大的分类网络(例如Resnet-101)和大的输入图像(例如800或1200像素)，这需要大量的计算成本。

近年来，轻量级图像分类网络在GPU上实现了实时目标检测。然而，在图像分类和目标检测之间存在若干差异。例如，目标检测需要大的感受野和低级别的特征（底层特征），以提高定位能力，这对于图像分类来说是不重要的。这两个任务之间的间隙限制了这些骨架对物体检测的性能，并且阻碍了进一步的压缩而不损害检测精度。

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_卷积_06

另一方面，one-stage检测器直接预测边界框和类的概率。该类别的检测部分由用于预测的附加层组成，这通常需要很少的计算。因此one-stage检测器被广泛认为是实时检测的关键。然而，由于one-stage检测器不进行ROI方向的特征提取和识别，其结果比two-stage检测器的结果要低的多。对于轻量级检测器来说，这一问题更加严重。以前的轻量级one-stage检测器没有达到理想的精度/速度折衷：它们与大型检测器之间存在巨大的交流差距，而它们却无法在移动设备上实现实时检测。它促使我们重新思考：two-stage探测器能否实时检测？

新框架

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_卷积_07

Input Resolution

two-stage检测器的输入分辨率通常很大，例如FPN使用800×800像素的输入。它带来了许多优点，但也带来了巨大的计算成本。为了提高推理速度，ThunderNet采用320×320像素的输入分辨率。此外，在实践中，观察到输入分辨率应该与主干网的能力相匹配。大输入的小主干和小输入的大主干都不是最优的。

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_计算机视觉_08

Context Enhancement Module

Light-head R-CNN应用全局卷积网络(GCN)生成薄的特征图。它显著地增加了感受野，但涉及巨大的计算成本。与SNet146耦合，GCN需要由主干（596m vs.298m）所需的触发器中的2个。

因此，决定在ThundNet中放弃这种设计。然而，网络遭受小的感受野，并且不能编码足够的上下文信息。解决这个问题的通用技术是特征金字塔网络(FPN)。然而，现有的FPN结构涉及许多额外的卷积和多个检测分支，这增加了通信成本并诱导了巨大的运行时的等待时间。为此，新框架设计了一个高效的上下文增强模块(CEM)，以扩大感受野。CEM的核心思想是聚合多尺度局部上下文信息和全局上下文信息，以产生更多分散的特征。

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_目标检测_09

在CEM中，来自三个标度的特征映射被合并：C4、C5和Cglb。Cglb是通过在C5上应用全局平均池化的全局上下文特征向量。然后，对每个特征映射应用1x1卷积，以将通道的数量挤压为P＝245。之后，C5被向上采样2个，并且Cglb被Broadcast，使得三个特征映射的空间维度是相等的。

最后，对这三个生成的特征图进行标记。通过利用局部和全局上下文，CEM有效地扩大了感受野，并细化了精简特征映射的表示能力。与现有的FPN结构相比，CEM仅涉及两个1X1卷积和FC层，这更便于计算。上图说明了该模块的结构。

Spatial Attention Module

在ROI warping过程中，将背景区域中的特征扩展为小区域和前景区域变大。然而，与大型模型相比，由于ThunderNet使用了轻量级的主干和较小的输入图像，因此网络本身很难学习到合适的特征分布。

为此设计了一个计算友好型空间注意力模块(SAM)，在ROI对空间维数进行warping之前，可以显式地重新加权特征图。SAM的核心思想是利用RPN中的知识来细化特征图的特征分布。RPN被训练用于在GT的超分辨下识别前景区域。因此，RPN中的中间特征可以用来区分前景特征和背景特征。

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_卷积_10

实验结果

PASCAL VOC数据集由来自20个类的自然图像组成。这些网络是在VOC2007训练和VOC2012训练的联合集合上进行训练的，在VOC2007测试中重新获得了single-model的结果，结果如下表所示：

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_卷积_11

下表是在COCO数据集的结果：

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_目标检测_12

检测结果可视化

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_卷积_13

COCO Test-dev上轻量级主干的评估。SNet 146虽然分类精度较低，但检测结果较好。

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_计算机视觉_14

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_目标检测_15

RoI warping前的特征图可视化。空间注意力模块（SAM）增强了前景区域中的特征，并削弱了背景区域中的特征。

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高_目标检测_16

今天就先讲这些吧，有兴趣的同学请时刻关注我们。

论文地址：https://arxiv.org/pdf/1903.11752.pdf

END

标签：主干,ThunderNet,特征,检测,检测器,Two,轻量级,stage
From： https://blog.51cto.com/u_15726357/5734338

ThunderNet | Two-stage形式的目标检测也可很快而且精度很高

相关文章

赞助商

阅读排行