SSD 论文总结

论文摘要

我们提出了一种使用单个深度神经网络检测图像中的物体的方法。我们的方法被称为SSD，它将边界框的输出空间离散化为一组在不同特征图位置上具有不同长宽比和尺度的默认框。在预测时，网络为每个默认框生成每种物体类别的存在分数，并对框进行调整，以更好地匹配物体的形状。此外，网络结合了来自多个具有不同分辨率的特征图的预测，以自然处理各种尺寸的物体。与需要物体提议的传统方法相比，SSD相对简单，因为它完全消除了提议生成和后续像素或特征重采样阶段，并将所有计算封装在一个网络中。这使得SSD易于训练，并且可以方便地集成到需要检测组件的系统中。实验结果表明，SSD在PASCAL VOC、COCO和ILSVRC数据集上的准确性与使用额外物体提议步骤的方法相当，同时速度更快，并且提供了一个统一的训练和推理框架。对于300 × 300的输入，SSD在VOC2007测试集上达到了74.3%的mAP，并且在Nvidia Titan X上以59 FPS运行；对于512 × 512的输入，SSD达到了76.9%的mAP，超越了可比的Faster R-CNN模型。与其他单阶段方法相比，SSD在较小的输入图像尺寸下也具有更好的准确性。代码可在：https://github.com/weiliu89/caffe/tree/ssd 下载。

论文标题：SSD: Single Shot MultiBox Dectector

论文链接：[1512.02325] SSD: Single Shot MultiBox Detector (arxiv.org)

介绍

这篇文章中作者在网络的六个不同的层次提取了特征，最后将这些特征结合，让网络有了多尺度检测的能力，而且这个网络的速度相比于当时先进的two-stage网络（如：Faster R-CNN）有更快的速度和更高的准确率。

模型

网络架构

下面是本文的SSD和同为one-stage的YOLO的网络架构图

SSD网络以VGG16作为网络的基本骨架（在ILSVRC CLS-LOC数据集上被预训练），并且上图的fc6和fc7都被改成了卷积层，保留了原来的参数，还改变了pool5池化层的卷积核，使用了空洞卷积用`a trous算法填补空洞的部分，让2*2步长为2的卷积核变成3*3步长为1，使用了定位损失和置信度损失的加权和作为模型损失。

下图是VGG16网络的架构图，可以与上图进行参照

网络以300*300或512*512的三通道图片作为输入，在经过Conv4-3时输出了一个经过卷积处理的特征图作为对象检测的基础，这张特征图的每一个feature map cell（原文的说法），都会生成4个default boxes（类似于Faster R-CNN中的anchor）（这六张输出的图的前三张是生成4个default boxes，后三张图生成6个default boxes），并且对default boxes打分。这样的方法可以检测不同尺度上的目标。

如下图所示：