首页 > 其他分享 >SSD 论文总结

SSD 论文总结

时间:2024-08-07 21:25:46浏览次数:10  
标签:总结 default 检测 论文 网络 卷积 boxes SSD

论文摘要

我们提出了一种使用单个深度神经网络检测图像中的物体的方法。我们的方法被称为SSD,它将边界框的输出空间离散化为一组在不同特征图位置上具有不同长宽比和尺度的默认框。在预测时,网络为每个默认框生成每种物体类别的存在分数,并对框进行调整,以更好地匹配物体的形状。此外,网络结合了来自多个具有不同分辨率的特征图的预测,以自然处理各种尺寸的物体。与需要物体提议的传统方法相比,SSD相对简单,因为它完全消除了提议生成和后续像素或特征重采样阶段,并将所有计算封装在一个网络中。这使得SSD易于训练,并且可以方便地集成到需要检测组件的系统中。实验结果表明,SSD在PASCAL VOC、COCO和ILSVRC数据集上的准确性与使用额外物体提议步骤的方法相当,同时速度更快,并且提供了一个统一的训练和推理框架。对于300 × 300的输入,SSD在VOC2007测试集上达到了74.3%的mAP,并且在Nvidia Titan X上以59 FPS运行;对于512 × 512的输入,SSD达到了76.9%的mAP,超越了可比的Faster R-CNN模型。与其他单阶段方法相比,SSD在较小的输入图像尺寸下也具有更好的准确性。代码可在:https://github.com/weiliu89/caffe/tree/ssd 下载。

论文标题:SSD: Single Shot MultiBox Dectector

论文链接:[1512.02325] SSD: Single Shot MultiBox Detector (arxiv.org)

介绍

这篇文章中作者在网络的六个不同的层次提取了特征,最后将这些特征结合,让网络有了多尺度检测的能力,而且这个网络的速度相比于当时先进的two-stage网络(如:Faster R-CNN)有更快的速度和更高的准确率。

模型

网络架构

下面是本文的SSD和同为one-stage的YOLO的网络架构图

SSD网络以VGG16作为网络的基本骨架(在ILSVRC CLS-LOC数据集上被预训练),并且上图的fc6和fc7都被改成了卷积层,保留了原来的参数,还改变了pool5池化层的卷积核,使用了空洞卷积用`a trous算法填补空洞的部分,让2*2步长为2的卷积核变成3*3步长为1,使用了定位损失和置信度损失的加权和作为模型损失。

下图是VGG16网络的架构图,可以与上图进行参照

网络以300*300或512*512的三通道图片作为输入,在经过Conv4-3时输出了一个经过卷积处理的特征图作为对象检测的基础,这张特征图的每一个feature map cell(原文的说法),都会生成4个default boxes(类似于Faster R-CNN中的anchor)(这六张输出的图的前三张是生成4个default boxes,后三张图生成6个default boxes),并且对default boxes打分。这样的方法可以检测不同尺度上的目标。

如下图所示:

在 8*8的大尺度上,体型较小的猫容易被检测到,所以蓝色方框捕捉到了猫的位置,而体型较大的狗没有被检测出来,但是在4*4的特征图上就能被检测出来。

从这里也可以看出这种设计可以从不同尺度上获取目标的位置,可以提高检测的准确率。

训练

SSD的训练过程与其他模型不同的是,在SSD网络中需要根据Ground Truth中选出与其重合度比较高的特定比例的框。训练涉及数据增强和困难负样本挖掘等技术。

Loss Function

正如上文所说,模型损失是位置损失(localization loss)和置信度损失(confidence loss)的加权和,下图就是模型损失的计算公式:

其中N代表的是匹配的default boxes的数量,如果N = 0,那么loss的值就为0。

Localization Loss:

 Confidence Loss:

 在SSD模型中不同的特征图上使用的default boxes的尺寸也不一样,下面是计算公式:

 其中Smin = 0.2, Smax = 0.9。

不同的default boxes也有不同的比例,下面是计算公式:

Hard negative mining

在SSD中,作者没有使用所有的negative examples而是将他们按照置信度损失从高到低排序,取排在前面的样本,并且使得negatives : positives的比例在3:1之间。

Data augumentation

为了让增强模型的鲁棒性作者主要采用了三种方法对输入的图片进行处理。

1.使用整个原始输入图像

2. 采样一个补丁,使得它与物体的交并比为0.1、0.3、0.5、0.7或0.9。

3.随机采样一个补丁。

每个采样补丁的大小是原始图像大小的[0.1, 1],比例在0.5 - 2之间,并有50%的概率水平翻转,还会应用光度调整。

总结

SSD不同于目前比较主流的sliding windows和region proposal,它主要依靠不同尺度上的default boxes进行检测,避免了像sliding windows那样低效的方式,使得检测的速度更快。还结合了不同尺度的特征,使他有着更高的精确度。

标签:总结,default,检测,论文,网络,卷积,boxes,SSD
From: https://blog.csdn.net/2301_80740635/article/details/140996814

相关文章

  • RetinaNet 论文总结
    日期:2024年08月05日目录前言论文摘要FocalLossCrossEntropyLossBalancedCrossEntropy FocalLossRetinaNet网络架构ResNet FeaturePyramidNetwork(FPN)ClassSubnetBoxSubnet前言一般来说,one-stage的目标检测器在检测速度上有着明显优势,而two-stag......
  • 大语言模型评测方法全面总结!
    自2017年Transformer模型提出以来,自然语言处理研究逐步转向基于该框架的预训练模型,如BERT、GPT、BART和T5等。这些预训练模型与下游任务适配后,持续刷新最优结果。然而,现有评测方法存在广度和深度不足、数据偏差、忽视模型其他能力或属性评估等问题。因此,需要全面评测和深入......
  • uniapp-实现轮播图效果深度总结【建议收藏】
       ......
  • Studying-代码随想录训练营day62| Floyd 算法精讲、A*算法精讲(A star算法)、最短路算法
    第62天,完结撒花*★,°*:.☆( ̄▽ ̄)/$:*.°★*,最后的两个算法学习,编程语言C++目录Floyd算法精讲A*算法精讲(Astar算法) A*算法 复杂度分析 A*算法的缺点最短路算法总结篇 图论总结深搜和广搜并查集最小生成树 拓扑排序 最短路算法 总结 Floyd算法精讲......
  • 链表的使用和总结
    一:基本知识2:特点:内存不连续,通过指针链接解决:长度固定的问题,插入删除麻烦的问题逻辑结构:线性结构存储结构:链式存储操作:增删改查二:单向链表结构体:structnode_t{ intdata;//数据域 structnode_t*next;//指针域};2.1.1分类1>有头单向链表存在一个头节点,数据......
  • 再探GraphRAG:如何提升LLM总结能力?
    作者:王振亚编者语:自微软发布GraphRAG之后,相关解读文层出不穷,其中不乏优秀的内容。比如前段时间转载薛明同学的《微软GraphRAG框架源码解读》让大家对GraphRAG的开源代码有了快速的认识。这次我们分享一下来自蚂蚁技术同学王振亚的对GraphRAG如何提升LLM总结能力的思考,作者对Gr......
  • "AI教母"李飞飞相关论文汇总推荐
    OpenSNN开思通智网,官网地址:https://w3.opensnn.com/2024年8月份"O站创作者招募计划"快来O站写文章,千元大奖等你来拿!“一起来O站,玩转AGI!”ImageNet:ALarge-ScaleHierarchicalImageDatabase论文链接:stanford.edu简介: 互联网上图像数据的爆炸式增长有可能催生出更复......
  • Java 自定义注解笔记总结(油管)
    Java系列文章目录Java抽象相关知识笔记文章目录Java系列文章目录一、前言二、学习内容:三、问题描述四、解决方案:4.1自定义注解引入4.2自定义注解使用4.2.1自定义注解概念4.2.2自定义注解内部的属性五、总结:5.1学习总结:一、前言目的:学习自定义注解相关内......
  • python+flask计算机毕业设计智慧养老系统(程序+开题+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着社会的快速发展和人口老龄化的加剧,智慧养老成为了社会关注的焦点。传统的养老模式已难以满足老年人日益增长的多元化需求,而智慧养老系......
  • python+flask计算机毕业设计新冠疫情后病历管理系统(程序+开题+论文)
    志羽·羽场管理与智能推荐系统2220o本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景新冠疫情的爆发对全球医疗体系产生了深远影响,特别是在病历管理方面。传统的病历管理方式在面对大规模......