公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
论文地址:https://arxiv.org/pdf/1904.06883.pdf
计算机视觉研究院专栏
作者:Edison_G
Dubox增强了启发式引导的能力,进一步使第一尺度探测器能够最大限度地检测小目标,第二尺度探测器能够检测第一尺度探测器无法识别的目标。今天给大家分享的文章可能会优点旧,但是我觉得整体是一个不错的ideal!
一、背景
长期以来,目标检测一直是计算机视觉领域的一个具有挑战性的问题。随着深度神经网络(DNN)的发展,近年来在目标检测方面取得了重大进展。它是各种工业应用的先决条件,例如自动驾驶和面部分析。由于深度卷积神经网络和标注良好的数据集的进步,目标检测器的性能得到了显着提高。
现实世界中的图像包含不同比例的对象。尺度变化已成为目标检测领域的一个具有挑战性的问题。为了实现尺度不变性,最先进的方法通常结合多个层次的特征来构建特征金字塔或多层特征塔。同时,为了提高检测性能,多尺度方法在不同尺度上并行使用多个检测器。例如,RetinaNet有五个尺度检测器(p3-p7),它们在特征金字塔结构上并行检测。YOLOv5在主网上运行了三个检测器。
此外,prior box被认为是处理尺度不变性的有效手段。它是许多检测器的基础,例如Faster RCNN和YOLOv2中的锚点,SSD中的默认框。先验框是一堆具有预定义大小和纵横比的框,它们以滑动窗口的方式平铺特征图,作为检测候选。先验框离散化可能的输出边界框形状的空间,DNN基于特定的先验框利用先验信息对边界框进行回归。多尺度检测和先验框的混合是最先进的检测器中的常见做法,它利用了多尺度特征和预先计算的边界框统计数据。
二、前言
传统的目标检测方法使用多尺度特征,允许多个检测器独立并行地执行检测任务。同时,通过对prior box的处理,增强了算法处理尺度不变性的能力。然而,太多的先验框和独立的检测器会增加检测算法的计算冗余。
Some comparisons with the precision and speed to clas- sical algorithms on VOC07, ▽ is two-stage method, ⃝ denote the one-stage algorithm, □is Dubox.
今天这项研究中,研究者介绍了Dubox,这是一种新的单阶段方法,可以在没有先验框的情况下检测目标。使用多尺度特征,设计的双尺度残差单元使双尺度检测器不再独立运行。第二个尺度检测器学习第一个的残差。Dubox增强了启发式引导的能力,可以进一步使第一尺度检测器能够最大限度地检测小目标,第二尺度检测器能够检测第一个无法识别的对象。此外,对于每个尺度检测器,新的classification-regression progressive strap loss(CRPS)使整个的过程不再基于先验框。整合这些策略,新提出的检测算法在速度和准确性方面取得了出色的表现。在VOC、COCO目标检测基准上的大量实验证实了该算法的有效性。
三、新框架
No-prior Box Detection
Dubox是一个单一的神经网络,统一了目标检测的所有必要组件。检测器设计支持端到端训练和实时推理,同时保持高平均精度。
新的网络将整个图像作为输入,并以s倍的下采样级别预测结果特征图。假设输出map大小为(h,w),将输出中的位置(i,j)定义为hook,其中i∈[0,w)和j∈[0,h)。Dubox在输出特征的每个hook处预测每个边界框及其所有类别的置信度,如下图所示。
如上图所示是正样本和负样本GT设置,DuBox使用固定钩(i,j)将bbox的预测和分类结合起来。蓝色的点是positive的hook,其他的是negative。不再像DenseBox那样直接在中心点画圆框了,而是根据以下公式进行正样本的定义:
P是用于调整范围的预定义值。
Residual Dual Scale Detectors
双尺度残差单元是基于共享特征提取主干的子结构。残差双尺度检测器通过共享 VGG-16、ResNet等特征提取网络来组合不同级别检测器的特征。残差单元的结构包含两个检测器,其中高级检测器将学习在低级检测器中找到的回归框的残差。详细结构如下图所示。
双尺度的冗余策略:
Differentiate positive range:设计检测器1中的p为10,检测器2中的p为9。同时,向检测器1的正范围添加一个约束 => r=arg min(r, 3)。该方法确保了大目标正样本挂钩的数量受到限制,并且提高了低级别检测小目标的性能。
Differentiate scale weight:物体的目标边界框在原始图像中占据的区域大于0.3,则检测器1的回归将忽略该目标对象。(让大目标给检测器2来检测,检测器1只负责检测小目标)
Bbox Bridge Module
Bbox(边界框)桥模块将低级检测器和高级检测器的回归连接起来,从而使高级别回归基于低级残差。
Classification-Regression Progressive Strapped Loss
在基于锚的方法中,借助先验框,检测器具有框形状的先验知识。它通过调整预定义的锚形状来执行其预测,从而提高它们对周围锚的拟合能力。Dubox没有任何先前的盒子形状,研究者必须设计一个更强的分类和回归策略,主要是损失函数。
基于这一观察,研究者通过IoU重建classification loss progressive strap :
四、实验
The performance of dual branch on VOC2007 dataset (512 × 512)
Comparison with state-of-the-art detectors on VOC 2007 and 2012
Comparison with state-of-the-art detectors on MS COCO test-dev
© THE END
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
标签:检测,检测器,残差,目标,先验,尺度 From: https://blog.51cto.com/u_15726357/5743158