牛马阅读（知识+重点翻译） Advanced Deep-Learning Techniques for Salient and Category-Specific Object Detection待更

标签：Category Salient SOD 对象检测 Detection 区域图像 CNN

ABSTRACT

目标检测，包括目标检测(OD)、显著目标检测(SOD)和特定类别的目标检测(COD)，是计算机视觉界最基本但最具挑战性的问题之一。在过去的几十年中，研究人员已经做出了巨大的努力来解决这个问题，因为它在其他计算机视觉任务（如活动或事件识别、基于内容的图像检索和场景理解）中得到了广泛的应用。虽然近年来提出了许多方法，但仍然缺乏对所提出的高质量对象检测技术的全面审查，特别是对于基于高级深度学习技术的技术的技术。为此，本文深入研究了该研究领域的最新进展，包括 1）每个子方向的定义、动机和任务； 2）现代技术和基础研究趋势； 3）基准数据集和评估指标； 4) 实验结果的比较和分析。更重要的是，我们将揭示OD、SOD和COD之间的潜在关系，并详细讨论一些悬而未决的问题，并指出了几个未解决的挑战和有前途的未来工作。

Introduction

目标检测是一项具有挑战性但有用的计算机视觉任务，(目标检测)旨在识别每个给定图像或视频中各种单个对象的存在。在这项研究中，在处理相对简单的图像场景和清晰的前景对象图像时，取得了可喜的成果。然而，在处理包含放置在任意姿势的物体的图像和视频时，这个问题没有得到充分解决，形状多样，出现在杂乱和遮挡的环境中。

在过去的几十年里发表的目标检测的研究工作大致可以分为OD、SOD和COD三个方向。具体来说，OD(目标检测)旨在检测出现在每个给定图像中的所有可能的对象，而不管特定的对象类别如何。它面临着巨大的挑战，因为不同的对象，无论是在同一个对象类别中，还是在不同的对象类别中，都可能有显著的外观变化，由于其内部固有特性（例如，像猫这样的生物通常比像车辆这样的人工物体具有更可变形的外观），或外部拍摄条件（例如拍摄距离或角度），变形物体在远处可能看起来比较僵硬，而即使是刚性物体在不同的拍摄角度下也可能表现出变化。通常，目标检测算法会输出数千个物体候选框或假设，如图 1(a) 所示，这可以为弱监督学习和物体跟踪等计算机视觉任务带来诸多好处。

SOD（显著目标检测）目的是模仿视觉注意机制，突出显示从给定图像中引起我们注意的物体。这是受到人类视觉注意系统的启发，该系统可以引导人类特别注意少数自然不同的信息图像区域（自下而上显著性）或与知识、期望、奖励和特定任务等认知现象决定的某些对象类别相关（自上而下显著性）。与OD类似，自底向上的SOD面临着在无约束对象类别中存在较大的外观变化的挑战，而自顶向下的SOD面临着如何有效地将期望的视觉刺激（通常在语义层面）与视觉场景中相应的区域关联起来的挑战。通常，SOD算法根据获得的显著性图输出有限数量的目标区域，如图1(b)所示。它们还可以用于广泛的计算机视觉任务，如图像检索和对象分割。

在显著目标检测（SOD）任务中，“自底向上”（bottom-up）和“自顶向下”（top-down）是两种不同的检测方法或策略：

1. 自底向上的SOD（Bottom-up SOD）：

定义：自底向上的方法基于图像的低层次特征（如颜色、纹理、对比度等）来进行显著性目标检测。这些方法依赖于图像本身的视觉特征，而不考虑高级的语义信息或对象类别。
特点：这种方法从图像的局部或全局特征出发，逐步构建出显著性区域。因此，自底向上的SOD能够在没有任何特定对象类别信息的情况下检测出显著的区域。
挑战：由于不依赖语义信息，自底向上SOD在处理具有较大外观变化或复杂背景的无约束对象类别时，容易受到局限性，因为它很难捕捉到复杂的上下文关系。

语义依赖较弱：

自底向上的SOD方法通常不会识别图像中的具体对象类型（如人、车、猫等），而是只关注像素级别的对比度、颜色、边缘等基础特征。换句话说，它并不“理解”图像中是什么对象，只是根据某些特征差异来检测出可能的显著区域。
由于缺乏对对象类别的理解，它可能会误认为一些不重要的背景元素是显著目标，因为它无法从语义上判断某个对象是否是有意义的。

上下文依赖较弱：

上下文依赖是指算法利用图像中不同对象之间的关系以及场景中的整体信息来帮助做出决策。自底向上的方法不依赖于这种场景理解。比如，在复杂的场景中，自底向上的SOD可能只基于视觉对比来检测目标，而不会考虑该目标与其周围环境的互动或关系。
例如，在一个包含许多相似颜色物体的场景中，自底向上方法可能无法利用场景中的上下文来判断哪个物体是更重要的或显著的。

2. 自顶向下的SOD（Top-down SOD）：

定义：自顶向下的方法利用高层语义信息或预先定义的对象类别，指导显著目标检测。它通常结合预训练的分类模型或对象检测模型，将目标对象类别与视觉场景中的特定区域关联起来。
特点：这种方法从语义层面进行处理，基于任务期望或预先定义的对象类别进行显著目标的检测。例如，模型可以使用上下文信息来预测哪些区域可能包含感兴趣的对象。
挑战：自顶向下的SOD面临着如何将抽象的语义信息与图像中的低层次视觉特征有效关联起来的问题。这种方法可能在检测不在预定义类别中的对象时表现不佳。

低层次特征：指的是直接从图像中提取的基本视觉信息，如像素、颜色、边缘、梯度、纹理等。这些特征没有任何语义层面的含义，只是对图像的表面属性的描述。

高级语义特征：则是通过多层处理、模型学习后产生的，与物体类别或场景内容相关的抽象特征。例如，猫的耳朵、尾巴、整体轮廓、常见姿势等特征会在深层网络中形成抽象的语义信息，帮助模型识别出图像中的“猫”。

对比总结

自底向上：从图像的低层特征出发，适合在无约束类别情况下检测显著性区域，但对语义和上下文依赖较弱。
自顶向下：利用语义信息进行引导，适合在特定类别或场景下进行显著性检测，但依赖于语义层面的任务定义。

目标检测的第三个方向是COD，与OD不同，COD（伪装目标检测）旨在从给定图像中检测多个预定义的目标类别。它不仅需要识别可能包含感兴趣对象的图像区域，还需要识别每个检测图像区域的特定对象类别。与SOD相比，COD具有完全不同的动机，即它朝着解决纯计算问题的方向发展，而不了解人类视觉系统中的功能，例如视觉注意。通常，将COD转化为多类分类问题，训练判别分类函数，将提取的图像区域在相应的特征域中进行分离。如何处理类内外观变化和类间外观相似是COD研究面临的主要挑战。如图1(c)所示，COD方法通常输出多个图像区域，这些图像区域被指定为已识别的目标类别。COD可以应用于场景解析和人类动作识别等计算机视觉任务。

为了解决目标检测中具有挑战性的问题，在整个目标检测发展阶段，已经提出了大量的工作来设计更好的手工特征（如HOG和SIFT），并提出了复杂的目标检测框架，将提取的特征与精心设计的分类器（如random forest和AdaBoost）结合起来。卷积神经网络（Convolutional neural networks, cnn）于2004年首次应用于目标检测，2013年开始得到广泛应用。基于区域的CNN （RCNN）研究在2014年取得了重大突破。它最早尝试用多层卷积网络提取高度判别但不变的特征表示来描述目标检测系统。

1. HOG（Histogram of Oriented Gradients）：

定义：HOG是一种用于图像处理和计算机视觉的特征描述符。它通过计算图像中不同方向的梯度（边缘）来捕捉局部形状和外观特征。
工作原理：HOG通过将图像分割成小的局部区域（称为“细胞”），然后在每个细胞中计算像素梯度的方向直方图。通过将这些局部直方图结合起来，形成了对图像中局部边缘方向的全局描述。
应用：HOG常用于行人检测等目标检测任务，因为它能够有效地捕捉对象的边缘结构，具有一定的旋转和尺度不变性。

2. SIFT（Scale-Invariant Feature Transform）：

定义：SIFT是一种局部特征检测和描述算法，主要用于检测图像中的关键点，并对这些关键点进行描述，使其对旋转、缩放和部分仿射变换具有鲁棒性。
工作原理：SIFT首先检测图像中的关键点（例如角点或显著区域），然后为每个关键点生成一个特征向量，用于描述该点周围的图像结构。这些特征向量对缩放、旋转和一定的视角变化不敏感。
应用：SIFT主要用于图像匹配、对象识别等领域，特别是在检测和匹配变形或不同视角的对象时非常有效。

3. Random Forest（随机森林）：

定义：Random Forest是一种集成学习算法，通过构建多个决策树并将它们的预测结果结合起来，来提高分类或回归任务的准确性和鲁棒性。
工作原理：在训练过程中，Random Forest通过对数据集的随机子集进行抽样，构建多棵独立的决策树。每棵树都会给出一个预测结果，最终的预测结果是这些树的预测结果的多数投票或平均值。这种方法有助于降低单个决策树过拟合的问题。
应用：Random Forest广泛用于分类、回归、特征选择等任务，在许多领域如金融、医疗和计算机视觉中都有应用。

4. AdaBoost（Adaptive Boosting）：

定义：AdaBoost是一种Boosting算法，它通过组合多个弱分类器来生成一个强分类器，从而提高分类精度。
工作原理：AdaBoost通过迭代训练一系列弱分类器（例如简单的决策树），每次迭代时着重关注前一轮分类中分类错误的样本。每个弱分类器的权重根据其分类准确率进行调整，最后结合所有弱分类器的加权结果得到最终的预测模型。
应用：AdaBoost常用于目标检测、分类等任务，尤其是在早期的目标检测中与Haar-like特征结合，广泛用于人脸检测。

目标检测的历史背景：

HOG和SIFT：在深度学习尚未流行之前，HOG和SIFT等手工特征是目标检测和图像匹配领域的主流方法。它们通过提取图像的局部特征来描述对象，能够提供一定程度的鲁棒性，但在复杂的场景中性能有限。
Random Forest和AdaBoost：这些是传统的机器学习算法，常与手工特征结合使用。通过将HOG、SIFT等特征输入到这些分类器中，可以完成目标检测任务。这类方法在深度学习流行之前广泛应用。

总结：

HOG和SIFT是传统的手工特征提取方法，用于描述图像中的局部信息。
Random Forest和AdaBoost是集成学习算法，通常用于构建分类器，将提取的特征与这些分类器结合以实现目标检测。在深度学习出现之前，这些技术在目标检测中发挥了重要作用，但随着卷积神经网络（CNN）和基于区域的卷积神经网络（R-CNN）的引入，深度学习逐渐取代了传统手工特征+分类器的组合方法。

本文主要有四个动机

1)目标检测，包括OD、SOD和COD，是计算机视觉的一个基本问题，也是一个具有挑战性的问题。现有的调查论文只关注每个单独的主题，没有讨论它们之间的密切关系。

2)由于近年来已经提出了许多方法并取得了突破性的成绩，因此回顾最近提出的目标检测技术，特别是基于深度学习技术的目标检测技术将是有启发的。

3)对几个重要问题进行深入讨论是很有兴趣的。例如，为什么最近基于深度学习的框架可以显著提高目标检测的性能？与之前的框架相比，这些框架最内在的改进是什么？未来基于深度学习的方法需要解决哪些问题？

4)对公开的目标检测基准的实验结果进行全面的比较和分析，有助于读者更好地了解每种目标检测策略的性能以及相应的网络架构。

Preliminary knowledge

CNN是最知名、应用最广泛的深度学习架构之一，其灵感来自于生物的自然视觉感知机制，最早由Fukushima于1980年提出，后由LeCun进行改进。cnn旨在处理以多个数组形式出现的数据，例如，由三个二维数组组成的彩色图像，其中包含三个颜色通道中的像素强度。利用自然信号特性的CNN背后有四个关键思想：局部连接、共享权重、池化以及多层的使用。

如图 2 所示，典型 CNN 模型的架构结构为一系列层，如下所示：

■ 卷积层：卷积层对特征提取最重要。前几层通常捕获低级特征（如边、线和角），而更深的层能够通过组合低级特征来学习高级特征（如结构、对象和形状）。卷积层中的每个单元通过一组称为滤波器组的核连接到前一层的特征图中的局部补丁。然后将这个局部加权和的结果通过非线性操作，例如整流线性单元 (ReLU)。特征图中的所有单元共享相同的滤波器组。卷积层中的不同特征图使用不同的滤波器组。

■池化层：池化层旨在减少表示的维度，并为小的移位和失真创建不变性。池化层通常放置在两个卷积层之间。池化层的每个特征图都连接到其前一个卷积层的相应特征图。典型的池化单元计算一个特征图中单元的局部块的最大值。

■ 全连接层：全连接层通常用作网络的最后几层，以便根据最终决定更好地总结低级层传达的信息。由于全连接层占据了大部分参数，因此很容易发生过拟合。为了防止这种情况，通常采用 dropout 方法。从AlexNet在2012年的ImageNet分类方面取得了突破性的成功开始，在开发各种CNN模型方面做出了重大努力，包括VGGNet、GoogLeNet和ResNet。

■ AlexNet: AlexNet最早是由Krizhevsky等人提出的，赢得了2012年ImageNet大规模视觉识别挑战赛(ILSVRC)[28]。它由五个卷积层和三个全连接层组成。它是计算机视觉和机器学习的一个里程碑研究，因为它是第一个使用卷积操作的非饱和神经元、图形处理单元 (GPU) 实现和 dropout 以防止过度拟合的工作。

■ VGGNet：VGGNet 是 ILSVRC 2014 竞赛的定位和分类轨道的获胜者。它有两种著名的架构：VGGNet-16 和 VGGNet-19。前者因其更简单的架构而被广泛使用，该架构具有 13 个卷积层、五个池化层和三个全连接层。

■ GoogLeNet: GoogLeNet[是另一种具有代表性的CNN架构，有两个主要优点。一种是利用同一层不同大小的滤波器核，保留更多的空间信息，另一个优点是减少了网络的参数个数，这使得它对过拟合不太敏感，并允许它更深入。事实上，22 层 GoogLeNet 有超过 50 个卷积层分布在初始模块内，但它的参数比 AlexNet 少 12 倍。

■ ResNet：ResNet 是最成功的 CNN 之一，赢得了计算机视觉和模式识别会议 2016 最佳论文奖。ResNet背后的想法是，每一层都不应该学习整个特征空间转换，而是只学习前一层的残差校正，这允许有效地训练更深的网络。它极深的表示具有出色的泛化性能，使其在 2015 年 ILSVRC 和 COCO 竞赛的 ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割中获得了第一名。

目标检测中的现代方法

OD中的现代方法

物体检测（OD）的目标是选择一小部分物体提议，以覆盖给定图像中大多数感兴趣的物体。为了实现这一目标，物体检测方法需要 1) 生成或选择可能包含特定感兴趣物体的潜在边界框，2) 推断所选边界框的物体性分数。我们可以将现有的物体检测方法一般分为三大类：区域合并、窗口选择和框回归。

1. 区域合并方法 (Region-merging Approaches)

区域合并方法基于图像中的区域进行处理，通常用于图像分割。这种方法的基本思路是：

初始区域划分：首先将图像划分为多个小区域（例如，通过超像素分割）。
合并过程：接着，根据某种相似性度量（如颜色、纹理、边缘等），逐步合并相邻的区域。
停止条件：当合并后的区域满足某种条件（如相似度阈值）时，停止合并。

这种方法的优点是可以较好地保留区域的形状和边界，但其缺点是可能对参数设置较敏感，并且在处理复杂图像时可能会出现合并错误。

2. 窗口选择方法 (Window-selecting Approaches)

窗口选择方法通常在目标检测和跟踪任务中使用。这种方法的基本思路是：

滑动窗口：在图像中定义一个固定大小的窗口，并在图像上滑动这个窗口。
特征提取：在每个窗口位置，提取特征（如HOG、SIFT等）。
分类器：使用分类器（如SVM、CNN）对窗口中的特征进行分类，以判断窗口内是否包含目标。

这种方法的优点是实现简单，容易理解，但缺点是计算效率较低，尤其在处理高分辨率图像时，因为需要在多个位置重复计算特征。

3. 边框回归方法 (Box-regressing Approaches)

边框回归方法在目标检测中非常流行，尤其是使用深度学习模型时。这种方法的基本思路是：

候选框生成：首先生成多个候选框（可能使用选择性搜索或RPN等方法）。
回归模型：使用回归模型对这些候选框进行调整，预测更精确的边框位置和尺寸。
分类与阈值：同时对每个候选框进行分类，并根据置信度阈值进行筛选，最终得到检测结果。

这种方法的优点是能够提高目标检测的准确性，尤其在复杂场景下，但可能会引入计算复杂度，特别是在生成大量候选框时。

SOD的现代方法

SOD涉及两个分支：自底向上和自顶向下。前者受刺激驱动，主要对视觉场景中最有趣、最显眼的区域做出反应，而后者则受知识和高级视觉任务（如有意寻找特定类别的对象）的指导。在自下而上的SOD分支中，方法是检测自由观看下的显著性，这是由场景的物理特征自动决定的，而另一个分支的方法是检测由观察者当前目标决定的任务驱动的显著性。在每个分支中，都可以建立监督和非监督框架来解决相应的问题。接下来，我们将更详细地研究这两个分支。

Bottom-up SOD

自下而上的SOD旨在准确区分视觉场景中的前景物体和背景。传统的模型主要依赖于对比线索。Cheng等人[6]提出的一种代表性方法是测量归一化颜色直方图中每个图像区域与图像中所有其他区域的色差的加权和，作为全局对比度来检测显著性。受到这项工作的启发，一些研究人员还将局部和全局对比结合起来进行显著性检测。近年来，随着深度学习的巨大进步，深度神经网络（dnn）也得到了广泛的应用用于提高SOD的性能。Han等人提出利用堆叠去噪自编码器对SOD进行背景先验建模。除了这项工作，近年来也提出了一些基于cnn的SOD方法。例如，Wang等人提出将局部估计和全局搜索结合起来进行显著性检测。Lee等将每个超像素的低水平距离图与整个图像的全局CNN特征相结合。Liu和Han提出以端到端方式对全局到局部上下文的显著对象进行从粗到细的分层检测。Li和Yu提出将基于像素级全卷积网络（fully convolutional network， FCN）的显著性网络与分段多尺度CNN相结合进行显著性检测。Wang等人[49]通过循环FCN提出了一种渐进式显著性改进网络，该网络将之前的显著性图与原始图像同时馈送，学习纠正之前的错误，从而获得更好的显著性结果。

Top-down SOD

自上而下的显著性检测通常旨在突出场景中的特定类别对象。Yang 和 Yang [50] 提出了联合学习条件随机场的参数和字典以进行监督的自上而下显著性检测。He 等人 [51] 提出了基于样本的自上而下显著性检测，目的是定位与给定样本图像属于同一类别的对象。Cholakkal 等人 [52] 提出了一个弱监督的自上而下显著性框架，仅使用图像标签。他们首先使用图像标签训练了一个基于稀疏编码的空间金字塔匹配（ScSPM）分类器。然后分析了图像中每个补丁对分类器的概率贡献，以估计反向 ScSPM 显著性。接下来，利用上下文补丁通过逻辑回归模型来估计上下文显著性。最终的显著性图是通过结合这两幅显著性图得到的。Zhang 等人 [53] 提出了基于自上而下的胜者通吃过程和深度神经网络反向传播的自上而下显著性检测的激励反向传播方法。

COD的现代方法

在过去的几十年里，对象检测（COD）在文献中得到了广泛的研究。可变形部件模型（DPM）及其变体多年来一直是领先的方法。这些方法使用手工制作的图像描述符作为特征，并扫描整个图像以检测具有类别特定最大响应的区域。最近，由于大规模训练数据（如ImageNet）的可用性以及高性能GPU的进步，提出了各种基于深度学习的方法（特别是基于CNN的）来显著提高COD的最新技术水平。实际上，CNN在检测和识别中的使用可以追溯到1980年代。然而，由于训练数据的缺乏和计算资源有限，在2012年之前，基于CNN的COD并没有取得太多进展。自2012年CNN在ILSVRC图像分类任务中取得突破性成功以来，基于CNN的范式最近吸引了大量的研究兴趣。一般来说，COD方法主要分为两类：基于对象提议的和基于回归的。

Object proposal-based approaches

基于对象提议的COD框架首先通过选择性搜索[29]等区域提议方法（该过程也称为OD）生成一组可能包含对象的提议边界框，然后将检测到的对象提议传递给CNN分类器，以确定它们是背景还是来自特定的对象类。在各种基于目标提议的方法（用于COD）中，2014年由Girshick等[10]提出的region-CNN （R-CNN）是其中最引人注目的方法之一。这项工作为通过深度CNN模型提取丰富的特征打开了大门，显著提高了性能。R-CNN框架是一系列概念上简单的步骤：生成对象建议，将建议分类为背景或特定类别的对象，并对检测进行后处理以提高其对对象的适应性。简单地说，R-CNN的工作原理如下。首先，通过选择性搜索算法提取大约2000个自下而上的可能包含对象的区域建议[29]，以降低计算成本。然后，这些区域建议被扭曲到一个固定的大小（例如，227 × 227），并使用微调的CNN模型从中提取CNN特征。其次，使用特定类别的线性支持向量机（svm）将每个区域提案分类为对象或非对象。最后，通过使用边界盒回归器[54]来改进定位，将候选建议调整为检测到的对象。这个简单的管道在基准数据集上实现了最先进的COD性能，与之前发表的主要基于DPM的所有作品相比，性能有了显著提高[54]。在这里，值得一提的是，用于从区域建议中提取深度CNN特征的CNN模型通常是在基于ImageNet数据集[28]的图像分类辅助任务上进行预训练，然后在一小部分带有边界框注释的图像上进行微调，用于检测任务。

选择性搜索（Selective Search）是一种区域提议方法，它在目标检测领域中被广泛使用，尤其是在R-CNN系列算法中。这种方法的核心思想是通过图像分割技术来生成候选区域，然后基于这些区域的相似性进行合并，最终得到一组可能包含目标对象的区域提议。

选择性搜索算法的主要步骤包括：

图像分割：首先使用基于图的分割算法（如Felzenszwalb和Huttenlocher算法）将图像分割成许多初始的小区域。这些小区域是后续合并操作的基础。

相似度计算：对于每两个相邻的区域，算法计算它们之间的相似度。相似度的计算通常基于多种特征，包括颜色、纹理、大小和形状等。颜色相似度通过比较区域的颜色直方图来计算；纹理相似度则通过比较区域的梯度直方图来评估；尺寸相似度确保合并操作的尺度较为均匀；填充相似度则考虑了区域之间的空间关系。

区域合并：使用贪心策略，每次合并相似度最高的两个区域，直到图像被合并成一个单一区域。在这个过程中，每次合并都会产生新的候选区域，这些区域被保存下来，形成了候选区域的集合。

多样性策略：为了确保候选区域的多样性，选择性搜索采用了多种策略来增加候选区域的数量，以保证召回率。

然而，在R-CNN中，我们必须反复调整候选边界框的大小以提取固定大小的CNN特征，这对于COD来说计算成本很高。为了加速R-CNN，一些工作[18]、[55]、[56]提出了在特征提取中共享计算的方法。例如，空间金字塔池化网络（SPPnet）[55]引入了一个空间金字塔池化层，以放宽输入必须具有固定大小的限制。与R-CNN不同，SPPnet仅从整个图像中提取一次特征图，与区域提议无关，然后对每个区域提议应用空间金字塔池化以获得固定长度的表示。这种重新组织允许在所有区域提议之间轻松共享计算。SPPnet的一个缺点是，其微调算法只能更新全连接层，这使得无法联合训练CNN特征提取器和SVM分类器以进一步提高性能。为了弥补这一缺点，提出了Fast R-CNN[18]，它是SPPnet的端到端可训练改进。在Fast R-CNN框架下，所有网络层都可以在微调期间更新，从而简化了学习过程并提高了检测精度。R-CNN[10]和Fast R-CNN[18]的框架都需要区域提议作为输入，这些提议通常来自手工制作的区域提议方法，如选择性搜索[29]和EdgeBox[35]。然而，提议生成是整个流程中的瓶颈。为了解决这个问题，提出了Faster R-CNN[40]，它由两个模块组成。第一个模块称为区域提议网络（RPN），是一个FCN，用于生成将输入到第二个模块的区域提议（每个提议都带有提议边界框和对象分数）。第二个模块是用于目标检测的Fast R-CNN网络。Faster R-CNN将提议生成和目标检测合并到一个统一的网络中，其中RPN模块与Fast R-CNN检测网络共享相同的卷积特征；因此，它实现了几乎无成本的区域提议生成。

Regression-based approaches

回归基于的显著性检测（COD）方法将问题形式化为一个回归问题，它涉及空间上分离的边界框和相关的类别概率。与基于目标提议的方法相比，回归框架更加简单，因为它不需要生成提议和后续的像素/特征重采样阶段，而是将所有步骤封装在一个网络中。

主要区别

回归检测方法与回归 COD 方法之间的主要区别在于：前者的目标是预测每个框的位置和一个对象性得分，而后者则是预测框的位置和对象类别得分（其维度取决于所需的对象类别数量）。回归 COD 模型通常比回归检测模型复杂，因为它需要同时处理提议定位和对象类别识别的任务。因此，回归 COD 中更常用多任务损失函数。

YOLO 和 SSD 方法

YOLO（You Only Look Once）和 SSD（Single-Shot MultiBox Detector）是两种代表性的回归方法。YOLO 通过将目标检测视为回归问题，开创了实时 CNN 基于目标检测的新方法。它的独特之处在于，将目标检测的各个部分统一到一个卷积网络中，同时预测多个边界框和这些框的类别概率。YOLO 在做预测时会全局考虑图像，因此隐式地编码了关于类别及其外观的上下文信息。与基于目标提议的方法相比，YOLO 非常快速，能够在 Titan X GPU 上以每秒 45 到 150 帧的速度运行。然而，它仍然难以检测小物体，并且精确定位存在挑战。

为了解决这些问题，SSD 被提出以改进 YOLO 方法。具体来说，SSD 将边界框的输出空间离散化为一组默认框，这些框在每个特征图位置具有不同的长宽比和尺度，类似于 Faster R-CNN 中的区域提议网络（RPN）。在预测时，SSD 为每个默认框输出每个对象类别存在的得分，并生成调整，以更好地匹配对象的外观。此外，SSD 结合来自多个具有不同分辨率的特征图的预测，以处理各种尺寸的对象。通过引入多尺度特征图和默认框机制，SSD 显著提高了检测小物体的性能，并改善了相较于 YOLO 的定位精度。

进一步提升性能的研究

此外，一些最近的研究也致力于进一步提升基于 CNN 的 COD 方法的性能，如困难负样本挖掘、特征增强、上下文信息融合等。例如，为了提高处理对象旋转、类内变异性和类间相似性的能力，Cheng 等人提出了一种旋转不变和 Fisher 判别的 CNN 模型。该模型是在现有的高容量 CNN 架构的基础上实现的，额外引入了旋转不变层和 Fisher 判别层。

Relationship among OD, SOD, and COD

虽然OD、SOD和COD是目标检测中三个独立的研究方向，但它们之间存在着丰富的关系。

标签：Category,Salient,SOD,对象,检测,Detection,区域,图像,CNN
From： https://blog.csdn.net/zsy54577/article/details/143036069

牛马阅读（知识+重点翻译） Advanced Deep-Learning Techniques for Salient and Category-Specific Object Detection待更

ABSTRACT

Introduction

1. 自底向上的SOD（Bottom-up SOD）：

2. 自顶向下的SOD（Top-down SOD）：

对比总结

1. HOG（Histogram of Oriented Gradients）：

2. SIFT（Scale-Invariant Feature Transform）：

3. Random Forest（随机森林）：

4. AdaBoost（Adaptive Boosting）：

目标检测的历史背景：

总结：