显著性目标检测：一项调查

摘要

从自然场景中检测和分割显著目标（通常称为显著目标检测）引起了计算机视觉的极大兴趣。尽管已经提出了许多模型并且出现了一些应用，但仍然缺乏对成就和问题的深入理解。我们的目标是对显著目标检测的最新进展进行全面回顾，并将该领域置于其他密切相关的领域中，例如通用场景分割、目标提议生成和注视预测的显著性。我们涵盖 228 篇出版物，调查了 i) 根源、关键概念和任务，ii) 核心技术和主要建模趋势，以及 iii) 显著目标检测的数据集和评估指标。我们还讨论了模型性能中的评估指标和数据集偏差等开放问题，并提出了未来的研究方向。

关键词 显著目标检测；显著性；视觉注意力；感兴趣的区域

1 介绍

人类能够在预注意阶段轻松快速地检测到视觉上独特的（所谓的显著）场景区域。然后，在专注阶段，这些过滤后的区域会被更精细地感知和处理，以提取更丰富的高级信息。认知科学家对这一能力已研究许久，而近来它在计算机视觉领域也引起了诸多关注，主要是因为它有助于找出能够有效表征场景的物体或区域，这在诸如场景理解等复杂的视觉问题中是很有用的一个步骤。与视觉显著性密切相关或关联稍远的一些主题包括：显著物体检测 [1]、注视点预测 [2, 3]、物体重要性 [4–6]、可记忆性 [7]、场景杂乱度 [8]、视频趣味性 [9–12]、意外性 [13]、图像质量评估 [14–16]、场景典型性 [17, 18]、美学 [11] 以及场景属性 [19]。鉴于篇幅有限，本文无法对上述所有的研究方向进行全面探讨。相反，我们只聚焦于显著目标检测这一在过去二十年，尤其是 2007 年以来取得极大发展的研究领域。

1.1 什么是显著目标检测？

显著目标检测或显著目标分割在计算机视觉中通常被解释为一个包含两个阶段的过程：1）检测最显著的对象，2）分割该对象的准确区域。然而，模型很少明确区分这两个阶段（除了少数例外，例如参考文献[21-23]）。继 Itti 等人的开创性工作之后。 [24] 和刘等人。 [25]，模型采用显著性概念来同时执行两个阶段。没有对这些阶段进行单独评估的事实证明了这一点。此外，大多数基于区域的分数已用于模型评估（例如，精确召回）。第一阶段不一定需要仅限于一个对象。然而，大多数现有模型都尝试分割最显著的对象，尽管它们的预测图可用于查找场景中的多个对象。第二阶段属于计算机视觉中经典分割问题的领域，但不同之处在于，这里的准确性仅由最显著的对象决定。

一般来说，为了实现良好的显著性检测，模型应至少满足以下三个标准：1）良好的检测：丢失真实显著区域和错误地将背景标记为显著区域的概率应较低，2）较高分辨率：显著图应具有高分辨率或全分辨率，以准确定位显著对象并保留原始图像信息，3）计算效率：作为其他复杂过程的前端，这些模型应快速检测显著区域。

1.2 显著目标检测定位

显著目标检测模型通常旨在仅检测场景中最显著的对象并分割这些对象的整个范围。另一方面，注视预测模型通常尝试预测人类看向哪里，即一小组注视点 [31, 32]。由于两种类型的方法都输出单个连续值显著性图，其中该图中的值较高表示相应的图像像素更有可能被查看，因此它们可以互换使用。

注视位置和显著物体之间存在很强的相关性。此外，当被要求选择场景中最显著的物体时，人类通常会达成一致[22,23,26]。见图1。

图 1 Borji 等人的示例图像。的实验 [26] 以及带注释的显著对象。点代表 3 秒的自由观看注视时间。

与显著目标检测和注视点预测模型不同，目标候选框生成模型旨在生成一小套（通常是几百个或几千个）相互重叠的候选目标边界框或区域候选框 [33]。目标候选框生成与显著目标检测密切相关。显著性估计在目标性度量方法中被明确用作一种提示信息 [34, 35]。

图像分割，也称为语义场景标记或语义分割，是计算机视觉中研究非常深入的领域之一（例如，参考文献[36]）。与输出为二进制图的显著目标检测相反，这些模型旨在为每个图像像素分配一个标签，该标签是天空、道路和建筑物等多个类别中的一个。

图 2 说明了这些研究主题之间的差异。

图 2 不同模型产生的示例结果。从左到右：输入图像、显著目标检测[27]、注视预测[24]、图像分割（各种尺寸的区域）[28]、图像分割（具有可比较尺寸的超像素）[29]和目标提议（真阳性））[30]。

1.3 显著目标检测的历史

最早的显著性模型之一，由 Itti 等人提出。 [24]，引起了跨多个学科的第一波兴趣，包括认知心理学、神经科学和计算机视觉。该模型是早期通用计算框架和基于中心环绕机制的自下而上注意心理学理论的实现（例如，Treisman 和 Gelade [50] 的特征集成理论，Wolfe 等人的引导搜索模型 [51]，以及Koch 和 Ullman 的计算注意力架构 [52]）。在参考文献中。 [24]，伊蒂等人。展示了一些示例，其中他们的模型能够检测场景中的空间不连续性。随后的行为（例如，参考文献[53]）和计算（例如，参考文献[54]）研究使用注视作为验证显著性假设和比较模型的手段。

随着刘等人[25, 55]以及阿钱塔等人[56]的研究成果出现，掀起了第二波研究热潮，他们将显著性检测定义为一个二值分割问题。这些作者受到了一些早期致力于检测显著区域或初始目标的模型（例如马和张[57]、刘与格莱歇尔[58]，以及沃尔瑟与科赫[59]）的启发。从那时起，涌现出了大量的显著性模型。然而，这种新定义与其他已成熟的计算机视觉领域（例如图像分割（参考文献[60, 61]）、类别无关的目标候选框生成（参考文献[30, 34, 62]）、注视点预测（参考文献[54, 63 - 66]）以及目标检测（参考文献[67, 68]））之间的关联尚不明确。

随着卷积神经网络（CNN）[69]的流行，最近出现了第三波兴趣，特别是随着全卷积神经网络[70]的引入。与大多数基于对比线索的经典方法不同[1]，基于CNN的方法既消除了对手工制作特征的需要，又减轻了对中心偏差知识的依赖，因此已被许多研究人员采用。基于 CNN 的模型通常包含数十万个可调参数和具有可变感受野大小的神经元。具有大感受野的神经元提供全局信息，可以帮助更好地识别图像中最显著的区域，而具有小感受野的神经元提供局部信息，可用于细化高层生成的显着性图。这可以突出显示显著区域并细化其边界。与手工制作的基于特征的模型相比，这些理想的特性使基于 CNN 的模型能够实现前所未有的性能。 CNN模型逐渐成为显著目标检测的主流方向。

2 现状调查

在本节中，我们回顾 3 个类别的相关作品，包括：1）显著目标检测模型，2）应用程序，3）数据集。各种模型的相似性意味着有时很难在它们之间划出清晰的界限。这里我们主要关注图3所示的编年史中对主要浪潮做出贡献的模型。

图 3 显著目标检测建模的简化记录。第一波浪潮始于 Itti 等人。模型[24]，随后是第二波浪潮，引入了刘等人的方法。 [25]谁是第一个将显著性定义为二元分割问题的人。第三次浪潮始于深度学习模型以及Li和Yu模型的兴起[47]。

2.1 旧约：经典模型

在过去的二十年里，人们提出了大量的方法来检测图像中的显著目标。除了一些尝试分割感兴趣对象的模型（例如参考文献[71-73]）之外，大多数方法的目标是首先从图像中识别显著子集（即计算显著性图），然后将它们整合以分割整个显著物体。

视觉子集可以是像素、块、超像素或区域。块是从图像中均匀采样的矩形块；像素是 1 × 1 块。超像素或区域是被限制在强度边缘内的感知均匀图像块。在同一图像中，超像素通常具有可比但不同的尺寸，而区域的形状和尺寸可能会发生显著变化。在这篇评论中，术语块用于表示像素和补丁，而超像素和区域可以互换使用。

一般来说，经典方法可以根据它们利用的类型操作或属性分为两种不同的方式。

1. 基于块的分析与基于区域的分析。使用了两种类型的视觉子集：块和区域来检测显著目标。早期方法主要采用块，而区域随着超像素算法的引入而变得流行。

2. 内在线索与外在线索。检测显著物体的关键步骤是将它们与干扰物区分开来。为此，一些方法仅从输入图像本身提取各种线索，以突出显示目标并抑制干扰因素（即内在线索）。然而，其他方法认为，内在线索通常不足以区分目标和干扰物，特别是当它们具有共同的视觉属性时。为了克服这个问题，它们结合了用户注释、深度图或类似图像的统计信息等外部线索，以方便检测图像中的显著对象。

使用上述模型分类，四种组合是可能的。为了构建我们的审查，我们将模型分为三个主要子组：1）具有内在线索的基于块的模型，2）具有内在线索的基于区域的模型，以及 3）具有外部线索的模型（基于块和区域）。一些不容易融入这些子组的方法将在其他经典模型子组中讨论。审查的模型列于表 1（内在模型）、表 2（外在模型）和表 3（其他经典模型）中。

表 1 具有内在线索的显著对象检测模型（按年份排序）。元素：{PI = 像素，PA = 补丁，RE = 区域}，其中前缀 m 和 h 分别表示多尺度和分层版本。假设：{CP = 中心先验，G = 全局对比度，L = 局部对比度，D = 边缘密度，B = 背景先验，F = 焦点先验，O = 物体先验，CV = 凸性先验，CS = 中心环绕对比度， CLP = 颜色先验，SD = 空间分布，BC = 边界连接先验，SPS = 稀疏噪声}。聚合/优化：{LN = 线性、NL = 非线性、AD = 自适应、HI = 分层、BA = 贝叶斯、GMRF = 高斯 MRF、EM = 能量最小化、LS = 最小二乘求解器}。代码：{M= Matlab，C= C/C++，NA = 不可用，EXE = 可执行}

表 2 具有按其采用的线索分组的外在线索的显著对象检测模型。对于线索：{GT = 真实注释，SI = 相似图像，TC = 时间线索，SCO = 显著性共现，DP = 深度，LF = 光场}。对于显著性假设：{P = 通用属性，PRA = 预注意线索，HD = 高维特征空间中的判别性，SS = 显著性相似性，CMP = 显著性线索的补充，SP = 采样概率，MCO = 运动相干性，RP = 重复性，RS = 区域相似性，C = 相应，DK = 领域知识}。其他：{CRF = 条件随机场、SVM = 支持向量机、BDT = 提升决策树、RF = 随机森林}

表3 其他显著目标检测模型

2.1.1 具有内在线索的基于块的模型

在本小节中，我们主要回顾那些利用从图像块中提取的内在特征的显著目标检测模型。继伊蒂等人 [24] 的开创性工作之后，显著目标检测被广泛定义为捕捉场景中的独特性、与众不同之处或稀有性。

在早期的作品中[56-58]，独特性通常被计算为像素级的中心-环绕对比度。胡等人。 [74]使用其特征的极坐标变换在二维空间中表示输入图像。然后将图像中的每个区域映射到一维线性子空间。然后，使用广义主成分分析（GPCA）[75]来估计线性子空间，而无需实际分割图像。最后，通过测量区域的特征对比度和几何特性来选择显著区域。 Rosin [76]提出了一种检测显著物体的有效方法。他的方法是无参数的，只需要非常简单的像素级操作，例如边缘检测、阈值分解和矩保持二值化。瓦伦蒂等人。 [77]提出了一个基于等光度的框架，其中通过线性组合根据弯曲度、颜色增强和等中心聚类计算的显著图来估计显著图。（这段文字介绍了几种显著性检测的方法，从简单的像素对比到复杂的数学建模，体现了领域内不同方法的思路与技术。显著性检测本质上是图像处理中的一个研究方向，目的是找到图像中最能吸引注意力的区域，每种方法都有其独特的思路和适用场景。）

在一项颇具影响力的研究中，阿钱塔等人 [37] 采用了一种频率调谐方法来计算全分辨率显著图。像素的显著性计算方式如下：

其中 Iμ 是图像的平均像素值（例如，RGB/Lab 特征），Iωhc 是输入图像的高斯模糊版本（例如，使用 5 × 5 内核）。（该公式计算显著性分数 s(x) 的核心思想是：基于多尺度图像表示，通过局部对比评估显著性。它结合了高斯金字塔（多尺度特性）和像素邻域对比（局部差异），从而能够有效检测出显著的像素或区域。）

在事先不知道显著物体大小的情况下，经常采用多尺度对比度来提高鲁棒性[25, 58]。首先构建 L 层高斯金字塔（如参考文献 [25, 58] 中所示）。该金字塔第 l 层图像中像素 x 的显著性分数（表示为 I(l)）定义为

其中 N (x) 是以 x 为中心的邻域窗口（例如 9 × 9 像素）。即使有了这样的多尺度增强，在像素级导出的内在线索通常也太差而无法支持对象分割。为了解决这个问题，一些工作（例如，参考文献[25,56,78,79]）将对比度分析扩展到补丁级别（将补丁与其邻居进行比较）。（这是一种结合多尺度分析和局部对比度的显著性检测方法。它通过高斯金字塔的多尺度特性应对未知物体大小的问题，并通过局部对比捕捉像素的显著性。公式简单且计算效率高，是显著性检测的经典方法之一。）

后来在参考文献中。 [78]，Klein 和 Frintrop 提出了一种信息论方法，利用强度、颜色和方向等特征分布之间的 Kullback-Leibler 散度来计算中心-环绕对比度。李等人。 [79]将中心-周围对比度表述为成本敏感的最大边缘分类问题。中心斑块被标记为正样本，而周围的斑块全部被用作负样本。然后，基于经过训练的成本敏感支持向量机 (SVM)，中心补丁的显著性由其与周围补丁的可分离性来确定。（这段话的核心是讨论显著性检测中的一个问题及其解决方案：像素级显著性线索通常过于微弱，难以直接支持对象分割任务，因此引入了一种补丁级别的对比度分析方法。）

一些作品将补丁唯一性定义为补丁与其他补丁的全局对比[39]。直观上，如果一个补丁与其他最相似的补丁显著不同，则该补丁被认为是显著的。他们的空间距离被考虑在内。类似地，Borji 和 Itti 计算了 RGB 和 Lab 颜色空间中的局部和全局补丁稀有性，并将它们融合以预测注视位置 [65]。在最近的工作中 [80]，Margolin 等人。根据观察到在高维空间中独特的斑块比非独特的斑块更加分散，通过测量其与平均斑块的距离来定义斑块的唯一性。为了进一步合并补丁分布，通过将其到平均补丁的路径投影到图像的主要成分上来测量补丁的唯一性。

总而言之，本节中的方法旨在仅利用内在线索基于像素或块来检测显著对象。这些方法通常存在两个缺点：1）高对比度边缘通常比显著对象更突出，2）显著对象的边界没有得到很好的保留（特别是在使用大块时）。为了克服这些问题，一些方法提出基于区域计算显著性。这提供了两个主要优点。首先，区域的数量远远少于块的数量，为开发高效、快速的算法提供了潜力。其次，可以从区域中提取更多信息特征，从而获得更好的性能。这种基于区域的方法将在下一小节中讨论。

2.1.2 具有内在线索的基于区域的模型

第二组中的显著性模型采用从使用基于图的分割[81]、均值平移[28]、SLIC[29]或Turbopixels[82]等方法生成的图像区域中提取的内在线索。与基于块的模型不同，基于区域的模型通常首先将输入图像分割成与强度边缘对齐的区域，然后计算区域显著图。

作为早期的尝试，在参考文献中。 [58]，区域显著性得分被定义为区域像素的平均显著性得分，根据多尺度对比度定义。 Yu和Wong[83]提出了一组规则来根据背景和显著区域的观察来确定每个区域的背景分数。显著性被定义为全球区域对比的独特性，在许多方法中得到了广泛的研究[42, 84–87]。在参考文献中。 [84]，通过测量目标区域和所有其他图像区域之间的全局对比度，引入了基于区域的显著性算法。简而言之，图像首先被分割成N个区域。区域 ri 的显著性测量为

其中，体现了两个区域之间的外观对比度。具有较大全局对比度的区域会被赋予更高的显著度得分。w_{ij}是连接区域r_{i}和r_{j}的权重，它综合考虑了空间距离和区域大小的因素。佩拉齐等人[27]证明，如果将定义为r_{i}和r_{j}之间的欧几里得颜色距离，那么可以利用基于高效滤波的技术来计算全局对比度[88]。（这段话介绍了一种基于区域的显著性检测方法，其核心思想是通过全局区域对比来定义显著性。具体而言，显著性得分是通过计算目标区域与其他所有区域之间的加权对比度得出的。这种方法注重区域的独特性和全局差异性，结合空间权重和特征差异，能够在复杂场景中更准确地检测显著区域。）

除了颜色独特性之外，显著目标检测还考虑了纹理[85]和结构[89]等互补线索的独特性。马戈林等人。 [80]提出将区域独特性和斑块独特性结合起来形成显著性图。参考文献中提出了软抽象，而不是维护每个像素的硬区域索引。 [86]使用直方图量化和高斯混合模型（GMM）生成一组大规模感知均匀区域。通过避免关于超像素边界的硬决策，这种软抽象提供了大的空间支持，从而产生更均匀的显著区域。（这段内容讨论了显著目标检测中引入多种互补特征的独特性分析（如颜色、纹理、结构），以及通过区域和斑块的联合分析以及软抽象技术来改进显著性图的生成方法。）

在参考文献中。 [93]，江等。提出了一种基于多尺度局部区域对比度的方法，该方法出于鲁棒性目的计算多个分割的显著值，并组合这些区域显著值以获得逐像素显著图。参考文献中采用了使用多个层次分割来估计区域显著性的类似想法。 [42, 98]。李等人。 [79]通过构建超图（由超像素的非参数多尺度聚类构建）来扩展成对局部对比度，以捕获区域的内部一致性和外部分离。然后，显著对象检测被转换为在超图中查找显著顶点和超边。

就唯一性而言，显著对象也可以定义为某个特征空间中的稀疏噪声，其中输入图像表示为低秩矩阵[94,102,103]。基本假设是非显著区域（即背景）可以由低秩矩阵解释，而显著区域由稀疏噪声指示。

基于这种通用的低秩矩阵恢复框架，Shen和Wu [94]提出了一种统一的方法，将传统的低级特征与更高级别的指导相结合，例如中心先验、面部先验和颜色先验，以检测显著性基于学习到的特征转换的对象。（虽然采用外部真实注释来学习高级先验和特征转换，但我们将此模型与内部模型分类，以更好地组织基于低秩矩阵恢复的方法。此外，我们将面部和颜色先验视为通用内部模型显著物体检测的线索）。相反，Zou 等人。 [102]建议利用自下而上的分割作为低秩矩阵恢复的指导线索，以实现鲁棒性。类似于参考号。 [94]，参考文献中也采用了高级先验。 [103]，其中引入树结构稀疏性范数正则化来分层描述图像结构，以均匀突出整个显著对象。（这段文字介绍了基于低秩矩阵恢复框架的显著目标检测方法，以及如何将高级先验与低级特征结合来提高检测的鲁棒性和精度。）

除了捕获独特性之外，越来越多的先验也被提出用于显著目标检测。空间分布先验[25]意味着颜色在图像中分布得越广，显著对象包含该颜色的可能性就越小。超像素的空间分布也可以使用高斯模糊内核在线性时间内有效地评估，类似于计算方程中的全局区域对比度。（3）。参考文献中也考虑了这种空间分布先验。 [89]，并根据颜色和结构线索进行评估。

中心先验假设显著物体更有可能出现在图像中心附近，而背景往往远离图像中心。为此，文献[95, 97 - 99]在显著目标检测中采用了背景先验，假定图像的窄边框区域构成背景区域，即伪背景。以这个伪背景作为参照，区域显著性可通过区域与“背景”的对比度来计算。在文献[97]中，基于无向加权图上的流形排序，提出了一个两阶段的显著性计算框架。在第一阶段，区域显著性得分是根据赋予伪背景查询每一侧的相关性来计算的。在第二阶段，基于赋予初始前景的相关性对显著性得分进行细化。在文献[98]中，显著性计算依据相对于伪背景的稠密和稀疏重构误差来构建。每个区域的稠密重构误差通过对背景模板进行主成分分析（PCA）来计算，而稀疏重构误差被定义为背景模板稀疏表示后的残差。这两种类型的重构误差会传播到多个分割中的像素上，然后融合形成最终的显著性图。蒋等人[99]通过吸收马尔可夫链构建显著性检测，其中暂态节点和吸收节点分别是图像中心和边界周围的超像素。每个超像素的显著性通过马尔可夫链中暂态节点和吸收节点之间的吸收时间来计算。（这段文字的核心思想是：通过引入伪背景和使用不同的方法（如流形排序、重构误差、马尔可夫链等），来计算图像中区域的显著性。通过这些方法，可以基于区域与背景的对比、重构误差或马尔可夫链中的吸收时间，来确定哪些区域是显著的，哪些区域是背景。）

除了这些方法之外，通用对象先验还用于通过利用对象建议来促进显著对象检测[34]。尽管它是从训练数据中学习的，但我们也倾向于将其视为显著对象检测的通用内在线索。张等人。 [92]通过将客观性和区域显著性融合到图形模型中提出了一个计算框架。这两项是通过迭代最小化编码它们的相互作用的能量函数来联合估计的。在参考文献中。 [100]，区域对象性定义为区域内像素的平均对象性值；它被纳入区域显著性计算中。 Jia 和 Han [101] 根据客观性先验，通过将每个区域与“软”前景和背景进行比较来计算每个区域的显著性。

依赖于伪背景假设的显著对象检测有时可能会失败，特别是当对象接触图像边界时。为了克服这个问题，参考文献中使用了边界连接先验。 [84, 105]。直观上，显著对象与图像边界的连接比背景中的对象要少得多。因此，可以根据区域沿图像边界的长度与该区域的跨越面积的比率来估计区域的边界连通性得分[105]。后者可以根据该区域分别到伪背景和其他区域的测地距离来计算。将这样的边界连接得分整合到二次目标函数中以获得最终的优化显著性图。值得注意的是，在[102]中也研究了类似的边界连接先验思想，如参考文献中的分割先验和周围环境。 [106]。（这段文字继续探讨显著对象检测中其他方法的使用，具体包括通用对象先验和边界连接先验，并讨论这些方法在特定场景中的作用。）

焦点先验，即通常在焦点上拍摄显著物体以吸引更多注意力的事实，已在参考文献中进行了研究。 [100, 107]。江等人。 [100]根据焦点模糊程度计算焦点得分。通过将散焦建模为清晰图像与点扩散函数（由高斯核近似）的卷积，可以通过尺度空间分析将像素级聚焦程度估计为高斯核的标准差。通过传播边界和内部边缘像素处的聚焦分数和/或清晰度来计算区域聚焦分数。显著性分数最终由独特性（全局对比度）、客观性和焦点分数的非线性组合得出。（这段文字讨论了焦点先验在显著性检测中的应用，重点是利用图像中的焦点信息来识别显著对象。）

基于区域的显著目标检测的性能可能会受到分割参数选择的影响。除了基于多尺度区域的其他方法[42,79,93]之外，通过解决参考文献中的设施位置问题来提取单尺度潜在显著区域。 [87]。输入图像首先表示为超像素的无向图，然后通过凝聚聚类生成一组小得多的候选区域中心。在此集合上，构建子模目标函数以最大化相似性。通过应用贪心算法，可以迭代优化目标函数，将超像素分组到区域中，通过区域全局对比度和空间分布进一步测量其显著值。（这段话讨论了基于区域的显著目标检测中，如何通过不同的分割方法来影响显著性检测的性能。）

贝叶斯框架也可用于显著性计算 [96, 108]，公式为在给定输入图像 I 的情况下估计像素 x 为前景的后验概率。为了估计先验显著性，首先在检测到的点周围估计凸包 H的兴趣。凸包H将图像I分为内部区域RI和外部区域RO，提供前景和背景的粗略估计，并且可以用于似然计算。刘等人。 [104]使用基于优化的框架来检测显著对象。如参考文献中所示。 [96]，粗略估计凸包以将图像划分为纯背景和潜在前景。然后，从图像中学习显著性种子，同时从背景区域以及人类先验知识中学习引导图。利用这些线索，引入具有狄利克雷边界的通用线性椭圆系统来模拟从种子到其他区域的扩散，以生成显著图。（这段话描述了如何利用贝叶斯框架进行显著性计算，先通过凸包估计粗略的前景和背景分割，再结合优化框架来检测显著区域。通过引入显著性种子、外部先验知识，以及狄利克雷边界的通用线性椭圆系统，可以有效地扩展前景区域并生成最终的显著性图。这种方法结合了图像分割、优化和扩散技术，提升了显著性检测的精度和鲁棒性。）

在本小节回顾的模型中，显著性计算采用了三种主要类型的区域。可以使用基于图的分割算法[81]、均值平移算法[28]或聚类（量化）来生成不同大小的不规则区域。另一方面，随着超像素算法的最新进展，具有可比尺寸的紧凑区域也是流行的选择，使用SLIC算法[29]、Turbopixel算法[82]等。这两类区域之间的主要区别在于是否应考虑区域大小的影响。此外，软区域也可以考虑用于显著性分析，其中每个像素保持属于每个区域（组件）的概率，而不是具有硬区域标签（例如，由 GMM 拟合）。为了进一步增强分割的鲁棒性，可以基于多个分割或以分层方式生成区域。一般来说，单尺度分割速度较快，而多尺度分割可以提高结果的整体质量。（这段文字讨论了显著性计算中的不同区域生成方法，并解释了这些方法的特点、优缺点以及它们如何影响显著性分析的效果。）

为了衡量区域的显著性，独特性（通常以全球和局部区域对比的形式）仍然是最常用的特征。此外，越来越多的区域显著性互补先验被研究以改善整体结果，例如背景性、客观性、焦点和边界连通性。与基于块的显著性模型相比，这些先验的结合是基于区域的显著性模型的主要优点。此外，与像素和色块相比，区域提供了更复杂的线索（例如颜色直方图），以更好地捕获场景中的显著对象。使用区域定义显著性的另一个好处与效率有关。由于图像中的区域数量远少于像素数量，因此在区域级别计算显著性可以显著降低计算成本，同时生成全分辨率显著性图。

请注意，本小节中讨论的方法仅利用内在线索。在下一小节中，我们将回顾如何结合外部线索来促进显著物体的检测。

2.1.3 具有外在线索的模型

第三组中的模型采用外在线索来协助检测图像和视频中的显著对象。除了在单个输入图像中观察到的视觉线索之外，外在线索还可以从训练图像、相似图像、视频序列、包含常见显著对象的一组输入图像、深度图或光场的真实注释中得出图像。在本节中，我们将根据所使用的外在线索的类型来回顾此类模型。表 2 列出了所有具有外在线索的模型；每个方法都用几个预定义的属性突出显示。

使用相似图像进行显著目标检测。随着网络上越来越多的视觉内容的出现，近年来人们开始研究利用与输入图像在视觉上相似的图像来检测显著对象。一般来说，给定输入图像 I，首先从大量图像 C 中检索 K 个相似图像。可以通过检查这些相似图像来辅助输入 I 中的显著对象检测。（这段话介绍了使用相似图像进行显著目标检测的方法，概述了其工作原理和过程。）

在一些研究中，假设 C 的显著性注释是可用的。例如，马尔切索蒂等人。 [113]建议通过一对描述符来描述每个索引图像 Ik ，这对描述符根据显著性注释分别表示显著区域和非显著区域的特征描述符（Fisher 向量）。为了计算显著性图，输入图像的每个补丁 px 由 Fisher 向量 fx 描述。块的显著性是根据它们与前景和背景区域特征的对比度来计算的：

或者，基于不同特征对每个图像的显著性分析有不同贡献的观察，Mai 等人。 [115]建议学习特定于图像的权重而不是通用权重来融合在不同特征通道上计算的显著性图。为此，显著图的 CRF 聚合模型仅在检索到的相似图像上进行训练，以考虑聚合对单个图像的依赖性。我们将提供参考号的进一步技术细节。 [115] 第 2.1.4 节。（总结来说，本文讨论的技术方法通过使用显著性注释和特征描述符（如Fisher向量），结合特定于图像的加权和CRF聚合，来生成准确的显著性图。这些方法能够更好地捕捉显著区域，同时考虑图像特征的多样性和不同区域之间的关系。）

如果有大规模的图像集可用，基于相似图像的显著性方法效果良好。然而，在这类图像集上进行显著性标注既耗时又乏味，甚至十分棘手。为了缓解这一问题，一些方法利用了未标注的相似图像。利用网络规模的图像集C，王等人[114]提出了一种简单却有效的显著性估计算法。逐像素的显著性图按如下方式计算：

其中是具有参考 I 的的几何扭曲版本。主要见解是相似的图像提供了对背景区域的良好近似，而显著区域可能无法很好地近似。

西瓦等人。 [35]提出了一种将显著性计算作为采样问题的概率公式。如果一个补丁 px 从图像中采样的概率较低，则该补丁被认为是显著的。换句话说，如果它在从相似图像中提取的一包补丁中不常见，则将给 px 较高的显著性分数。

共显著性目标检测。共显著性目标检测算法不是专注于计算单个图像中的显著性，而是专注于发现多个输入图像共享的共同显著对象。这些对象可以是来自不同视点的同一对象，也可以是同一类别中具有相似视觉外观的对象。请注意，共显著目标检测算法的关键特征是它们的输入是一组图像，而经典的显著目标检测模型仅需要单个输入图像。

协同显著性检测与图像协同分割的概念密切相关，其目的是从多个图像中分割相似的对象[124, 125]。正如参考文献中所述。 [121]，协同显著性和协同分割之间存在三个主要差异。首先，协同显著性检测算法仅专注于检测常见的显著对象，而相似但不显著的背景也可能在协同分割方法中被分割出来[126, 127]。其次，一些共同分割方法，例如参考文献。 [125]，需要用户输入来指导模糊情况下的分割过程。第三，显著目标检测通常用作预处理步骤，因此比协同分割算法更有效的算法是首选，特别是在处理大量图像时。

Li 和 Ngan [119] 提出了一种计算具有某些共同对象的图像对的协同显著性的方法。共同显著性被定义为图像间的对应关系，即，应该为不同的区域赋予低显著性值。同样在参考文献中。 [120]，张等人。提出通过利用多个图像的额外重复性属性来计算共显著性。具体来说，像素的协同显著性分数被定义为其传统显著性分数[39]与其在输入图像上的重复可能性的乘积。傅等人。 [121]通过利用单个图像上完善的全局对比度和空间分布概念，提出了一种基于集群的协同显著性检测算法。此外，引入了多个图像上的相应线索来解释显著性的共现。

2.1.4 其他经典模型

在本节中，我们回顾了旨在使用边界框直接分割或定位显著性对象的算法，以及与显著性检测密切相关的算法。某些小节对前几节中介绍的某些模型提供了不同的分类（例如，监督模型与无监督模型）。参见表 3。

本地化模型。刘等人。 [25]将二进制分割图转换为边界框。最终输出是一组围绕显著对象的矩形。冯等人。 [128]将滑动窗口的显著性定义为其使用剩余图像部分的合成成本。基于图像的过分割，假设可以以强力方式在所有滑动窗口中有效地找到局部最大值，该局部最大值对应于显著对象。

先前许多方法的基本假设是输入图像中至少存在一个显著对象。这可能并不总是成立，因为某些背景图像根本不包含显著对象。在参考文献中。 [129]，王等人。研究定位和预测缩略图中显着对象的存在的问题。具体来说，每个图像由在多个通道中提取的一组特征来描述。显著对象的存在被表述为二元分类问题。对于定位，使用训练样本上的随机森林回归来学习回归函数，以直接输出显著对象的位置。

分割模型。对显著目标进行分割与图形-背景问题密切相关，这本质上是一个二值分类问题，旨在将显著目标与背景区分开来。于等人[90]利用了由不同基于对比度的显著性模型所生成的不完美显著性图的互补特性。具体而言，首先会为每张图像生成两张互补的显著性图，包括一张类似草图的图和一张类似轮廓的图。类似草图的图能够准确地定位最显著目标的部分区域（即高精度的骨架部分），而类似轮廓的图则可以大致覆盖整个显著目标（即具有高召回率的轮廓）。利用这两张图，首先通过训练一个像素分类器，就可以在每张图像中检测出可靠的前景和背景区域。通过用这个分类器对所有其他像素进行标注，就能将显著目标作为一个整体检测出来。在参考文献[131]中，这种方法通过学习互补的显著性图以用于显著目标分割的目的而得到了扩展。（这是一种基于显著性图互补特性的显著目标分割方法，强调通过高精度和高召回率显著性图的结合，提升分割模型对显著目标的整体检测能力。）

卢等人。 [91]利用凸性（凹性）先验进行显著对象分割。该先验假设弯曲边界凸侧的区域往往属于前景。基于这个假设，首先在超像素的轮廓上发现凹弧。凹弧的凸度上下文由靠近弧的窗口定义。然后在具有凹弧的超像素上构建无向权重图，其中顶点之间的权重是通过对图像的分层分割中不同尺度的凹度上下文求和来确定的。最后，使用归一化剪切算法[134]将显著对象与背景分离。（这项方法基于凸性（凹性）的几何特性，通过凹弧检测和多尺度上下文分析，将显著目标从背景中分离。其主要贡献是引入了凸性（凹性）先验，结合归一化剪切算法，实现了更高效且鲁棒的显著目标分割。）

为了更有效地利用上下文线索，Wang 等人。 [130]建议将自动上下文分类器[135]集成到迭代能量最小化框架中以自动分割显著对象。自动上下文模型是每个像素及其周围环境的多层增强分类器，用于预测它是否与目标概念相关。后续层建立在前一层的分类基础上。因此，通过分层学习过程，自动利用空间上下文来更准确地分割显著对象。（这一方法结合自动上下文分类器和迭代能量最小化框架，通过分层学习和全局优化有效地利用空间上下文信息，显著提升了显著目标分割的性能。其关键在于多层上下文增强分类和迭代更新机制，使得分割过程更具鲁棒性和精确性。）

有监督模型与无监督模型。大多数现有的基于学习的显著性检测工作都集中在监督场景上，即在给定一组带有真实注释的训练样本的情况下学习显著对象检测器。这里的目的是将显著元素与背景元素分开。

输入图像中的每个元素（例如，像素或区域）由特征向量表示，其中 D 是特征维度。然后，基于学习到的线性或非线性映射函数，将这样的特征向量映射到显著性分数 s ∈ R+。

可以假设映射函数 f 是线性的，即，其中 w 表示特征向量中所有分量的组合权重。刘等人。 [25]使用在显著对象的矩形注释上训练的条件随机场（CRF）模型来学习权重。在最近的工作[111]中，采用大裕度框架来学习权重w。（有监督学习通常依赖于大量标注数据来训练模型，能够在特定任务上取得较好的性能。无监督学习则不需要标注数据，而是通过自动从数据中发现模式和显著性信息来进行目标检测，适用于标注数据稀缺的情况。）

然而，由于显著性机制的高度非线性性质，线性映射可能无法完美地捕捉显著性的特征。为此，线性方法在参考文献中进行了扩展。 [109]，其中采用线性支持向量机（SVM）的混合将特征空间划分为一组使用分而治之策略可线性分离的子区域。在每个区域中，学习线性支持向量机、其混合权重以及显著性特征的组合参数，以实现更好的显著性估计。或者，也可以使用其他非线性分类器，例如增强决策树（BDT）[110, 112]和随机森林（RF）[40]。（这段文字讨论了线性映射方法在显著性检测中的局限性以及如何通过引入非线性方法来改进显著性估计。）

一般来说，与启发式方法相比，监督方法可以对元素进行更丰富的表示。在监督显著目标检测方面的开创性工作中，Liu 等人。 [25]提出了一组特征，包括局部多尺度对比度、区域中心-周围直方图距离和全局颜色空间分布。对于仅具有内在线索的模型，由于可以在区域级别提取更复杂的描述符，因此用于显著对象检测的基于区域的表示变得越来越流行。 Mehrani 和 Veksler [110] 通过考虑通用区域属性（例如颜色和形状）展示了有希望的结果，这些属性广泛用于图像分类等其他应用。江等人。 [40]提出了一个区域显著性描述符，包括区域局部对比度、区域背景性和区域通用属性。在参考文献中。 [111, 112]，每个区域由一组特征来描述，例如局部和全局对比度、背景、空间分布和中心先验。参考文献中也考虑了预注意功能。 [111]。（这段文字讨论了监督方法在显著目标检测中的应用，特别是相对于启发式方法的优势。它提到了一些监督方法如何通过更丰富的特征表示来改进显著目标检测的效果。）

通常，更丰富的表示会产生更高维度的特征向量，例如，参考文献中的 D = 93。参考文献中的 [40] 和 D = 75。 [112]。随着大量训练样本的出现，学习的分类器能够自动集成这些更丰富的特征并选择最具辨别力的特征。因此，与启发式方法相比，可以获得更好的性能。

一些模型利用了无监督技术。在参考文献中。 [35]，显著显著性计算在概率框架中被表述为采样问题。每个图像块的显著性与其从输入图像和从未标记图像语料库中检索的相似图像中提取的所有块的采样概率成正比。在参考文献中。 [136]，元胞自动机被用于无监督的显著目标检测。（这段文字描述了一些利用无监督技术进行显著目标检测的模型。无监督方法通常不依赖于带标签的训练数据，而是通过从数据中提取模式或通过其他方式自动学习显著性。这些方法的特点是避免了人工标注的需求，且常常依赖于图像的内部结构或外部相似数据进行建模。）

聚合和优化模型。给定 M 个显著图 {Si}iM=1，来自不同的显著对象检测模型或输入图像的分层分割，聚合模型尝试形成更准确的显著图。令Si(x)表示第i个显著图中像素x的显著值。在参考文献中。 [132]，博尔吉等人。提出一种标准的显著性聚合方法如下：

其中 fx = (S1(x), · · ·, SM (x)) 是像素 x 的显著性分数，sx = 1 表示 x 被标记为显著性。 ζ(·) 是一个实值函数，其形式如下：

受到参考文献中聚合模型的启发。 [132]，麦等人。 [115]提出了两种聚合解决方案。第一种解决方案采用逐像素聚合：

其中 λ = {λi|i = 1, · · · , M + 1} 是模型参数集，σ(z) = 1/(1 + exp(−z))。然而，他们注意到这种直接聚合的一个潜在问题，即它忽略了相邻像素之间的相互作用。灵感来自参考号。 [55]，他们提出了第二种解决方案，即使用条件随机场聚合多种方法的显著图来捕获相邻像素之间的关系。 CRF聚合模型的参数在训练数据上进行优化。每个像素的显著性是被训练的 CRF 标记为显著性的后验概率。（这段文字主要介绍了显著性图聚合的两种策略：一种是通过加权和直接聚合显著性图，另一种则是通过引入条件随机场（CRF）来考虑像素间的邻近关系，从而获得更精确的显著性图。）

或者，Yan 等人。 [42]将根据图像的分层分割计算出的显著性图集成到树形结构的图形模型中，其中每个节点对应于层次结构的每个级别中的一个区域。由于树结构，可以使用置信传播有效地进行显著性推断。事实上，求解三层分层模型相当于对所有单层图应用加权平均。与朴素的多层融合不同，这种分层推理算法可以为每个区域选择最佳权重，而不是全局权重。（通过构建图形模型并结合树形结构，利用置信传播来进行显著性推断。与传统的简单多层融合方法相比，这种方法通过为每个区域分配不同的权重，能够在多个层次之间进行更细致的权衡，从而提高显著性图的准确性。）

李等人。 [133]建议优化图像中所有超像素的显著性值，以同时满足多个显著性标准，包括视觉稀有性、中心偏差和互相关性。基于区域对之间的相关性（相似度分数），在考虑所有其他超像素的影响时，通过二次规划来优化每个超像素的显著性值。让 wij 表示两个区域 ri 和 rj 之间的相关性。显著性值{si}iN=1（将s(ri)简称为si）可以通过求解来优化：

这里是图像对角线长度的一半，dij和di分别是从ri到rj和图像中心的空间距离。在优化中，考虑所有其他超像素的影响，通过二次规划优化每个超像素的显著值。朱等人。 [105]还采用类似的基于优化的框架来集成多个前景/背景线索以及平滑项以自动推断最佳显著性值。（李等人提出的优化框架通过二次规划方法，结合视觉稀有性、中心偏差和相似度等多种显著性标准，优化图像中每个超像素的显著性值。这种方法有效地考虑了超像素之间的相互关系以及空间位置的影响，使得显著性图在多个标准下都能获得较好的结果。同时，朱等人提出的类似方法也采用了优化框架，来自动推断显著性值。）

采用贝叶斯框架能更有效地整合互补的稠密重构误差和稀疏重构误差 [98]。在每对区域之间构建一个全连接的高斯马尔可夫随机场，以增强显著区域之间的一致性 [101]，这使得最终区域显著性得分能够得到高效计算。

活跃模型。受交互式分割模型（例如，参考文献[137, 138]）的启发，最近出现了一种新趋势，明确地将第 1.1 节中提到的显著性检测的两个阶段解耦：1）检测最显著的对象和 2）对其进行分割。一些研究提出利用注视预测和分割模型的优点来执行主动分割。例如，米什拉等人。 [21]结合多个线索（例如，颜色、强度、纹理、立体和/或运动）来预测注视。然后在极空间中分割注视点周围显著物体的“最佳”闭合轮廓。李等人。 [22]提出了一个由两个组件组成的模型：一个提出候选区域的分割器和一个为每个区域提供显著性分数的选择器（使用注视预测模型）。类似地，Borji [23] 提出首先粗略地定位注视图峰值处的显著对象（或使用注视预测模型进行估计），然后使用超像素对对象进行分割。最后两种算法采用注释来确定分割性能的上限，提出场景中具有多个对象的数据集，并为注视预测和显著对象分割之间的内在联系提供新的见解。（这段话介绍了一种基于注视预测和分割模型相结合的主动分割方法。通过首先预测图像中的显著对象（通过注视预测），然后进行精确的分割（如使用超像素），这些方法能够有效地检测和分割显著对象。与传统方法不同，活跃模型将显著性检测的两个阶段分开，并利用注视预测来优化分割过程。）

视频中的显著对象检测。除了空间信息之外，视频序列还提供时间线索，例如运动，这有助于显著对象检测。 Zhai 和 Shah [116] 首先估计两个连续帧之间的关键点对应关系。运动对比度是根据图像之间的平面运动（单应性）计算的，这是通过将 RANSAC 应用于点对应来估计的。刘等人。 [117]将其空间显著特征[25]扩展到光流算法产生的运动场。使用彩色运动场作为输入图像，计算局部多尺度对比度、区域中心-环绕距离和全局空间分布，并最终以线性方式积分。拉赫图等人。 [108]通过考虑时间相干性约束，将空间显著性集成到能量最小化框架中。李等人。 [118]将基于区域对比度的显著性扩展到时空域。给定视频序列帧的过度分割，基于区域的颜色、纹理和运动特征，在无向未加权匹配图上以交互方式估计每两个连续帧之间的空间和时间区域匹配。区域的显著性是通过不仅在当前帧中而且在时域中计算其与周围区域的局部对比度来确定的。（这段话总结了几种基于时间信息（如运动）的视频显著对象检测方法。它们扩展了传统的静态图像显著性检测技术，结合了时间线索和运动信息来增强检测效果。例如，通过运动对比度、光流场和时空域中的区域对比度计算，结合空间和时间信息的优化方法，这些方法能够更准确地在视频序列中识别和分割显著对象。）

具有深度的显著物体检测。我们生活在 3D 环境中，立体内容提供了额外的深度线索，可以引导视觉注意力并理解我们的周围环境。 Lang等人进一步验证了这一点。 [139]通过实验分析深度线索对于眼睛注视预测的重要性。最近，研究人员开始研究如何利用深度线索进行显著物体检测 [122, 123]；这些可以从立体图像间接捕获或直接使用深度相机（例如 Kinect）捕获。（这段话强调了深度线索在显著物体检测中的潜力，特别是在三维环境中，如何通过立体图像或深度相机获取的深度信息来增强视觉注意力的引导。这种方法不仅有助于眼睛注视预测，还能更准确地帮助检测显著物体，尤其是在复杂的三维场景中。）

最直接的扩展是将第 2.1.1 节和第 2.1.2 节中介绍的广泛使用的假设应用于深度通道，例如深度图上的全局对比度 [122, 123]。此外，Niu 等人。 [122]演示如何利用立体摄影中的领域知识来计算显著图。输入图像首先被分割成区域{ri}。在实践中，关注焦点的区域通常被分配较小或零的视差，以最大限度地减少聚散调节冲突。因此，第一类基于差异的区域显著性定义为

其中和分别是最大和最小差异。表示区域 ri 的平均视差。此外，具有负视差的对象会被视为从场景中弹出。第二种类型的区域立体显著性定义为

立体声显著性由自适应权重线性计算。（这段话讲述了如何通过视差信息来计算立体显著性。它首先定义了基于视差的显著性计算公式，并解释了如何使用这些公式来计算图像中不同区域的显著性。通过利用深度信息，尤其是视差，能够提高显著物体检测的准确性，尤其在涉及3D场景时。）

光场上的显著目标检测。利用光场进行显著性检测的想法是在参考文献[107]中提出的。光场是通过专门设计的相机（例如，光场相机Lytro）捕捉得到的，本质上它是由一组呈网格状排列的相机对场景拍摄所得到的图像阵列。光场数据为显著目标检测提供了两大优势：1）它能够合成一组聚焦在不同深度的图像；2）它提供了场景深度以及遮挡情况的近似信息。

有了这些附加信息，Li 等人。 [107]首先利用焦点和对象先验来稳健地选择背景并选择前景候选者。具体来说，具有估计的背景似然得分的层用于估计背景区域。来自均值漂移算法的具有高前景似然得分的区域被选择作为显著对象候选者。最后，利用估计的背景和前景来计算全焦点图像上基于对比度的显著性图。

最近在参考文献中引入了一个用于光场显著性分析的新的具有挑战性的基准数据集，称为 HFUT-Lytro。 [140]。（这段内容介绍了如何利用焦点信息和对象先验来增强显著物体检测的准确性，强调了基于对比度的显著性图的计算方法，并提到光场显著性分析的新挑战基准数据集——HFUT-Lytro，该数据集为测试和评估基于光场的显著物体检测方法提供了一个新的平台。）

2.2 新约：基于深度学习的模型

然手工制作的功能可以实现实时检测性能，但它们存在一些缺点，限制了它们在具有挑战性的场景中捕获显著物体的能力。

卷积神经网络（CNN）[69]是机器学习中最流行的工具之一，已应用于许多视觉问题，例如对象识别[141]、语义分割[70]和边缘检测[142]。最近，研究表明 CNN [44, 47] 在应用于显著目标检测时也非常有效。由于其多层次和多尺度的特征，CNN 能够在没有任何先验知识（例如段级信息）的情况下准确捕获最显著的区域。此外，多级特征使 CNN 能够更好地定位检测到的显著区域的边界，即使存在阴影或反射也是如此。通过利用 CNN 强大的特征学习能力，人们提出了一系列算法来从大量数据中学习显著性表示。这些基于 CNN 的模型不断改进迄今为止在几乎所有现有数据集上的最佳结果，并正在成为主流解决方案。本小节的其余部分致力于回顾基于 CNN 的模型。（这段话指出，CNN 在显著目标检测中已经表现出了显著的效果，主要因为其多层次、多尺度的特征学习能力，能够自动捕捉图像中的显著区域并准确定位其边界。此外，基于 CNN 的显著目标检测模型在现有数据集上不断取得更好的表现，逐步成为主流解决方案。）

基本上，基于深度学习的显著目标检测模型可以分为两大类。第一类包括使用多层感知器 (MLP) 进行显著性检测的模型。在这些模型中，输入图像通常被过度分割成单尺度或多尺度的小区域。然后，使用 CNN 提取高级特征，然后将其馈送到 MLP 以确定每个小区域的显著值。尽管高级特征是从 CNN 中提取的，但与全卷积网络 (FCN) 不同，由于使用了 MLP，CNN 特征的空间信息无法保留。为了突出这些方法与基于 FCN 的方法之间的差异，我们将它们称为基于经典卷积网络（基于 CCN）的方法。第二类包括基于全卷积网络（基于FCN）的模型。 Long 等人的开创性工作。 [70]属于这一类，旨在解决语义分割问题。由于显著目标检测本质上是一项分割任务，因此许多研究人员采用了基于 FCN 的架构，因为它们能够保留空间信息。（基于CCN的模型通过CNN提取特征后使用MLP进行显著性预测，但丧失了空间信息。基于FCN的模型则通过全卷积结构能够更好地保留空间信息，适合用于需要分割和精确空间定位的显著目标检测任务。）

表 4 显示了基于 CNN 的显著性模型的列表。

表 4 基于 CNN 的显著目标检测模型及其在训练过程中使用的信息。上图：基于 CCN 的模型。下图：基于 FCN 的模型

2.2.1 基于CCN的模型

基于一维卷积的方法。作为早期尝试，He 等人。 [44]遵循基于区域的方法来学习超像素特征表示。与逐像素 CNN 相比，他们的方法极大地降低了计算成本，同时还考虑了全局上下文。然而，用平均颜色表示超像素的信息量还不够。此外，使用一维卷积和池化操作很难完全表示图像的空间结构，导致预测混乱，特别是当输入图像是复杂场景时。（基于一维卷积的方法通过超像素表示减少了计算量，但它在信息表达和空间结构捕捉方面存在不足，尤其是在处理复杂场景时，可能会影响显著性检测的效果。）

利用局部和全局语境。王等人考虑了局部和全局信息，以便更好地检测显著区域[160]。为此，设计了两个子网络，分别用于局部估计和全局搜索。首先使用深度神经网络（DNN-L）来学习局部图像块特征，以确定每个像素的显著值，随后进行细化操作，该操作会捕捉高层次的目标性。对于全局搜索，他们训练了另一个深度神经网络（DNN-G），利用诸如几何信息等多种全局对比特征来预测每个显著区域的显著值。利用排名前K的候选区域通过加权求和来计算最终的显著图。（王等人提出的这种方法通过结合局部细节和全局对比特征，提高了显著目标检测的效果。通过两种不同的深度神经网络来分别处理局部和全局信息，最终通过加权求和的方式融合各个候选区域，能够有效提升显著区域的准确性。）

在参考文献中。 [46]，与大多数经典的显著目标检测方法一样，同时考虑局部上下文和全局上下文来构建多上下文深度学习框架。输入图像首先被馈送到全局上下文分支以提取全局对比度信息。同时，每个图像块（这是一个以超像素为中心的窗口）被馈送到局部上下文分支以捕获局部信息。最终使用二元分类器通过最小化预测值和地面真实标签之间的统一 softmax 损失来确定显著性值。采用特定于任务的预训练方案来联合优化设计的多上下文模型。

李等人。 [144]利用两个子网络分别编码低级和高级特征。他们首先为每个超像素提取许多特征，并将它们输入到由一堆内核大小为 1 × 1 的卷积层组成的子网络中。然后，使用标准 VGGNet [152] 来捕获高级特征。低层和高层特征都被展平、连接，最后输入双层 MLP 来判断每个查询区域的显著性。（李等人提出的方法通过将低级特征和高级特征结合，利用多层卷积和神经网络结构来有效地判断显著区域。低级特征通过1×1卷积层编码，高级特征则通过VGGNet提取，最终通过双层MLP进行显著性判断。这种方法利用不同层次的特征信息，提高了显著目标检测的准确性和鲁棒性。）

基于边界框的方法。在参考文献中。 [48]，Zou 和 Komodakis 提出了一种层次相关的丰富特征（HARF）提取器。首先构建二元分割树来提取分层图像区域并分析所有区域对之间的关系。然后使用两种不同的方法来计算二元分割树的叶节点处的区域的两种特征（HARF1和HARF2）。他们利用从 RCNN [161] 提取的所有中间特征来捕获每个图像区域的各种特征。利用这些高维基本特征，计算每个基本特征类型的局部区域对比度和边界区域对比度，以构建更紧凑的表示。最后，采用AdaBoost算法逐步组装弱决策树，构建复合强回归器。（Zou 和 Komodakis的HARF提取器通过利用二元分割树构建图像区域的层次关系，结合RCNN提取的高维特征和对比度信息，构建了更精确的显著性检测方法。通过使用AdaBoost算法，该方法能够逐步优化决策过程，最终实现准确的显著目标检测。）

Kim 和 Pavlovic [145] 设计了一个两分支 CNN 架构，分别获得粗级和精细级补丁的粗略和精细表示。选择性搜索[162]方法用于生成多个候选区域，将其视为两分支 CNN 的输入。将两个分支的特征表示串联到最终的全连接层中可以预测粗略的连续图。为了进一步细化粗预测图，使用分层分割方法来锐化其边界并提高空间一致性。（Kim 和 Pavlovic 提出的两分支 CNN 架构通过粗分支和精细分支的协同工作，在多个尺度上处理图像中的显著性信息。选择性搜索方法用于生成候选区域，然后通过串联特征表示和全连接层进行粗略预测。为了提高预测精度，采用了分层分割方法来细化边界和增强空间一致性。此方法结合了粗略和精细的信息，能够有效地检测图像中的显著目标，并在边界上提供更高的准确性。）

在参考文献[146]中，王等人通过运用快速R-CNN（区域卷积神经网络）[161]框架来检测显著目标。首先，利用过分割和边缘保留方法将输入图像分割成多尺度区域。对于每个区域，采用其外部边界框，并将所框住的区域输入到快速R-CNN中。一个由多个全连接层构成的小型网络与感兴趣区域（ROI）池化层相连接，以确定每个区域的显著值。最后，使用一种基于边缘的传播方法来抑制背景区域，使生成的显著图更加均匀。

Kim 和 Pavlovic [147] 训练 CNN 来预测每个图像块的显著形状。选择性搜索方法首先用于定位一堆图像块，每个图像块都作为 CNN 的输入。在预测每个补丁的形状后，通过累加预测形状类的掩模和相应概率的乘积，并对所有建议区域求平均值，计算出中间掩模 MI。为了进一步细化粗略预测图，使用基于形状类的分层分割显著性检测（SCSD-HS）来合并更多全局信息，这通常是显著性检测所需要的。

李等人。 [149]利用 CNN 的高级特征和使用手工方法提取的低级特征。为了增强 CNN 的泛化和学习能力，通过在前两层中添加局部响应归一化（LRN）来重新设计原始 R-CNN。利用选择性搜索方法[162]生成一堆方形补丁作为网络的输入。高级和低级特征都被馈送到具有 L1 铰链损失的 SVM，以帮助判断每个方形区域的显著性。

具有多尺度输入的模型。 Li 和 Yu [47] 利用预先训练的 CNN 作为特征提取器。给定输入图像，他们首先将其分解为一系列不重叠的区域，然后将它们输入具有三个不同尺度输入的 CNN。然后采用三个子网络来捕获不同尺度的高级特征。从三个尺度的补丁获得的特征被连接起来，然后输入到只有两个完全连接层的小型 MLP 中，使用它作为回归器来输出二进制显著性标签的分布。为了解决不完美的过分割问题，使用了基于超像素的显著性细化方法。

图 4 展示了许多流行的基于 FCN 的架构。表 5 列出了这些架构利用的不同类型的信息。

图 4 流行的基于 FCN 的架构。除了经典架构（a）之外，最近还开发了越来越多的先进架构。其中一些（b-e）利用不同尺度的跳跃层来学习多尺度和多层次的特征。一些（e，g–i）采用编码器-解码器结构来更好地将高级特征与低级特征融合。其他（f，g，i）引入了侧面监督，如参考文献 1 中所示。 [142]为了捕获更详细的多层次信息。有关这些架构的详细信息，请参阅表 5。

表 5 现有基于 FCN 的模型利用的不同类型的信息。缩写：SP：超像素、SS：侧监督、RCL：循环卷积层、PCF：纯 CNN 特征、IL：实例级、Arch：架构

讨论。如我们所见，基于多层感知机（MLP）的相关研究工作大多依赖于分割层面的信息（例如，图像块）以及分类网络。通常这些图像块会被调整为固定尺寸，然后被输入到分类网络中，该分类网络用于确定每个图像块的显著性。一些模型会使用多尺度输入来提取多个尺度下的特征。然而，这样的学习框架无法充分利用高层次的语义信息。此外，空间信息无法传播到最后的全连接层，从而导致全局信息的丢失。

2.2.2 基于FCN的模型

与在补丁级别运行的基于 CCN 的模型不同，全卷积网络（FCN）[70]考虑像素级操作来克服由全连接层引起的问题，例如显著对象边界附近的模糊和不准确的预测。由于 FCN 的理想特性，最近引入了大量基于 FCN 的显著目标检测模型。

Li 和 Yu [151] 设计了一个具有两个互补分支的 CNN：像素级全卷积流（FCS）和分段空间池流（SPS）。 FCS在每个阶段的最后一个卷积层之后引入了一系列跳跃层；跳跃层融合在一起作为 FCS 的输出。请注意，CNN 的一个阶段由具有相同分辨率的所有层组成。 SPS 利用段级信息进行空间池化。最后，融合 FCS 和 SPS 的输出，然后是参考文献中使用的平衡 sigmoid 交叉熵损失层。 [142]。（这种结构能够充分利用不同层次的特征，结合局部与全局的信息，有效提高显著目标检测的准确性。此外，平衡的损失函数能够缓解数据集中正负样本不平衡的问题，进一步优化网络的训练过程。）

Liu 和 Han [150] 提出了两个子网络来生成以从粗到细和从全局到局部的方式工作的预测图。第一个子网络可以被视为编码器，其目标是生成粗略的全局预测。然后，使用由一系列循环卷积层组成的细化子网络将粗预测图从粗尺度细化到细尺度。（Liu 和 Han [150] 提出的模型通过两个子网络（编码器和细化网络）合作工作，有效地处理显著目标检测中的全局信息和局部细节。编码器通过生成粗略的全局预测，而细化子网络则逐步精细化预测图，最终得到高质量的显著性图。这种策略结合了粗略和细致的信息，有助于显著目标检测任务中的准确性和精度。）

在参考文献中。 [155]，Tang和Wu考虑了区域级显著性估计和像素级显著性预测。对于像素级预测，两条边路径连接到 VGGNet 的最后两个阶段，然后连接起来以学习多尺度特征。对于区域级估计，每个给定图像首先被过度分割为多个超像素，然后使用 Clarifai 模型 [163] 来预测每个超像素的显著性。将原始图像和两个预测图作为小型 CNN 的输入，以生成更有说服力的显著图作为最终输出。

唐等人。 [156]采用深度监督网络[164]并采用与整体嵌套边缘检测器[142]类似的架构。与 HED 不同，它们用循环卷积层替换 VGGNet 中的原始卷积层，以学习局部、全局和上下文信息。

在参考文献中。 [153]，Kuen 等人。利用空间变换器和循环网络单元提出了一个两级 CNN。首先使用卷积-反卷积网络来生成初始粗略显著图。空间变换网络[165]用于从原始图像中提取多个子区域，然后通过一系列循环网络单元逐步细化这些子区域的预测。

克鲁蒂文蒂等人。 [154]在统一网络中考虑注视预测和显著物体检测。为了捕获多尺度语义信息，引入了四个初始模块[143]，它们分别连接到第二、第四、第五和第六阶段的输出。这四个边路径连接起来并通过一个由两个卷积层组成的小网络，以减少上采样的混叠效应。最后利用sigmoid交叉熵损失对模型进行优化。

李等人。 [157]考虑联合语义分割和显著对象检测。与FCN工作[70]一样，VGGNet[152]中的两个原始全连接层被卷积层取代。为了克服 CNN 下采样操作引起的模糊对象边界，他们利用 SLIC [166] 超像素来建模超像素之间在空间和特征维度上的拓扑关系。最后，图拉普拉斯正则化非线性回归用于将 CNN 和超像素图的预测组合从粗略级别更改为精细级别。（通过结合语义分割、CNN和SLIC超像素分割技术，有效解决了显著目标检测中的精细边界问题。利用卷积层替代全连接层，结合超像素和图拉普拉斯正则化的非线性回归，他们能够同时保持图像的空间信息和目标边界的精确性，从而实现更高质量的显著性图。）

张等人。 [158]使用 CNN 提取的显著性线索和多级融合机制来检测显著性对象。 Deeplab [167] 架构首先用于捕获高级特征。为了解决 Deeplab 中的大步幅问题，采用多尺度二进制像素标记方法来提高空间一致性，如参考文献 1 所示。 [47]。

Li 等人的 MSRNet [159]。执行显著对象检测和实例级显著对象分割。多尺度 CNN 用于同时检测显著区域和轮廓。对于每个尺度，上层的特征与下层的特征合并，以逐渐细化结果。为了生成轮廓图，MCG [168]方法用于提取少量候选边界框和良好分割的区域，用于帮助执行显著对象实例分割。最后，采用全连接 CRF 模型 [169] 来细化空间相干性。（MSRNet 提出了一种强大的方法，通过多尺度特征提取、候选边界框和分割区域提取，以及CRF细化，能够有效地处理显著对象的检测和实例分割。多尺度CNN确保了对不同尺寸显著区域的准确检测，而MCG和CRF的结合进一步提升了实例级分割的精度和空间一致性，使得MSRNet成为一个非常有效的显著目标检测和分割框架。）

侯等人。 [49]设计了一个基于HED架构的自顶向下模型[142]。不是将独立的侧路径连接到每个阶段的最后一个卷积层，而是引入一系列短连接来在每对侧路径之间建立牢固的关系。因此，具有强语义信息的上层特征被传播到下层，帮助它们准确定位显著对象的准确位置。同时，来自较低层的丰富详细信息允许对来自更深层的不规则预测图进行细化。利用特殊的融合机制来更好地组合不同边路径预测的显著性图。

讨论。上述方法均基于全卷积网络，能够实现点对点学习和端到端训练策略。与基于 CCN 的模型相比，这些方法更好地利用了卷积运算，并大大降低了时间成本。更重要的是，最近利用 CNN 特征的基于 FCN 的方法 [49, 159] 大大优于那些使用分段级信息的方法。

综上所述，利用基于FCN的模型进行显著性检测具有以下三个优点：

1. 局部与全局。正如第 2.2.1 节中提到的，早期的基于 CNN 的模型显式地（嵌入到单独的网络中 [4547]）或隐式地（使用端到端框架）结合了本地和全局上下文信息。这确实符合前面章节中回顾的许多手工制作线索背后的设计原则。然而，基于 FCN 的方法能够在内部学习局部和全局信息。较低层倾向于编码更详细的信息，例如边缘和精细组件，而较深层则倾向于编码全局和语义上有意义的信息。这些特性使基于 FCN 的网络能够远远优于经典方法。

2.预训练和微调。微调预训练网络的有效性已在许多不同的应用中得到证明。该网络通常在 ImageNet 数据集 [170] 上进行预训练以进行图像分类。通过简单的微调，学到的知识可以应用于几个不同的目标任务（例如，对象检测[161]、对象定位[171]）。显著目标检测也采用了类似的策略 [46, 151]，与从头开始训练相比，它具有优越的性能。更重要的是，所学习的特征能够捕获有关对象类别的高级语义知识，因为所使用的网络是针对场景和对象分类任务进行预训练的。

3. 多功能架构。 CNN 架构由一堆不同的层组成，这些层通过可微函数将输入图像转换为输出图。 FCN 的多样性使得设计者能够设计出适合自己的不同结构。

尽管取得了巨大成功，基于 FCN 的模型在某些情况下仍然失败。典型示例包括具有透明物体、前景和背景之间对比度较低以及背景复杂的场景，如参考文献 1 所示。 [49]。这需要未来开发更强大的架构。

图 5 提供了经典模型和基于 CNN 模型生成的地图的直观比较。

图 5 根据参考文献，两种最佳经典方法（DRFI 和 DSR）的视觉比较。 [132]，以及两种领先的基于 CNN 的方法（MDF 和 DSS）。

3 显著目标检测的应用

显著目标检测模型的价值在于它们能应用于计算机视觉、图形学以及机器人技术等诸多领域。显著目标检测模型已被用于多个应用场景，比如目标检测与识别[180–186]、图像与视频压缩[187, 188]、视频摘要[189–191]、照片拼贴/媒体重定向/裁剪/生成缩略图[174, 192, 193]、图像质量评估[194, 196]、图像分割[197–200]、基于内容的图像检索和图像集浏览[177, 201–203]、图像编辑与处理[41, 175, 178, 179]、视觉跟踪[204–210]、目标发现[211, 212]以及人机交互[213, 214]。图6展示了一些应用示例。

图 6 显著目标检测的示例应用。

4 数据集和评估措施

4.1 显著目标检测数据集

随着文献中提出越来越多的模型，引入了更多的数据集来进一步挑战显著性检测模型。早期的尝试旨在收集带有边界框注释的显著对象的图像（例如，MSRAA 和 MSRA-B [25]），而后来的努力则使用像素级二进制掩码注释此类显著对象（例如，ASD [37] 和 DUT-欧姆龙[97]）。通常，可以使用精确蒙版进行注释的图像包含很少的对象（通常是一个）和简单的背景区域。相反，最近已经尝试收集具有杂乱背景的复杂场景中的多个对象的数据集（例如，参考文献[22,23,26]）。如前所述，当同一场景中存在多个候选对象时，需要更复杂的机制来确定最显著的对象。例如，Borji [23] 和 Li 等人。 [22]使用人类注视图的峰值来确定哪个物体最显著（即人类看最多的物体；参见第 1.2 节）。

表6提供了包含20个图像数据集和2个视频数据集在内的22个显著目标数据集列表。请注意，这些数据集中的所有图像或视频帧都带有二值化掩码或矩形标注。通常会要求被试者标记出图像中的单个显著目标（例如，参考文献[25]），或者标注出几个候选目标中最显著的那个（例如，参考文献[26]）。一些图像数据集还针对每张图像提供了在自由观看任务期间收集到的注视点数据。

表 6 流行的显著对象数据集概述。上图：图像数据集，下图：视频数据集。 Obj：每个图像的对象、Ann：注释、Sbj：主题/注释者、Eye：眼动追踪主题、I/V：图像/视频

4.2 评价措施

接下来描述用于评估显著目标检测模型的五种普遍认可的、标准的且易于计算的方法。为简单起见，我们使用 S 表示标准化为 [0, 255] 的预测显著图，使用 G 表示显著对象的真实二进制掩码。对于二进制掩码，我们使用 | · |表示掩码中非零条目的数量。

4.2.1 精确率-召回率（PR）

首先将显著图 S 转换为二进制掩码 M，然后通过将 M 与真实值 G 进行比较来计算精度和召回率：

S的二值化是评估的关键步骤。执行二值化有三种流行的方法。在第一个解决方案中，Achanta 等人。 [37]提出了用于二值化 S 的图像相关自适应阈值，其计算值为 S 平均显著性的两倍：

其中W和H分别是显著图S的宽度和高度。

二值化 S 的第二种方法是使用 0 到 255 之间的阈值。对于每个阈值，计算一对（精度、召回率）分数并用于绘制精度-召回率 (PR) 曲线。

执行二值化的第三种方法是使用类似 GrabCut 的算法（例如，如参考文献 [84] 中所示）。这里，首先计算 PR 曲线，并选择导致 95% 召回率的阈值。利用该阈值，生成初始二进制掩码，然后将其用于初始化迭代 GrabCut 分割[138]以逐渐细化二进制掩码。

4.2.2 F-measure

通常，精确度和召回率都不能完全评估显著性图的质量。相反，使用 F-measure，定义为具有非负权重的精度和召回率的加权调和平均值：

在许多显著目标检测工作中（例如，参考文献[37]），设置为 0.3，以赋予精度更大的权重：召回率不如精度那么重要（另请参见参考文献[55]）。例如，通过将整个地图设置为前景，可以轻松实现 100% 的召回率。

4.2.3 受试者工作特征（ROC）曲线

在上面，当使用一组固定阈值对显著性图进行二值化时，可以计算假阳性率（FPR）和真阳性率（TPR）：

其中和分别表示二进制掩码 M 和真实值 G 的补集。 ROC 曲线是所有可能阈值的 TPR 与 FPR 的关系图。

4.2.4 ROC曲线下面积（AUC）

ROC 是模型性能的二维表示，而 AUC 将此信息提炼为单个数字。顾名思义，它的计算方式是 ROC 曲线下的面积。完美模型的 AUC 得分为 1，而随机猜测的 AUC 得分约为 0.5。

4.2.5 平均绝对误差（MAE）

上面介绍的基于重叠的评估措施不考虑真正的负显著性分配，即正确标记为非显著性的像素。他们喜欢成功地将高显著性分配给显著像素但无法检测非显著区域的方法。此外，对于某些应用[227]，加权连续显著性图的质量可能比二进制掩模更受关注。为了进行更全面的比较，建议评估连续显著图 S 和二值真实值 G 之间的平均绝对误差 (MAE)，两者均归一化到范围 [0, 1]。 MAE 分数定义为

请参阅参考文献。 [228]有关显著对象检测领域的数据集和分数的更多详细信息。评估措施的代码可在 http://mmheng.net/salobjbenchmark 上找到。

5 讨论

5.1 设计选择

在过去的二十年中，人们提出了数百种基于经典和深度学习的方法来检测和分割场景中的显著对象，并探索了大量的设计选择。尽管最近取得了巨大成功，但仍有很大的改进空间。我们详细的方法总结（参见表 1 和表 2）传达了一些关于常用设计选择的明确信息，这些对于未来算法的设计很有价值，正如我们现在所讨论的。

5.1.1 启发法与从数据中学习

早期的方法主要基于启发式线索（局部或全局）来检测显著目标[27, 37, 84, 97]。近来，基于学习算法的显著性模型已被证明十分有效（见表1和表2）。在这些模型中，基于深度学习的方法由于能够从大型数据集中学习大量外部线索，因而极大地优于传统的启发式方法。用于显著目标检测的数据驱动方法似乎有着出人意料的良好泛化能力。然而，一个新出现的问题是，显著目标检测的数据驱动理念是否与这些模型的易用性相冲突。大多数基于学习的方法仅在MSRA5K数据集的一个小子集上进行训练，但在其他所有差异颇大的数据集上仍然始终优于其他方法。这表明，从应用的角度来看，在不丧失简单性和易用性优势的情况下，进一步探索数据驱动的显著目标检测是很有价值的。（尽管基于学习的显著性目标检测方法已经在精度和泛化能力方面超过了传统的启发式方法，但如何在性能和易用性之间取得平衡仍然是一个值得关注的挑战。未来的研究应着眼于如何进一步优化数据驱动方法，提升其在多样化场景下的表现，并解决其在实际应用中的易用性问题。）

5.1.2 手工制作的特征与基于 CNN 的特征

第一代基于学习的方法基于许多手工制作的特征。这些方法的一个明显缺点是它们的通用性，特别是当应用于复杂杂乱的场景时。此外，这些方法主要依赖于过分割算法，例如SLIC [166]，产生具有高对比度分量的不完整的显著对象。基于 CNN 的模型在某种程度上解决了这些问题，即使考虑到复杂的场景也是如此。由于 CNN 具有学习多级特征的能力，因此可以轻松准确地定位显著目标。边缘等低级特征能够锐化显著对象的边界，而高级特征允许合并语义信息来识别显著对象。（基于CNN的显著性目标检测方法通过多层次的特征学习和低级与高级特征的结合，在处理复杂、杂乱背景的任务时优于早期的手工特征方法。CNN能够通过边缘特征锐化目标边界，并通过语义信息整合目标的上下文，有效地解决了第一代方法中由于过分割或手工特征设计带来的问题。这些特点使得基于CNN的显著性目标检测方法在复杂场景中表现出更高的准确性和通用性。）

5.1.3 基于CNN的显著性检测的最新进展

最近提出了各种基于 CNN 的架构。在这些方法中，有一些有前途的选择可以在未来进一步探索。第一个涉及深度监督的模型。如参考文献所示。 [49]，深度监督网络增强了不同层特征的力量。第二种选择是编码器解码器架构，它已在许多与分割相关的任务中采用。这种方法逐渐将高级特征反向传播到较低层，从而实现多级特征的有效融合。另一种选择是利用更强大的基线模型，例如使用非常深的 ResNets [229] 而不是 VGGNet [152]。

5.2 数据集偏差

数据集对于显著性检测的快速进展非常重要。一方面，它们提供大规模训练数据并能够对竞争算法进行性能比较。另一方面，每个数据集都是无限应用领域的唯一样本，并且包含一定程度的偏差。

迄今为止，对于数据集底层结构中存在偏差（即倾斜）似乎达成了一致意见。因此，一些研究已经解决了图像数据集中偏差的影响。例如，Torralba 和 Efros 识别了计算机视觉数据集中的三种偏差，即：选择偏差、捕获偏差和负集偏差 [230]。选择偏差是由数据收集过程中对特定类型图像的偏好引起的。它会在数据集中产生质量相似的图像。最常用的显著对象基准数据集 [37] 中强烈的颜色对比度（参见参考文献 [22, 84]）证明了这一点。因此，数据集构建中的两种做法是首选：i）具有独立的图像选择和注释过程[22]，ii）首先检测最显著的对象，然后对其进行分割。负集偏差是缺乏丰富且无偏见的负集的结果，即，人们应该避免专注于感兴趣的特定图像，而数据集应该代表整个世界。负集偏差可能会通过结合注释者对某些对象类型的个人偏好来影响真实值。因此，在构建良好的数据集时，鼓励包含各种图像。捕获偏差传达了图像合成对数据集的影响。这种偏差中最流行的一种是倾向于将重要对象放在图像的中心区域来合成图像，即中心偏差。数据集中存在偏差使得定量比较非常具有挑战性，有时甚至会产生误导。例如，由图像中心的高斯斑点组成的平凡显著性模型通常比许多注视预测模型得分更高[63,231,232]。

5.3 未来方向

这里讨论了构建更有效的模型和基准的几个有前景的研究方向。

5.3.1 超越单一图像

本研究中讨论的大多数基准和显著性模型都处理单个图像。不幸的是，对多个输入图像的显著对象检测（例如，视频序列上的显著对象检测、共显著对象检测以及深度和光场图像上的显著对象检测）的探索较少。其背后的原因之一是这些问题的基准数据集的可用性有限。例如，如第 4 节所述，只有两个公开可用的视频显著性基准数据集（主要包括卡通和新闻）。对于这些视频，仅为关键帧提供边界框以大致定位显著对象。多模式数据变得越来越容易获取和负担得起。整合时空一致性和深度等额外线索将有利于有效的显著目标检测。（总之，随着多模态数据（如视频、深度图像和光场图像）变得更容易获得，显著性目标检测模型也应当朝着多输入、多线索的方向发展，以应对更复杂和更具挑战性的应用场景。）

5.3.2 实例级显著目标检测

现有的显著性模型是与对象无关的（即，它们不会将显著区域分割为对象）。然而，人类拥有在实例级别检测显著物体的能力。实例级显著性在多种应用中非常有用，例如图像编辑和视频压缩。

实例级显著性检测的两种可能的方法如下。第一种方法使用对象检测或对象提议方法，例如 FastRCNN [161]，来提取一堆对象边界框候选对象，然后分割其中的显著对象。第二种方法最初在参考文献中提出。 [159]，是利用边缘信息来区分不同的显著对象。(实例级显著性检测的两种方法都各有优缺点。基于对象检测的方法通过现有的对象检测技术提供了较为直接和成熟的路径，但可能受到背景复杂性和训练数据的限制。基于边缘信息的方法则在物体实例的精细分割方面具有优势，尤其在物体边界清晰的情况下，但也面临边缘检测不足的挑战。随着深度学习技术的进步，未来可能会出现将两者结合的混合方法，以更好地处理复杂场景中的实例级显著性检测任务。)

5.3.3 多样化的网络架构

随着研究人员对 CNN 的了解越来越深入，越来越多有趣的网络架构被开发出来。使用先进的基线模型和网络架构[151]可以显著提高性能。一方面，更深的网络有助于更好地捕获显著对象，因为它们能够提取高级语义信息。另一方面，除了高级信息之外，还应该考虑低级特征[49, 159]来构建高分辨率显著性图。

5.3.4 未解答的问题

剩下的一些问题包括：需要多少（显著）对象来表示一个场景？地图平滑会影响分数和模型排名吗？显著目标检测与其他领域有何不同？解决模型评估中中心偏差的最佳方法是什么？模型和人类之间还存在什么差距？与其他相关领域（例如注视预测的显著性、场景标记和分类、语义分割、对象检测和对象识别）的协作可以帮助回答这些问题，更好地定位该领域并确定未来的方向。

6 总结与结论

在本文中，我们详尽地回顾了密切相关领域的显著目标检测文献。检测和分割显著对象非常有用。图像中的物体会自动比背景物体（例如草、树和天空）吸引更多的注意力。因此，如果我们能够首先检测到显著或重要的物体，我们就可以在下一阶段进行详细的推理和场景理解。与传统的专用对象检测器相比，显著性模型是通用的，通常速度很快，并且不需要大量注释。这些特性允许以低成本处理大量图像。

探索显著物体检测和注视预测模型之间的联系可以帮助提高这两种模型的性能。在这方面，非常需要能够提供人类显著物体判断和眼球运动的数据集。进行行为研究来了解人类如何感知场景中的物体并对其进行优先排序，以及这个概念如何与语言、场景描述和字幕、视觉问答、属性等相关，可以提供宝贵的见解。此外，更加注重评估和比较显著对象模型以衡量未来的进展至关重要。解决数据集偏差（例如中心偏差和选择偏差）并转向更具挑战性的图像非常重要。

尽管近年来显著目标检测和分割方法取得了长足的进步，但仍然缺乏一种可以为几乎所有图像生成高质量结果的非常鲁棒的显著目标检测算法。即使对于人类来说，图像中最显著的物体是什么有时也是一个相当模糊的问题。为此，提出一般性建议：

不要问细分市场能为您做什么，而要问您能为细分市场做什么。 — 吉腾德拉·马利克

在尝试构建鲁棒算法时尤其重要。例如，在处理嘈杂的互联网图像时，尽管显著对象检测和分割方法不能保证单个图像的鲁棒性能，它们的效率和简单性使得自动处理大量图像成为可能。这允许出于可靠性和准确性的目的对图像进行过滤，稳健地运行应用程序[84,174,175,177,179,233]，以及无监督学习[176]。

标签：显著性,检测,模型,显著,区域,图像,一项
From： https://blog.csdn.net/m0_59899305/article/details/144329280