【论文阅读】【IEEE TGARS】RRNet: Relational Reasoning Network WithParallel Multiscale Attention for Salient

标签：关系 Multiscale Fs Network 特征尺度 Attention 卷积推理

引言

任务：光学遥感显著目标检测-关系推理

论文地址：

RRNet: Relational Reasoning Network With Parallel Multiscale Attention for Salient Object Detection in Optical Remote Sensing Images | IEEE Journals & Magazine | IEEE Xplore

代码地址：

rmcong/RRNet_TGRS2021 (github.com)

前置知识

光学遥感图像显著目标检测（rsi-SOD）

本文中光学rsi指机载或卫星源采集的400 - 760nm范围内的彩色图像。

一、摘要

光学遥感图像显著目标检测（SOD）旨在定位和提取图像中视觉上显著的对象/区域。由于光学遥感图像存在复杂背景和尺度变化的目标等固有问题，一些显著性模型虽然被提出，但准确性和完整性仍待提高。

本文提出了一种关系推理网络（RRNet），结合了并行多尺度注意力（PMA）机制，用于光学遥感图像的显著目标检测。

二、面临的挑战

1.对象数量和规模方面存在挑战。显著性物体多。

鸟瞰图使光学rsi中的物体呈现出大规模的变化，从占据几个像素的汽车到贯穿整个图像的河流。由于成像采集高度的不同，即使属于同一类别的物体也可能有不同的尺度。

此外，与手持相机捕获的nsi不同，光学rsi采集过程采用了大范围的类似扫描的方式，这导致显著目标的位置几乎是随机的，从而使传统的中心先验失效。

2.复杂背景和成像干扰的挑战。

室外顶置成像方式和较宽的成像范围使得光学rsi往往包含更复杂的背景。此外，其他环境因素，如天气条件、光照强度和拍摄时间，可能会造成各种不可预测的干扰，表现为阴影、过度曝光、外观变化和形状扭曲。

待解决问题

现有方法存在显著目标检测缺失和不完整的问题。

我们尝试在高级编码器阶段嵌入一个关系推理模块，对图上不同对象或对象的不同部分的语义关系进行建模。利用图结构的表示能力，我们设计的关系推理机制不仅可以构建各个空间区域之间的约束关系，还可以对通道维度的语义关系进行推理，从而获得更全面、更深入的内部建模关系。

包含抽象语义信息的高级特征适合进行关系推理以实现完整的检测，而低级特征具有更高的空间分辨率和更详细的信息（如边界），可以补充解码过程以实现细节恢复。然而，考虑到不同尺寸的物体在高空间分辨率下容易被检测到，直接使用粗糙的低层特征可能会造成额外的冗余干扰。

我们提出了一种并行多尺度注意（PMA）机制，该机制可以在恢复低层细节的同时抑制不重要的特征。在现有编码器-解码器网络的解码器阶段，丢失的细节不仅难以通过一系列反褶积层恢复，而且还会被上采样操作粗化，如图1第三行中的平面。

因此，我们以两种并行的方式通过多个接受域来处理低级特征。在此基础上，将低层次特征细化为二维注意图，可以有效还原细节信息。

三、创新点

一种新的端到端关系推理网络，具有并行多尺度注意力（RRNet） 用于光学 RSI 中的 SOD，它由关系推理编码器和多尺度注意力解码器组成。

在编码器阶段的高级层设计了一个关系推理模块，以模拟语义关系并强制生成完整的显著对象。这是在 SOD 框架中为光学 RSI 引入关系推理的首次尝试。此外，我们创新性地沿空间和通道维度共同采用关系推理，以获得更全面的语义关系。

在解码器阶段的低级层提出了一种并行的多尺度注意力方案，以多尺度和注意力的方式恢复细节信息。该机制可以通过多尺度设计处理物体尺度变化问题，同时借助并行注意力选择的较浅特征有效恢复细节信息。

四、关系推理编码器

将关系推理机制引入到编码器阶段，该机制建立了图上每个像素和每个通道之间的语义关系

在空间和通道两个维度上进行图推理建模。

具体来说，我们的关系推理模块是在图模型上进行的，并解耦为两个不同的维度，即空间关系推理（SRR）和通道关系推理（CRR）。首先将高级卷积特征Xs （s∈{3,4,5}）馈送到SRR模块，生成空间推理特征Fs rs，然后将CRR模块应用到特征Fs rs上，生成通道推理特征Fs rc。

4.1图构造

对于现有方法中的图推理，首先需要将坐标空间中的特征投影到图空间中，进行一般的图卷积。然后进行反向投影，将得到的特征变换回原始坐标空间。

相反，我们跳过投影和重投影过程，通过将特征空间视为定义在低维图上的数据的特殊情况来节省计算。

我们将提供空间/通道图和邻接矩阵计算的细节。

a)空间图和通道图：由于这些物体的两端往往跨度很大，甚至贯穿整个图像（如图1中的河流），因此如何完整地检测覆盖远距离的显著物体是光学rsi的SOD中的难点问题。SRR可以建立任意两个空间位置之间的语义关系，从而约束无论物体的距离有多远，其语义关系都是相关联的。对于输入特征Xs∈RH×W×C，我们首先将其重塑为Gs∈RH W×C。因此，我们可以构建具有H W个顶点的空间图，每个顶点由RC×1对应的通道特征表示。

在高级特征方面，它们往往包含更紧凑的语义信息，但其空间分辨率往往相对较小，而通道信息相对较大且丰富。如果只在空间空间中实现关系推理，许多有用的通道特征将无法得到充分利用。因此，我们创新地构建了一个通道图，并在其上应用关系推理。对于图形的构建，将高层特征的每个通道视为一个顶点，并使用相应通道的所有空间信息来描述顶点。假设SRR模块的输出特征记为Fs rs∈RH×W×C，我们将其重塑为一个二维张量Gs c∈RC×H W，进一步得到c个顶点，用相应的空间特征RH W×1表示。这样，通道图上的图卷积就可以对不同通道之间的语义关系进行建模。

b)邻接矩阵：在确定相应图模型Gs∈Ra1×a2上的顶点信息后，我们定义邻接矩阵A ~来表示成对顶点的相似度，其中a1表示顶点的数量，a2表示每个顶点的特征维数。

下面[44]，我们使用欧几里德距离来度量邻接矩阵~ A中顶点i和j之间的相似度。在实现中，使用点积距离来计算A ~ = [~ Ai j]∈Ra1×a1，如下所示：

其中conv1×1是一个定制的1×1卷积层，然后是ReLU非线性激活，是一个对角矩阵，它关注内积以学习更好的距离度量，定义为

其中avepool（·）是平均池化，diag（·）将向量重塑为对角矩阵。

4.2图推理

对于前三个卷积阶段的原始侧特征图重构的图信息Gs∈Ra1×a2， s∈{3,4,5}表示卷积阶段。

我们的目标是生成经过图推理编码的输出特征Fs r∈RH×W×C，定义为

其中为可训练权矩阵，为图拉普拉斯矩阵，σ为ReLU激活函数。为了动态捕捉顶点特征之间的语义关系，我们在这里使用的拉普拉斯矩阵是与数据相关的参数。因此，~ L不被限制为一个特定的，随着不同的特征而变化。它是用对称的规范化形式表示的

其中为数据相关邻接矩阵，I为单位矩阵。

如前所述，如果在空间图上进行推理，得到的特征记为Fs rs。如果在通道图上进行推理，则表示为Fs rc。关系推理前后的特征可视化如图4所示。从中可以看出，经过图推理模块后，多个显著目标之间和同一显著目标内的完整性得到了显著提高。

五、多尺度注意解码器

其中“Att”表示空间注意力模块，“Conv”表示不同核大小的卷积运算。

与现有方法不同，我们在注意图的维度上进行多尺度计算，并从多尺度特征生成的角度设计了两种互补的注意计算方法。

一种是直接对不同接受域下的输入特征进行多尺度注意计算，得到不同尺度的注意图，然后融合生成全局多尺度注意图，如图5左侧所示。

二是先进行多尺度特征提取，得到多尺度特征，然后对每个尺度特征进行关注计算，如图5右侧所示。前者强调不同感受域下的不同注意信息，后者强调多尺度特征的注意信息。

总之，我们使用低阶卷积特征Xs∈RC×H×W来计算两个多尺度空间注意图As l和As r，其中s∈{1,2}表示卷积阶段。最后，将这两个多尺度注意图整合到最终的注意图中，以细化上采样解码器特征。

5.1单尺度特征上的多尺度注意

对于空间注意[45]，首先对输入特征应用平均池化和最大池化，然后使用卷积层和sigmoid激活生成最终的注意图。我们用多尺度卷积代替上述过程中的卷积层，直接提取输入特征的多尺度注意图。

具体来说，我们利用x上的平均池化和最大池化来形成两个单通道映射，然后沿着通道轴将它们连接起来，从而生成一个双通道

其中concat（·）表示沿通道轴的特征拼接，avepool（·）和maxpool（·）分别是平均池化和最大池化。得到的双通道描述符在突出显示信息区域方面是有效的。然后，通过3 × 3、5 × 5和7 × 7不同滤波尺寸的卷积层，将一个双通道描述子转化为3个二维空间注意力图

其中σ表示sigmoid函数，convn×n表示滤波器大小为n×n的卷积操作，θ´n×n为相应卷积操作的可学习参数。

最后，将这三个具有不同感受野的注意图进行聚合，得到最终的多尺度注意图As 1，计算结果为

⊕代表元素求和

5.2多尺度关注多尺度特征

在这个流中，我们强调多尺度注意力是由多尺度特征产生的。也就是说，与左流不同的是，对输入特征x分别施加滤波器大小为3×3、5×5、7×7的三个卷积层，生成多尺度特征Fs 3×3∈RH×W×C、Fs 5×5∈RH×W×C、Fs 7×7∈RH×W×C

其中convn×n表示滤波器大小为n×n的卷积运算。然后，我们对这三个多尺度特征采用空间注意方法，生成三个空间注意图：As，r 3×3∈RH×W, As,r 5×5∈RH×W, As,r 7×7∈RH×W。与左流类似，我们通过加法将三个图聚合以生成多尺度注意力图As r

最后，将单尺度和多尺度特征生成的多尺度注意力组合成最终的注意力图As f∈RH×W

作为一个整体，我们通过串联和卷积将传递的较深特征Fs d与相应的较浅特征进行融合，得到融合特征Fs−1 d，如图2右上方所示。为了更好地恢复多尺度细节，利用浅层特征产生的多尺度注意力来突出深层特征。将融合后的特征作为深层特征与浅层特征进行融合。在形式上，上述融合过程可表示为

其中圈点表示使用频道广播的元素乘法，↑表示2倍空间上采样操作，F s−1 e为相应的编码器特征。当s∈{2,3}时，F s−1 e = Xs−1；否则，F s−1 e = F s−1 rc 。

六、损失函数

使用类平衡二元交叉熵作为显著性预测监督的损失函数

其中S为预测的显著性图，L为显著性基础真值标签，p = (B−Bm)/B和q = Bm/B用于平衡显著性和背景像素的贡献，B表示图像中像素的数量，Bm表示标签L中正数的数量。

七、网络结构

RRNet，包括一个关系推理编码器和一个多尺度注意解码器。

编码器生成分层特征，即，来自前两个阶段的低级特征和来自后三个阶段的高级特征。在每个高级阶段之后，依次采用二维关系推理，通过推理语义关系来提炼特征。编码器获得的低级特征被输入到PMA模块中，生成包含有价值信息的注意图，以恢复丢失的细节。右上部分为传递的深层特征与浅层特征融合的计算过程

主干提取器由五个顺序堆叠的卷积块组成，从前两个卷积块获得相应的低级特征，从最后三个卷积块获得相应的高级特征。这五个卷积块特征记为{X1， X2, X3, X4, X5}。然后，每个高级卷积特征后面跟着一个关系推理模块，对对象或区域的语义关系进行推理和建模。

在特征解码过程中，我们逐步融合不同层次的特征图，并在低层次中嵌入PMA模块，从两个多尺度计算角度提取多尺度注意力图。然后，利用得到的注意图，通过残差连接对传递的融合特征进行细化。

最后，我们利用最后的解码特征通过额外的卷积层来预测最终的显著性映射。

八、模型评估

采用精确召回率（P-R）曲线、f -测度（f - β）、平均绝对误差（MAE）、e -测度（Em）和s -测度（Sm）来定量评估我们提出的模型的性能

分别在ORSSD[29]和EORSSD[28]数据库上进行训练和测试。

ORSSD数据集包含600张训练图像和200张测试图像，EORSSD数据集包含1400张训练图像和600张测试图像。采用翻转和旋转相结合的数据增强技术来提高训练样本的多样性，每个样本产生7个变体。此外，由于计算资源有限，每个样本都统一调整为224×224。

实验中使用在ImageNet[48]上预训练的Res2Net-50[47]作为主干特征提取器。

RTX 2080Ti GPU

采用ADAM优化策略对模型参数进行35 000次迭代训练，批大小设为8个。初始学习率设为5e−5，然后均匀递减至5e−7。我们使用的权重初始化方法是Xavier策略[49]，偏置参数初始化为常量