论文分享---CVPR2024：用于单源域泛化目标检测的无偏 Faster R-CNN

论文地址

https://arxiv.org/pdf/2405.15225

简介：

此论文由刘亚静，周世军，刘希尧，郝春辉，范宝杰，田建东，中国科学院沈阳自动化研究所机器人国家重点实验室、中国科学院机器人与智能制造研究所、中国科学院大学、南京邮电大学在CVPR2024上发表。

摘要

单源域泛化（SDG）物体检测 是一项极具挑战性且关键的任务，因为在看不见的目标域中的分布偏差会显著降低算法性能。然而，现有方法试图提取域不变特征，却忽视了偏差数据会导致网络学习到非因果且难以泛化的特征。为此，本文提出了无偏 Faster R-CNN (Unbiased Faster R-CNN,UFR)，用于学习可泛化的特征。

具体而言，我们从因果关系的角度构建了结构因果模型（SCM），用于分析任务中的数据偏差和特征偏差，这些偏差由场景混杂因子和物体属性混杂因子引起。基于此模型，我们设计了全局-局部变换模块进行数据增强，有效模拟了域的多样性，减轻了数据偏差。

此外，本文引入了因果注意力学习模块，该模块结合了设计的注意力不变损失，旨在学习对场景混杂因子鲁棒的图像级特征。此外，我们还开发了因果原型学习模块，通过显式实例约束和隐式原型约束进一步缓解物体属性混杂因子的负面影响。实验结果表明，本文方法在多个场景下具备卓越的泛化能力，在“夜间-晴朗”场景下的mAP提高了3.9%。

1. 引言

在感知系统的部署过程中，未见域中的分布偏移问题经常出现，导致模型性能显著下降【3,34】。因此，域泛化【6, 19, 37, 50】作为迁移学习的一个分支逐渐兴起，其目的是将多个源域中的知识泛化到未见的目标域。单源域泛化（SDG）是域泛化的一个特例，只有一个源域【31, 43,51】，其重点在于探索模型在不同图像损坏条件下的鲁棒性。

现有的两种 SDG 物体检测方法采用了基于 Faster R-CNN【33】的不同泛化策略。基于领域不变特征学习的方法【44】通过对网络施加约束，显式地分解领域不变特征和领域特定特征，而不依赖数据增强技术。基于数据增强的方法【38】通过扰乱数据分布并增加输入数据的多样性来提高模型的泛化能力。

然而，这两种策略都存在某些限制。首先，已经证明【45】领域不变特征本质上是领域依赖且有偏的，因为当前领域中的不变特征可能对其他领域是变异的。这可以归因于从有偏的数据分布中学习到的领域不变特征不是因果特征，不能很好地适应未见的目标环境。其次，单纯依靠数据增强而不对网络特征施加约束的领域泛化方法，未能从丰富的增强数据分布中捕捉因果特征，导致网络在增强域中表现良好，但在未见域中效果较差。

我们将上述两个限制的原因总结为输入空间中的数据偏差和表示空间中的特征偏差。特征偏差进一步分为图像级别的注意力偏差和物体级别的原型偏差，如图 1 和图 2 所示：

（1）数据偏差：未见目标域中的数据分布变化多端，如图 2 所示。因此，仅从单一域学习不变特征会加剧输入数据和标签之间的统计依赖【28】，导致在已见环境中的学习结果出现偏差。

（2）注意力偏差：在具有复杂上下文的未见域中进行测试时，如图 2 所示，上下文特征可能混淆物体特征，导致网络更多地关注物体的上下文，而非物体本身。我们将此称为场景干扰因素。

（3）原型偏差：每个类别具有独特的因果属性，如结构信息，这些信息高度具有判别性，而不是诸如视角或颜色等非判别性特征，这些特征我们称之为物体属性干扰因素，如图 2 所示。因此，如果学习到的类别特征没有被约束，网络可能会错误地将源域中经常出现的混淆属性特征作为类别原型，而这些特征有偏且无法泛化。

为此，我们提出了如图 1 所示的无偏 Faster R-CNN（UFR）模型，并与基础 Faster R-CNN【33】进行了比较。UFR 模型通过数据增强模拟多样化的数据分布，并对特征施加约束，以学习场景级因果注意力和物体级因果原型，从而消除注意力偏差和原型偏差。

具体来说，我们在 SDG 任务中定义了场景、物体、因果特征和非因果特征之间的因果关系，并构建了结构因果模型（SCM）来分析由场景干扰因素和物体属性干扰因素引起的数据偏差和特征偏差。此外，我们提出了全局-局部变换（GLT）模块，在频率域中增强数据，并利用 SAM【15】的分割能力在空间域中增强局部物体。

为了解决场景干扰因素问题，我们提出了因果注意力学习模块，该模块通过注意力不变性损失将场景级因果特征的学习转化为因果注意力的学习。为了进一步学习物体级的因果特征，我们引入了因果原型学习模块，该模块包含对实例特征分布的显式约束和对原型关系的隐式约束。

我们的方法在五种天气条件下的实验中验证了其有效性。我们的贡献总结如下：

（1）我们首次从因果视角研究单源域泛化物体检测，并分析了三种偏差对检测器的泛化能力的影响，即数据偏差、注意力偏差和原型偏差。

（2）我们构建了结构因果模型来分析由两种干扰因素引起的偏差，并进一步提出了无偏 Faster R-CNN，通过全局-局部变换模块、因果注意力学习模块和因果原型学习模块分别减轻数据偏差、注意力偏差和原型偏差。

（3）我们在五种不同的天气条件下评估了我们的方法，以证明其有效性和优越性，并且在 Night-Clear场景中我们的方法获得了 3.9% 的 mAP 提升。

图 1

比较普通的Faster R-CNN（FR）[33]（上）和我们提出的无偏Faster R-CNN（下）。对于普通FR [33]，输入数据的有偏分布导致网络学习偏向于可见环境的有偏特征，而对不可见测试环境的泛化性较差。特征偏向可以归结为图像层面的注意偏向和对象层面的原型偏向。我们的方法在输入空间中减少了数据偏差，并在表示空间中进一步学习了无偏差注意和原型。

图1解析：

Vanilla Faster R-CNN：

Vanilla Faster R-CNN 是经典的物体检测模型，它通过以下几个步骤完成物体检测任务：

特征提取器（Feature Extractor）：从输入图像中提取特征。

区域建议网络（RPN）和感兴趣区域（ROI）：利用提取的特征生成候选区域，用于进一步的物体检测。

全连接层（MLP）：根据生成的候选区域，完成最后的分类和定位任务。在这个模型中，图中强调了三种偏差：

数据偏差（Data Bias）：原始图像中由于不同域（如晴天、夜晚、雨天等）的环境差异引入的数据偏差。这种偏差会导致模型对特定环境的依赖，影响其在新环境中的表现。

注意力偏差（Attention Bias）：在特征提取之后，模型可能会对图像中某些不相关的背景或场景信息过度关注，而忽略了目标物体的关键特征。这会影响检测的准确性，特别是在场景变化的情况下（如从晴天到雨天）。

原型偏差（Prototype Bias）：在分类阶段，模型可能依赖物体的一些非判别性特征（如颜色、材质），而这些特征在不同场景或视角下可能会发生变化，导致模型在新的环境中无法正确识别物体。

这些偏差会导致模型在测试时（如在晴天、夜晚、雨天、雾天等不同环境下）表现出不稳定性，难以准确泛化到新场景。

Unbiased Faster R-CNN：

Unbiased Faster R-CNN 是改进版的物体检测模型，旨在减少上述偏差，从而提升模型在不同环境中的鲁棒性。它通过以下方式进行改进：

数据偏差消除（Data Debiasing）：通过设计全局-局部变换模块（Global-LocalTransformation Module），对输入图像进行数据增强，使得训练数据的分布更加多样化，模拟不同的环境条件（如光照、背景），从而减少模型对特定环境的依赖。这帮助模型更好地适应不同的输入数据分布。

注意力偏差消除（Attention Debiasing）：通过引入因果注意力学习模块（Causal Attention Learning Module），模型能够更好地识别和专注于物体本身的重要特征，而不是背景或其他场景特征。这种方法通过注意力不变损失确保模型在不同场景下对物体的关注保持一致，从而减少场景变化对模型性能的影响。

原型偏差消除（Prototype Debiasing）：通过因果原型学习模块（Causal Prototype Learning Module），模型学习到的物体原型能够在不同场景下保持一致。这意味着模型可以更加依赖于物体的本质特征（如形状、轮廓等），而不是颜色、材质等容易随环境变化的特征，从而减少原型偏差的影响。

图 2

在不可见的目标域中，高度可变的数据分布、不同的上下文和对象属性的图示。

图2解析：

该图展示了单源域泛化（Single-Source Domain Generalization, SDG）物体检测任务中的关键问题：数据分布的变化以及源域和目标域之间的上下文和属性多样性。

它通过直观的流程描述了模型如何从已知的源域（Seen Source Domain）迁移到未见的目标域（Unseen Target Domains），并重点展示了多样的场景背景和物体属性如何影响检测任务。

源域和目标域（Seen Source Domain & Unseen Target Domains）：

左侧展示的是源域中的数据，这些数据通常来自统一的场景（例如晴天、城市背景），并具有相对稳定的物体特征（如车辆）。

右侧展示的是目标域中的数据，包含未见过的场景（例如夜晚、雨天、雾天），背景和物体特征与源域存在显著不同。这种变化会导致模型在新域中的表现不佳，因为模型在源域中学习到的特征可能无法直接应用到目标域。

数据分布的变化（Diverse Data Distribution）：

中间的三角形表示不同的数据分布。源域和目标域的数据在特征空间中的分布不同，表现为颜色、形状的多样性。源域数据在训练过程中是已知的，模型基于此分布学习；而目标域中的分布则是未见过的，模型需要通过泛化能力来适应这种变化。

上下文多样性（Context Diversity）：

下方的方框展示了源域和目标域之间的上下文差异。在源域中，物体（如汽车）通常处于特定背景下（如城市道路、晴天等），而在目标域中，物体可能出现在完全不同的背景下（如乡村道路、夜晚、雾天等）。这种上下文的多样性会干扰模型，使其难以专注于物体本身的特征。

物体属性多样性（Attribute Diversity）：

不仅上下文发生变化，物体的属性（如颜色、形状、大小、视角等）在目标域中也会发生变化。例如，一辆汽车在源域中可能是白色的，而在目标域中则可能是蓝色的。此外，源域和目标域中的物体可能从不同的角度拍摄，导致模型无法仅依赖单一的视角或属性来进行物体检测。

混杂因子（Confounders）：

图中间明确标出了“混杂因子”（confounders），即那些引入场景和属性多样性的因素。这些混杂因子可能导致模型在源域中过度依赖某些非因果特征（如背景、颜色等），从而在目标域中表现不佳。通过解决这些混杂因子，模型可以更好地学习因果特征，从而提升泛化能力。

2. 相关工作

2.1 域泛化

解决域泛化问题的常见策略包括 域对齐【19, 37, 42, 45】、元学习【2, 6, 40, 50】、数据增强【14, 16, 38】、集成学习【24, 29, 36】、自监督学习【8, 10】以及解耦学习【20, 39, 49】。

作为域泛化的一个特例，单源域泛化（SDG）的解决方案也可以归类为上述几种策略中的一部分。许多早期研究使用数据增强【17, 31, 38, 43】来生成分布外样本，以扩展源域的分布。

例如，Wang 等人【43】提出了一种样式互补模块，用于生成多样化的样式化图像。Vidit 等人【38】提出了一种用于 SDG 的语义增强方法，利用预训练的 CLIP【32】进行物体检测。

此外，一些工作采用特征归一化策略【4, 12, 26, 27】来学习领域不变特征。例如，Fan 等人【7】提出了一种ASR-Norm 层，用于学习标准化和重新缩放统计数据。

2.2 计算机视觉中的因果机制

因果机制考虑到统计依赖性无法可靠地预测反事实输入的标签【28】。因此，探索因果关系【1】有助于获得超出观察数据所支持的稳健知识【35】。

最近，因果机制在计算机视觉领域中引起了广泛关注【11, 25, 46, 48】。许多工作使用因果机制来解决域泛化【18, 22, 30, 41, 45】和领域适应【13, 21, 23, 47】问题。

例如，Yue 等人【47】应用因果机制进行领域适应，并使用领域不变的解耦来识别干扰因素。Lv 等人【22】提出了一个用于因果启发的域泛化的表示学习框架。

此外，Liu 等人【21】提出了一种去耦合无偏教师，用于解决无源域适应问题。Xu 等人【45】介绍了一种基于因果启发的数据增强策略，通过多视角对抗性鉴别器消除了非因果因素。

在本文中，我们首次将因果机制应用于单源域泛化物体检测任务，并提出了无偏 Faster R-CNN，以从图像级别和物体级别学习因果特征。

3. 结构因果模型

考虑从观察环境（源域）中获得的数据（如图像）为 $X$ ，以及其目标（如检测标签）为 $Y$ ，单源域泛化物体检测的目标是将经过训练的模型从观察环境泛化到未见环境（目标域）。

我们从因果视角表示图像，并构建了一个结构因果模型（SCM），如图 3 所示，用于描述物体检测任务中的因果关系，并尝试消除由场景干扰因素和物体属性干扰因素引起的数据偏差和特征偏差。

SCM 背后的推理如下：

$O \rightarrow X \leftarrow D$ 表示图像由场景 $D$ 和一组物体 $O$ 组成。

$D$ 是场景干扰因素， $O$ 的非判别性属性是物体属性干扰因素。

$O \rightarrow Z_V \leftarrow D$ 表示非因果特征 $Z_V$ 由场景干扰因素和物体属性干扰因素组成。

$O \rightarrow Z_C \rightarrow Y$ 表示因果特征 $Z_C$ 由物体的判别性属

性决定，如形状，预测标签 $Y$ 来源于因果特征 $Z_C$ 。

$X \rightarrow f_\phi(X) \rightarrow Y$ 表示网络模型参数化的数据流。

基于构建的 SCM，理想的网络特征映射为 $f_\phi(X) = Z_C$ ，公式为：

f $f_\phi(X^{(a_1, d_1)}) = f_\phi(X^{(a_k, d_k)})$

其中 $a_1 \neq a_k$ ， $d_1 \neq d_k$ 。公式（1）表明，模型学习到的图像的理想表示在不同数据增强下是不变的。

$a_1$ 和 $d_1$ ：表示与输入图像相关的物体属性（ $a_1$ ）和场景特征（ $d_1$ ）。换句话说，物体属性可能是物体的颜色、材质等，场景特征则是背景、光照、环境等。

$f_\phi(X)$ ：表示通过带有参数 $\phi$ 的模型网络 fff 提取的图像特征。

为了实现上述目标，我们将目标分解为图像级别的注意力不变学习和物体级别的原型不变学习，并进一步提出无偏 Faster R-CNN 模型，如图 4 所示，详细内容将在第 4 节中讨论。

图3

为目标检测任务构建的结构因果模型（SCM）。节点表示变量，实线箭头表示直接因果关系，虚线箭头表示存在数据依赖性。

图3解析：

该图展示了论文中提出的结构因果模型（Structural Causal Model, SCM），用于解释物体检测任务中的数据生成过程及其因果关系。通过该模型，作者试图区分与物体类别直接相关的因果特征

（Causal Features, $Z_C$ ）与不相关的非因果特征（Non-Causal Features, $Z_V$ ），并解释如何从不同的场景和物体属性中学习出有助于泛化的因果特征。

图中关键节点和箭头的解释：

节点解释：

$D$ 场景（Scene）：表示图像中的背景或场景信息，通常与任务目标无关。例如，晴天、夜晚、城市或乡村背景。

$O$ 物体（Objects）：指的是图像中的目标物体，如汽车、行人等。物体有判别性的因果特征（如形状、轮廓）和非因果特征（如颜色、材质）。

$X$ 图像（Image）：由场景 DDD 和物体 OOO 共同生成的输入图像 $X$ 。模型通过对图像 $X$ 进行特征提取来预测目标物体。

$Y$ 标签（Labels）：图像 $X$ 的对应标签，表示物体的类别或检测目标（例如，这是一辆汽车或一辆自行车）。

$Z$ 特征空间（Feature Space）：包含两类特征：

$Z_C$ 因果特征（Causal Features）：与物体类别有直接因果关系的特征，例如物体的形状、轮廓等。这些特征在各种场景下都保持稳定。

$Z_V$ 非因果特征（Non-Causal Features）：与任务无关的特征，通常是场景或物体属性中的混杂信息（如背景颜色、光照、物体颜色等），这些特征在不同的场景中可能变化。

箭头解释：

实线箭头（Causal Arrows）：表示因果关系。图中实线箭头从 $O$ （物体）指向 $Z_C$ 和 $Z_V$ ，说明物体 $O$ 决定了提取到的因果特征和非因果特征。

同时， $Z_C$ 的因果特征会影响输出标签 $Y$ ，也就是说，模型根据因果特征来判断物体的类别。虚线箭头（Data Dependence Arrows）：表示数据的依赖性。

图中 $X \rightarrow f_\phi(X)$ 的虚线箭头表示图像 $X$ 通过神经网络 $f_\phi$ 被处理，生成输出标签 $Y$ 。同时，虚线箭头从 $O$ 和 $D$ 指向 $X$ ，说明图像 $X$ 是由场景和物体共同生成的。

图的整体分析：

数据生成过程：图像 $X$ 由场景 $D$ 和物体 $O$ 共同决定。这意味着输入图像包含了物体相关的因果特征（如物体的形状）以及场景背景中的非因果特征（如光照或颜色）。这些特征可能混杂在一起，导致模型在训练时容易依赖非因果特征。

特征分解：模型需要将提取到的特征分为两类：因果特征 $Z_C$ 和非因果特征 $Z_V$ 。因果特征是与物体类别直接相关的特征，模型应该依赖这些特征来进行物体检测，而非因果特征则与任务无关，应该被忽略或弱化。

消除偏差的目标：通过结构因果模型，模型的目标是减少或消除数据偏差和特征偏差，专注于学习图像中与物体类别相关的因果特征。这将提高模型在不同场景中的泛化能力，确保它在新环境中也能正确地识别物体，而不是依赖于特定场景中的背景或物体属性。

4. 无偏 Faster R-CNN

4.1 全局-局部变换

全局-局部变换的完整过程如图 5 所示，包含了在频率域中的全局变换（GT）和在空间域中的局部变换（LT）。受频率域增强技术的启发，全局变换的公式如下：

$GT(x) = \mathcal{F}'(G(H(r) \cdot \mathcal{F}(x)) + (1 - H(r)) \cdot \mathcal{F}(x))$

其中 $\mathcal{F}$ 表示傅里叶变换， $\mathcal{F}'$ 为其逆变换。 $H(r)$ 是带通滤波器， $G(\cdot)$ 是根据高斯分布随机化的函数。 $1 - H(r)$ ，这部分保留了图像的剩余频率成分，确保这些成分不被高斯扰动影响，从而保留原图像的完整性。

公式的工作原理：

傅里叶变换 $\mathcal{F}$ ：首先，将图像 $x$ 通过傅里叶变换 $\mathcal{F}$ 转换到频率域。在频率域中，图像的信息被表示为不同的频率分量，高频部分代表图像的细节和纹理，低频部分代表图像的整体结构和背景。

滤波器 $H(r)$ ：接着，带通滤波器 $H(r)$ 被应用于傅里叶变换后的图像，选择性地保留或改变图像的某些频率成分。例如，带通滤波器可以只保留高频成分，改变图像中的细节，或只保留低频成分，改变图像的整体结构。

高斯扰动 $G(\cdot)$ ：滤波器处理后的频率成分会经过一个高斯随机扰动函数 $G(\cdot)$ ，这个步骤用来引入随机性，模拟不同域之间的分布差异。高斯扰动会在频率域内对图像进行轻微的随机变动，增强数据的多样性。

逆傅里叶变换 $\mathcal{F'}$ ：最后，处理后的频率信息通过逆傅里叶变换 $\mathcal{F'}$ 被转换回空间域，生成一个增强后的图像。这张图像保留了原始图像的一部分频率信息，同时加入了新的频率分量以增强图像的多样性。

对于局部变换，如图 5 所示，我们首先通过 Segment Anything Model (SAM) 获取目标物体的掩码：

$SAM(x, B) = m^O$

其中 $x$ 是输入图像，B 是物体的边界框集合， $m^O$ 是获取的掩码集合掩码,通常是一个二值矩阵， $O$ 是输入图像中的物体集合。

然后我们通过以下方式提取目标物体的图像：

$x^{o^k} = x \odot m^{o^k}$

通过这个操作，只有掩码 $m^{o_k}$ 标记为1的位置会保留图像的原始像素值，而其他位置的像素值会被置为0。这种操作用于提取图像中指定对象的局部区域。

接下来，局部变换的公式为：

$LT(x) = T_0(x^{bg}) + \sum_{k=1}^{n_O} T_k(x^{o^k})$

其中 $x^{bg}$ 表示背景图像， $T_0(\cdot)$ 和 $T_k(\cdot)$ 表示对背景和目标物体选择的随机增强策略。

通过 GLT 模块输出的增强图像表示为：

$GLT(x) = \alpha \cdot GT(x) + (1 - \alpha) \cdot LT(x),$

其中 α 是用于平衡 GT 和 LT 图像的融合权重。

图4

图4解析：

1. 输入图像和增强图像：

Source Images（源图像）：模型最初接收到的输入图像，它们可能是来自源域的正常图像。Augmented Images（增强图像）：通过全局-局部变换模块对源图像进行增强，生成具有多样性、带有不同特征的图像。这些增强操作可以模拟不同场景或域下的变化（如不同光照、背景等），从而帮助模型减少对特定场景的依赖，提高其在目标域中的泛化能力。

2. 全局-局部变换模块（Global-Local Transformation, GLT）：

该模块将原始图像进行全局和局部的变换，增强图像的多样性。全局变换主要在频率域上进行调整，模拟不同的场景变化，而局部变换则专注于物体本身和背景的分别增强，通过物体掩码进行局部分割和增强。增强后的图像与原图像一同被输入到网络中进行训练。

3. 特征提取和共享网络：

原图像和增强后的图像通过共享的特征提取网络（卷积）提取特征。这样可以确保模型在面对不同域的输入时，提取的特征具有一致性，减少模型对特定场景的依赖。

4. 因果注意力学习模块（Causal Attention Learning Module）：

该模块的作用是确保模型在不同场景下能够专注于与任务相关的因果特征。通过注意力机制，模型在不同图像中学习到的注意力分布应该保持一致，不会因为场景背景的变化而改变对物体的关注。这个模块通过监督模型，使其在面对不同场景时能够专注于物体本身的判别性特征，减少对背景等无关信息的依赖。

5. RPN和ROI：

RPN（Region Proposal Network） 和 ROI（Region of Interest） 分别用于生成候选区域（大小不一的方框）和提取感兴趣区域。在该步骤中，模型根据因果注意力学习到的图像特征，选择用于进一步检测的物体区域。

6. 因果原型学习模块（Causal Prototype Learning Module）：

该模块的目的是让模型学习到每一类物体的因果原型，即每个类别的典型特征表示。通过显式实例约束（实线箭头）和隐式原型约束（虚线箭头），确保模型能够在不同场景中学习到一致的物体特征表示，不会因为颜色、材质等非因果特征的变化而影响物体识别。

7. 监督损失 $L_{\text{sup}}$ ：

最终，模型通过多层感知器（MLP）进行物体分类和定位任务，产生相应的输出。监督损失 $L_{\text{sup}}$ 用于优化网络，确保模型能够学习到稳定的因果特征，并通过注意力和原型约束提升模型在不同域中的鲁棒性。

图5

图 5 解析：

该图展示了全局-局部变换模块（Global-Local Transformation, GLT）的整体架构，该模块用于对输入图像进行增强，通过全局变换（GT）和局部变换（LT）的结合，生成更具多样性的图像。这种图像增强技术有助于提升模型的泛化能力，使其在不同域中的表现更加鲁棒。

1. 全局变换（Global Transformation, GT）：
频率域变换：首先，输入图像被转换到频率域。在频率域中，图像被分解为不同的频率分量，低频分量代表图像的整体结构和大范围的特征，而高频分量则代表图像中的细节信息和纹理。

带通滤波器 $H(r)$ ：在频率域中使用带通滤波器 $H(r)$ 对图像进行选择性增强，控制哪些频率成分被保留或改变。滤波器的半径 r决定了对哪些频率范围的成分进行操作。

高斯扰动 ${N}(0,1)$ ：在频率域中对选择的频率分量施加高斯随机扰动，使用 $N(0,1)$ （均值为0，方差为1）生成的随机数作为高斯扰动，可以为数据添加随机噪声，模拟各种不确定性或随机变化。模拟图像在不同场景或环境中的变化。例如，光照变化、色彩差异或背景变化。这种扰动能够打破图像的固定模式，使模型学会适应更多的变化。

逆傅里叶变换：最后，经过扰动处理的频率分量通过逆傅里叶变换回到空间域，生成增强后的图像。

2.局部变换（Local Transformation, LT）：
物体掩码生成：使用Segment Anything Model (SAM)结合输入的图像和GT box（边界框）信息生成物体掩码。掩码用于分离图像中的物体和背景部分。

局部增强：根据生成的物体掩码，分别对物体和背景进行局部增强（如旋转、缩放、颜色扰动等）。这一步允许模型对图像中的物体和背景进行独立处理，从而提高物体部分的多样性，而不干扰背景部分。

3. 图像融合：

权重组合 $a$ 和 $1-a$ ：全局变换生成的图像和局部变换生成的图像通过权重 $a$ 和 $1-a$ 进行加权融合。具体来说，权重 $a$ 决定了全局变换的贡献，而 $1-a$ 决定了局部变换的贡献。两者的加权和最终生成增强后的图像。

4. 图像增强的目标：

通过全局变换和局部变换的结合，生成的增强图像既具有全局场景的变化特性，又保持了局部物体和背景的独立增强。这种双重增强策略能够帮助模型更好地适应不同场景和环境下的多样性，提升其对未见场景的泛化能力。

4.2 因果注意力学习

我们将场景级因果特征的学习转换为因果注意力的学习，从而消除对非因果特征的显式解耦，而是专注于基于注意力选择因果特征。

具体来说，我们希望网络在不同场景中准确捕获物体特征。因此，我们将主干输出的不同数据分布图像的特征注意图强制收敛，定义注意力不变性损失为：

$\mathcal{L}_{att} = Dice(g(F_{att}^{(a_0,d_0)}), g(F_{att}^{(a_k,d_k)}))$

$F_{\text{att}}^{(a,d)} = \sigma(E(x^{(a,d)})),$

其中 $g(\cdot)$ 是像素级二值化函数， $F_{att}^{(a,d)}$ 是计算的注意力图， $sigma(\cdot)$ 是 Sigmoid 函数， $E$ 表示骨干网络, $x^{(a0,d0)}$ 为原始输入图像， $x^{(ak,dk)}$ 为随机增强图像。

Dice 损失用于测量两个样本之间的区域相似性，其定义为：

$Dice(X_1, X_2) = 1 - \frac{2 |X_1 \cap X_2| + 1}{|X_1| + |X_2| + 1}.$

其中 $X_{1}$ 和 $X_{2}$ 是两个二进制映射。特征图值为1的区域为显著注意区域，值为0的区域为非显著注意区域。

然后，我们根据注意力图为后续的区域建议网络（RPN）选择因果特征以生成目标建议：

$P = RPN(E(x^{(a_0,d_0)}) \odot F_{att}^{(a,d)}).$

公式的整体含义是：在特定的数据增强或域设置下，首先通过特征提取器 $E$ 从输入图像中提特征，然后与注意力特征 $F_{\text{att}}$ 进行逐元素相乘，结合这两个特征后输入到区域提议网（RPN），生成候选区域 $P$ 。

这种方法利用注意力机制，引导RPN更好地定位对目标检测有实际意义的区域，提高候选区域的质量和目标检测的准确性。

4.3 因果原型学习

为了促进物体级因果特征的学习，我们引入了因果原型学习模块，该模块包含显式约束和隐式约束。

显式约束施加在来自不同数据分布的 ROI 特征上。具体来说，给定从源图像生成的建议集 $P$ ，我们选择置信度高于阈值 $t$ 的建议，然后定义显式约束为：

$\mathcal{L}_{exp} = KL(p^{do(a_0,d_0)}, p^{do(a_k,d_k)})$

其中， $KL$ 表示Kullback-Leibler散度， $p^{do(a_0, d_0)}$ 是 $p(y | f(x^{(a_0, d_0)}, P(t))$ 的简写， $p^{do(a_k, d_k)}$ 是 $p(y | f(x^{(a_k, d_k)}, P(t))$ 的简写，而 $p^{do(a, d)}$ 表示 $MLP(f(x^{(a,d)}, P(t))$ 。

显式约束 ${L}_{\text{exp}}$ 鼓励从不同数据分布中学习的类别表示的类内距离集中，同时在对象特征层面上为数据增强的图像提供监督信息，这提高了对象区域的显著性，从而改进了数据增强图像的目标定位性能。

另一方面，隐式不变性约束限制了不同数据分布中类别原型之间的关系。我们假设，对于相同类别的因果原型，来自不同数据分布之间的距离小于不同类别的原型之间的距离：

$dist(v_{c_i}^{(a_0,d_0)}, v_{c_j}^{(a_k,d_k)}) > dist(v_{c_i}^{(a_0,d_0)}, v_{c_i}^{(a_k,d_k)}) \approx 0$

其中 $i \neq j$ ， $dist(\cdot)$ 是距离度量函数， $v_{c_i}^{(a_0, d_0)}$ 是源数据分布中类别 $c_i$ 的原型， $v_{c_j}^{(a_k, d_k)}$ 是增强数据分布中类别 $c_j$ 的原型。原型 $v_c$ 是通过对属于类别 $c$ 的ROI特征进行动态平均计算得到的。

我们将满足上述假设的隐式约束转化为原型对比损失:

$\mathcal{L}_{imp} = - \sum_{i} \log \frac{\exp(s(i,i))}{\sum_j \exp(s(i,j))}$

$s(i, j) = \text{sim}(v_{c_i}^{(a_0, d_0)}, v_{c_j}^{(a_k, d_k)}) / \tau,$

其中 $i \neq j$ , $sim()$ 为余弦相似度，τ为温度参数。最终，CPL 模块的损失函数为：

$\mathcal{L}_{prot} = \mathcal{L}_{exp} + \mathcal{L}_{imp}.$

该模块的约束将进一步细化图像级注意力，从而允许输入RPN模块的特征包含更多关于对象的判别信息。

4.4 模型优化

原始图像和增强图像的数据流共享网络参数，总的训练损失为：

$\mathcal{L} = \mathcal{L}_{sup} + \lambda_1 \mathcal{L}_{att} + \lambda_2 \mathcal{L}_{prot}$

其中 ${L}_{sup}$ 是原始图像和增强图像的有监督目标检测损失，λ1/2为超参数。在推理阶段，我们的 UFR 模型保持与基础 Faster R-CNN [33] 相同的参数大小，不增加额外的空间复杂度。关键区别在于根据公式 (10) 计算馈送到 RPN 网络的特征。

5. 实验

5.1 实验设置

数据集：我们在文献 [44] 中构建的数据集上进行了实验。该数据集包含五种不同的天气条件，包括 Daytime-Clear（白天晴天）、Daytime-Foggy（白天雾天）、Dusk-Rainy（黄昏雨天）、Night-Clear（夜晚晴天） 和 Night-Rainy（夜晚雨天）。Daytime-Clear 场景 被用作源域，包含19,395 张训练图像和 8,313 张测试图像。

其他四个场景作为未见目标域，分别包括：3,775 Daytime-Foggy 条件下的图像、3,501 张 Dusk-Rainy 条件下的图像、26,158 张 Night-Clear 条件下的图像和 2,494 张 Night-Rainy 条件下的图像。

该数据集为七种物体类别提供了标注，分别是：行人（person）、汽车（car）、自行车（bike）、摩托车（motor）、骑手（rider）、公交车（bus） 和 卡车（truck）。

实现细节：我们采用 Faster R-CNN [33] 搭配 ResNet-101 [9] 作为物体检测器。骨干网络初始化为预训练在 ImageNet [5] 上的权重。我们使用 随机梯度下降（SGD） 优化器进行训练，动量设为 0.9，迭代 80,000 次。训练过程中，学习率设为 0.001，批大小为 4。此外，阈值 t 设为 0.7，超参数 λ1 和 λ2 都设为 0.1。

数据增强设置：在空间域中的局部变换方面，我们随机应用高斯模糊、颜色抖动、随机擦除和灰度化等数据增强策略。公式 (6) 中的融合权重 α 是一个范围在 [0, 1] 之间的随机标量。

5.2 与现有技术的比较

按照文献 [44] 的设定，我们使用 Mean Average Precision（mAP） 作为评价指标，并报告了mAP@0.5 的结果。我们将所提出的方法与几种特征归一化的 SDG 方法进行了比较。

包括 SW [27]、IBN-Net [26]、IterNorm [12] 和 ISW [4]，以及两种单源域泛化的物体检测方法，包括SDGOD [44] 和 CLIP-Gap [38]。此外，我们还与基础 Faster R-CNN（FR）[33] 进行了性能比

较。

Daytime-Clear 场景的结果：

我们评估了模型在源域上的性能。如表 1 所示，我们的方法实现了最佳结果，mAP 为 58.6%，相比基础 Faster R-CNN（FR）[33] 提升了 2.4%。这表明，我们的方法不仅能够在源域中保持或甚至提升 Faster R-CNN 的性能，同时在未见域中的泛化能力也得到了增强。

Night-Clear 场景的结果：

模型在 Night-Clear 场景中的泛化性能评估结果显示在表 2 和图 6 中。如表 2 所示，我们的方法取得了 40.8% mAP 的最佳结果，相比 CLIP-Gap [38] 提升了 3.9%。

此外，相比基础 Faster R-CNN（FR）[33]，我们的方法提升了 5.0% 的 mAP，这表明所学习的特征对提升模型的泛化能力非常有益。相比学习领域不变特征的 SDGOD [44]，我们的方法提升了 4.2% mAP，这表明因果特征更加具有判别性，并且具有更好的泛化能力。

从图 6 的定性结果中可以明显看出，我们的方法检测物体更准确，并且假阳性率比基础 Faster R-CNN [33] 更低。

Dusk-Rainy 和 Night-Rainy 场景的结果：

表 3 和表 4 展示了模型在 Dusk-Rainy 和 Night-Rainy 场景下的泛化能力。我们的方法在这两个场景中都取得了最佳的 mAP，在与 CLIP-Gap [38] 的对比中分别提升了 0.9% 和 0.5%。此外，相比基础 Faster R-CNN（FR）[33]，我们的方法分别提升了 5.2% 和 5.0% 的 mAP。

此外，基于特征归一化的方法（如 [4]、[12]、[26]、[27]）在这两个场景中的表现较差，尤其是在 Night-Rainy场景中，mAP 甚至低于 1.0%，这进一步证明了这两个场景的挑战性以及我们方法的优越性。

Daytime-Foggy 场景的结果：

表 5 展示了我们的方法在 Daytime-Foggy 场景中的泛化性能。我们的方法在该表中的所有方法中表现最佳，取得了 39.6% 的 mAP。

具体来说，相比 SDGOD [44] 和 CLIP-Gap [38]，我们的方法分别提升了 6.1% 和 1.1% 的 mAP。此外，图 7 展示了一些可视化结果。与基础 Faster R-CNN[33] 相比，我们的方法在真实和合成的雾天环境下，实现了更精确的物体定位和分类。

图6

图 6 解析：

图6展示了在“夜间-晴朗”（Night-Clear）场景下，模型泛化能力的定性评估结果。图中对比了传统Faster R-CNN（vanilla Faster R-CNN）（上）和我们提出的方法（UFR）（下）在目标检测任务中的表现。

vanilla Faster R-CNN的结果：

传统的Faster R-CNN在“夜间-晴朗”场景下表现较差。由于光线不足，模型在检测目标时出现了明显的漏检或误检情况。例如：有些目标（如远处的车辆）未被正确检测到。

在某些场景中，检测边界框的位置和大小不准确，甚至可能将背景中的物体误识别为目标。这些问题表明，传统FasterR-CNN在处理夜间低光照环境的泛化能力有限。

UFR：

我们的方法在相同的场景下表现出了更好的检测性能。相较于vanilla Faster R-CNN，我们的方法能够更准确地检测到目标，并生成更清晰的边界框。

在远距离目标的检测上，我们的方法能够更好地识别车辆和路边的物体。这表明引入因果注意力学习和因果原型学习的无偏Faster R-CNN确实能够提高模型在不同环境下的泛化能力。

结果对比的总结：

图像定性评估显示，我们的方法在“夜间-晴朗”场景下的检测效果显著优于传统Faster R-CNN，尤其是在复杂光照条件下表现出色。

这种改进源于我们的方法能够更好地捕捉具有因果关系的特征，并通过多种约束来提高特征的一致性和判别性，从而提升目标检测的精度和泛化性能。

图7

图 7 解析：

对模型在日雾场景下的泛化能力进行定性评价。顶部和底部的图像分别展示了vanilla Faster R-CNN[33]和我们的方法的结果。其中前两列是真实雾天图像的结果，后两列是合成雾天图像的结果。

总结：

图7的定性评估结果表明，我们提出的无偏Faster R-CNN方法在雾天场景下的目标检测中，表现优于传统Faster R-CNN，尤其在真实和合成的低对比度环境下表现更为出色。这证明了我们的方法具备更强的天气条件泛化能力和目标检测鲁棒性。

5.3 消融实验

在本节中，我们在 Daytime-Clear、Night-Clear 和 Daytime-Foggy 场景上进行了多次实验，以分析无偏 Faster R-CNN 模型各个组成部分的作用。具体来说，表 6 中的实验结果是在 Daytime-Clear 场景上进行训练，并在这三种天气条件下进行测试得到的。

GLT 模块分析：如表 6 所示，基础 Faster R-CNN（FR）[33] 的结果在结合 GLT 模块后得到了改进，在 Daytime-Clear 场景下 mAP 提升了 4.2%，在 Night-Clear 场景下提升了 2.8%，在

Daytime-Foggy 场景下提升了 2.6%。此外，在 Daytime-Clear 场景中，60.4% 的 mAP 是最佳结果，这表明 GLT 模块是一种有效的数据增强方法，能够增加数据多样性，并在有监督学习的源域中表现出色。

$L_{att}, L_{exp}$ 和 $L_{imp}$ 分析：如表 6 所示，在 GLT 模块的基础上加入 $L_{att}, L_{exp}$ 和 $L_{imp}$ 后，模型在Daytime-Clear 场景中的性能有所下降，但在 Night-Clear 和 Daytime-Foggy 场景中的性能有所提升。

这表明这些约束在有监督学习的已见环境中限制了模型的表现，但提高了模型在未见环境中的性能。这种现象是由于这些约束鼓励模型提取因果知识，从而防止模型获得特定领域的知识。特定领域的知识虽然不能泛化，但对于有监督学习来说，提供了补充信息。此外，我们可以观察到，

注意力不变损失 $L_{att}$ 在提升模型的泛化性能方面作用更加显著，这表明场景干扰因素对模型的泛化能力有更大的影响。

表 6

我们提出的 UFR 方法的消融实验结果（%）。“+GLT” 表示在基础 Faster R-CNN [33] 上加入GLT 模块。带有“勾选标记”的损失表示在 GLT 基础上加入了损失函数。

此外，与隐式约束 $L_{imp}$ 相比，显式约束 $L_{exp}$ 具有更强的约束力，并对泛化能力贡献更大。因此，单纯的隐式约束无法保证模型学习到因果原型，必须对预测分布施加显式约束。

5.4 进一步分析

注意力可视化：我们在黄昏-雨天场景下进行了实验，并将基础 Faster R-CNN（FR）[33] 与我们UFR 模型的注意力图进行了对比，如图 8 所示。

我们观察到，由 Faster R-CNN 生成的注意力图分散，并且更多地集中在无关的背景区域。相比之下，我们的方法生成了更有效的、与类别相关的注意力，同时减少了对背景的关注。这表明我们的方法能够在未见环境中捕捉到判别性物体特征，具有更好的泛化性能。

超参数分析：如图 9 所示，我们在 Night-Clear 和 Daytime-Foggy 场景中训练了模型，分别使用了不同的 t、λ1和 λ2 设置，并测试了泛化性能。通过不同的阈值 t 的实验结果（在公式 (11) 中体现）如图 9(a) 所示，最佳的阈值 t 为 0.7。

此外，我们还展示了图 9(b) 中的实验结果，研究了公式 (16) 中 λ1 和 λ2 的不同设置。显然，当 λ1=0.1 且 λ2=0.1 时，模型表现最佳。

图8

在Dusk-Rainy场景上可视化检测结果和注意力图。顶行和底行图像分别是普通Faster R-CNN[33]和我们的方法的结果。暗红色区域表示注意力突出的区域。

图 8 解析：

检测结果对比：

上方的检测结果由普通 Faster R-CNN 生成，可以看到它检测到了多个物体（例如公交车、车辆等），但是一些物体的检测框并不精确，甚至存在一些误检。

下方的 UFR 模型检测结果则更加精确，特别是一些小物体（如车辆）的边界框更贴合实际位置，检测结果整体上更加稳定，误检较少。

注意力图对比：

上方 Faster R-CNN 的注意力图显示，模型在无关的背景区域（如路面和天空）上有较多关注，说明它的注意力较为分散，可能无法有效聚焦于与目标物体相关的区域。

下方 UFR 模型的注意力图显示，模型主要聚焦在物体上，特别是那些与类别相关的区域（例如车辆的主要部分），背景的注意力大大减少。这表明 UFR 模型能够更好地捕捉物体的关键特征，从而提高泛化能力。

结论：

图 8 表明，UFR 模型不仅在物体检测的精度上优于基础 Faster R-CNN，其注意力机制也更为有效，能够减少对背景的依赖，更加聚焦于与物体相关的区域。这种改进使得 UFR 在复杂场景中的表现更加鲁棒，提升了跨域物体检测任务中的泛化能力。

图 9

图9解析：

显示了关于超参数 t、 λ1和 λ2 的分析结果。该图通过两个子图展示了模型在不同超参数设置下的表现，分别在 Night-Clear（夜晚晴天场景）和 Daytime-Foggy（白天雾天场景）中评估模型的平均精度（mAP）。

(a) 关于超参数 t 的分析:

该图研究了超参数 t 对模型性能的影响，横轴表示 t 的值，纵轴表示模型的 mAP（以 % 为单位）。
虚线：Night-Clear场景下的结果，实线：Daytime-Foggy 场景下的结果。从图中可以看出，在不同的 t 值下，两个场景中的 mAP 都有波动。在 Night-Clear 场景中，mAP 随 t 的增加，先上升后下降，最高点出现在 t = 0.7 ，此时 mAP 达到 40.8%。

Daytime-Foggy 场景下也表现出类似的趋势，最高 mAP（39.4%）同样出现在 t = 0.7 。这表明 t 的值在 0.7 附近时，模型在这两种场景中的表现最优。

(b) 关于超参数 λ1和 λ2 的分析：

该图分析了 λ1和 λ2 不同组合对模型性能的影响，横轴表示不同的 (λ1, λ2) 组合，纵轴表示 mAP值。

绿色条形： Night-Clear 场景，红色条形： Daytime-Foggy 场景。

结果显示，λ1 = 0.1 和 λ2 = 0.1 时，Night-Clear 场景的 mAP 达到最高值 40.8%，而 Daytime-

Foggy 场景在同样参数下的 mAP 也达到 39.6%。当 λ1 和 λ2 的值较低（如 0.01）时，mAP 较低，这表明在小的权重设置下，模型性能受限。而当两个参数都设置为 1.0 时，性能同样下降，说明较高的权重也会导致性能退化。

6. 结论

在本文中，我们提出了一种新的无偏 Faster R-CNN 物体检测方法，旨在通过减少数据偏差、注意力偏差和原型偏差来提升模型在单源域泛化物体检测任务中的表现。具体来说，我们设计了全局-局部变换模块（GLT）、因果注意力学习模块和因果原型学习模块，分别用于增强数据多样性、聚焦于因果特征并减少非因果特征的影响。

通过广泛的实验，我们验证了所提出方法在多个目标域上的有效性，尤其是在没有目标域信息的情况下，无偏 Faster R-CNN 展现了极强的泛化能力。我们的模型在多个跨域物体检测任务中均取得了最佳性能，表明了减少偏差策略在单源域泛化任务中的重要性。未来的工作可能包括进一步优化偏差消除模块，并探索在更多复杂场景中的应用。

标签：场景,泛化,特征,物体,无偏,---,图像,因果
From： https://blog.csdn.net/2301_80483399/article/details/142756589