首页 > 其他分享 >无需配对数据的对比学习图像到图像转换,助力跨域物体检测 | BMVC'24

无需配对数据的对比学习图像到图像转换,助力跨域物体检测 | BMVC'24

时间:2024-11-29 09:45:22浏览次数:5  
标签:24 转换 跨域 物体 生成器 图像 mathcal equation

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Improving Object Detection via Local-global Contrastive Learning

创新点


  • 提出了一种新颖的图像到图像转换方法,用于跨域物体检测。
  • 该方法为一个具有引导先验的对比学习框架,通过空间注意力掩码优化物体实例的外观,隐式地将场景划分为与目标物体实例相关的前景区域和非物体的背景区域。
  • 在转换过程中,该方法并不依赖物体标注来明确体实例,而是通过对比局部与全局信息来学习表示物体。
  • 在三个具有挑战性的基准上进行了多个跨域物体检测设置的实验,得到了最先进的性能。

内容概述


检测模型通常依赖于大规模的标注数据来学习具有代表性的特征,但往往难以很好地泛化到存在视觉差异的新目标领域(如阴雾天气与晴朗天气场景)。图像到图像(I2I)转换旨在缓解输入级别的这种领域差距,从而减少视觉领域中的分布转移。

高成本的配对图像(领域间)数据收集促进了业界对无配对图像到图像转换的研究,但往往会导致严重的内容畸变和形状变形,这种失败可能会对下游物体检测任务的性能产生不利影响。指明物体实例可以为改善图像转换提供了直观的方向,但这依赖于物体标注,以便在目标领域中区分物体和背景的空间图像区域,从根本上限制了它们的适用性。

对比学习通过最大化对应输入和输出区域之间的互信息,已成为解决图像到图像转换的一种有前景的策略。但现有方法将图像转换视为一个全局任务,处理具有复杂局部结构的物体的图像时效果不佳。由于物体与背景之间的视觉差异通常很大,论文认为隐式地建模背景和前景物体区域可以提升局部显著区域的转换质量,从而显著改善下游物体检测。此外,前景和背景的分离可以通过局部-全局对比学习来实现。

基于这一直觉,论文提出了一种基于对比学习的图像到图像转换框架,用于跨域物体检测。该框架引入一种结构诱导先验,通过空间注意力掩码优化物体实例的外观,能够有效地将场景解构为背景和前景区域。

整体方案


用于无配对I2I转换的对比学习

自监督表示是在对比学习机制下,通过考虑字典查找任务实现的。给定一个编码查询 \(q\) ,任务是识别在一组编码键 \(\{k_0, k_1, ...\}\) 中的与查询 \(q\) 匹配的唯一正键 \(k_{{+}}\) 。使用InfoNCE损失函数来使 \(q\) 靠近 \(k_{{+}}\) 的同时,推动其远离一组替代负键 \(\{k_{{-}}\}\) :

\[\begin{equation} \mathcal{L}^{\text{NCE}} = -\log\frac{\exp(q \cdot k_{{+}} \mathbin{/} \tau )}{\exp(q\cdot k_{{+}} \mathbin{/} \tau ) + \sum_{k_{-} } \exp(q\cdot k_{{-}} \mathbin{/} \tau ) } \label{eq:nce}, \end{equation} \]

通过约束输入图像和转换输出图像之间匹配的空间位置(图像块)具有高互信息,对比技术可以用于图像到图像的翻译任务。在这种情况下,查询嵌入 \(q\) 是通过编码输出图像的局部区域生成的。正键 \(k_{{+}}\) 是指输入的相应区域,而负键集 \(\{k_{{-}}\}\) 是通过编码输入图像的不同区域进行选择的。

image-20241106083200793

用于I2I转换的空间注意力

论文提出了一种以注意力驱动的方案,学习将输入图像 \(x\) 分解为前景和背景区域,并鼓励翻译模型专注于优化前景物体的外观。

方案采用编码器-解码器架构,其中编码器 \(E_B\) 作为特征提取器,将输入图像 \(x\) 编码低维度的图像表示 \(m_E = E_B(x)\) 。解码器将 \(m_E\) 作为输入,分为两个组件:1)内容生成器 \(G_C\) 生成一组 \(n\) 个内容图 \(\{C_t \,|\, t \in [0,n{-}1]\}\) 。2)注意力生成器 \(G_A\) 输出一组 \(n+1\) 个注意力掩码 \(\{A_t \,|\, t \in [0,n]\}\) 。

通过对生成的前景内容图进行加权求和得到转换后的图像 \(G(x)\) ,权重由相应的注意力掩码给出,并加上一个额外的表示图像的背景内容:

\[\begin{equation} G(x)=\sum_{t=1}^{n} \underbrace{(C^{t} \odot A^{t})}_\textrm{foreground} + \underbrace{(x \odot A^{n+1})}_\textrm{background}. \label{eq:fb} \end{equation} \]

使用在公式1中找到的InfoNCE损失来训练生成器,该损失在图像块级别上强制内容和结构的一致性。为了确保转换后的图像与源域 \(Y\) 的外观相匹配,进一步加入经过标准对抗损失训练的鉴别模块 \(D\) :

\[\begin{equation} \mathcal{L}_{adv} = -\mathbb{E}_{y \sim Y} \log D(y) -\mathbb{E}_{x \sim X} \log (1- D(G(x))) \label{eq:adv}. \end{equation} \]

鉴别器然后最小化标准二分类任务的负对数似然,这等同于最小化模型输出分布与真实源域分布 \(Y\) 之间的Jensen-Shannon(JS) 散度。

局部全局对比学习

为了进一步引导转换任务关注包含具有语义意义的内容的图像区域,在注意力生成器上引入了额外的损失 \(\mathcal{L}_{G_A}\) ,该损失利用了局部和全局图像块之间的关系,完整的优化目标为:

\[\begin{equation} \mathcal{L}_{G} = \mathcal{L}_{adv} + \mathcal{L}^{\text{NCE}} + \mathcal{L}_{G_A} \label{eq:total1}. \end{equation} \]

对 \(x\) 应用两种不同的随机增强,生成变换后的图像 \(x_1\) 和 \(x_2\) ,并相应地得到两组变换后的图像块 \(P_1\) 和 \(P_2\) 。为了获得用于对比学习的局部和全局表征,在注意力生成器 \(G_{A}\) 上附加了两个投影头以及引入了动量复制的 \(G_{Am}\) 和 \(E_{Bm}\) (权重使用指数移动平均进行更新),生成两组全局和局部特征表征 \(\{ f_{A}x_1,f_{A}x_2, f_{A}x_{1}^p, f_{A}x_{2}^p \}\) 和 \(\{ f_{Am}x_1,f_{Am}x_2, f_{Am}x_{1}^p, f_{Am}x_{2}^p \}\) ,计算这些特征集中的所有对之间的 \(\mathcal{L}^{NCE}\) 以优化模型的区分能力,负对则从内存库中抽取。

最后,定义多尺度监督以提高模型识别显著区域的能力。在 \(G_A\) 的每一层输出处引入额外的局部和全局MLP层,并计算每新特征集的infoNCE损失。

因此,对 \(G_A\) 的无监督损失可以表示如下:

\[\begin{equation} \mathcal{L}_{G_A}=\sum_{i=1}^{L} w_i \mathcal{L}^{NCE}_{g \leftrightarrow g} + \sum_{i=1}^{L} w_i \mathcal{L}^{NCE}_{g \leftrightarrow l} + \sum_{i=1}^{L} w_i \mathcal{L}^{NCE}_{l \leftrightarrow l}, \label{eq:detco} \end{equation} \]

其中 \(L\) 是 \(G_A\) 中的层数, \(w_i\) 是一个权重参数,用于控制每层贡献的重要性。

通过将上述损失附加到 \(G_A\) 模块的特征上,能够鼓励注意力生成器提高对语义内容的敏感性,并关注对目标检测任务重要的转换区域。

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:24,转换,跨域,物体,生成器,图像,mathcal,equation
From: https://www.cnblogs.com/VincentLee/p/18575855

相关文章

  • 2024.11.28联考总结(补)
    省流:T4炸成狗。复盘T1很水,看了一眼感觉结论题,类似洛谷月赛Div2T1水平,结果一眼没秒,于是二眼,结果二眼没秒,于是三眼\(\dots\)然后听见有人开始噼里啪啦,有点不慌。然后8:20开始写,5min后写挂,然后又想了想会了,又写5min不到,过完大样例是8:40。然后看看T2,有一个很明显的\(......
  • 20222313 2024-2025-1 《网络与系统攻防技术》 实验五实验报告
    1.实验内容1.1实验要求(1)从www.besti.edu.cn、baidu.com、sina.com.cn中选择一个DNS域名进行查询,获取相关信息。(2)尝试获取BBS、论坛、QQ、MSN中某一好友的IP地址,并查询获取该好友所在的具体地理位置。(3)使用nmap开源软件对靶机环境进行扫描,回答以下问题并给出操作命令。(4)使用......
  • 2024-2025 20241323 第十周学习总结
    这个作业属于https://edu.cnblogs.com/campus/besti/2024-2025-1-CFAP这个作业要求https://www.cnblogs.com/rocedu/p/9577842.html#WEEK01这个作业的目标信息系统数据库与SQL人工智能与专家系统人工神经网络模拟与离散事件排队系统天气与地震模型图形图像作业正文https......
  • noip2024模拟赛记录
    20241028A.铁路2题意简述给一棵树,每次跳一条简单路径,定义\(f(x,y)=\min(\texttt{x到y经过的简单路径长度})\)求\(\sum\limits_{i=1}^n\sum\limits_{j=1}^nf(i,j)\)思路注意到,一定存在到直径端点的方案,找到直径,搜索即可CodecodeconstintN=5e5+10;intn;ve......
  • 20241128 闲话 NOIP
    当我打完乒乓球回到机房坐下的时候,我才确切地意识到明天就要出发去NOIP了。我已经不太能清楚地记得我的第一次NOIP了,只记得考前两个星期停课停到没有意识到星期五要放学;只记得考前非常紧张,非常想证明自己;只记得事与愿违,不到1h过掉T1T2的天胡开局因为T4看错时限(虽然看对......
  • 2024/11月 读书笔记 - 6《构建之法》--- 第六章
    第六章详细介绍了敏捷开发流程,它主要包含三个核心步骤:·ProductBacklog:确定完成产品所需完成的工作。·SprintBacklog:决定当前Sprint(冲刺)需要解决的任务。·Sprint:执行冲刺,完成既定任务。敏捷开发以用户需求的演变为核心,采用迭代和逐步完善的方法进行软件开发。这一流程不仅......
  • 2024/11月 读书笔记 - 4《构建之法》--- 第四章
    第四章深入探讨了软件开发中的结对合作模式。前三节:代码规范本章节的前三节聚焦于代码规范,包括风格规范和设计规范等,为结对合作提供了共同遵循的标准。第四节:代码复审第四节讨论了代码复审的重要性,强调复审的核心在于确认代码是否在既定规范内有效解决问题。第五节:结对编程......
  • 2024/11月 读书笔记 - 5《构建之法》--- 第五章
    第五章深入探讨了团队合作的重要性及其运作流程。第一节:团队与非团队的区别本节阐述了团队与非团队之间的差异。团队成员围绕共同目标协作,即使他们不必同时工作,也能通过分工和相互依赖来完成任务。第二节:软件团队的运作模式本节介绍了多种软件团队的运作模式:主治医师模式:首席......
  • SS241128D. 旅行 (tour)
    SS241128D.旅行(tour)题意给你一棵\(n\)个点的以\(1\)为根的树,每个结点有点权\(a_i\)。有\(m\)次操作。操作分\(4\)种。查询\(u\)的点权。令\(u,v\)路径上所有点\(p\)的点权\(a_p\getska_p+b\)。令\(u\)的子树所有点\(p\)的点权\(a_p\getska_p......
  • 2024/11/27日 日志 关于Vue && Element
    Vue点击查看代码--Vue--·Vue是一套前端框架免除原生JavaScript中的DOM操作,简化书写--·基于MVVM(Model-View-ViewModel)思想,实现数据的双向绑定,--将编程的关注点放在数据上--·官网:https://cn.vuejs.org----Vue快速入门--1.新建HTML页面,引入Vue.js文......