欢迎关注我的公众号 [极智视界],获取我的更多笔记分享
大家好,我是极智视界,本文解读一下 MAUM 直面跨模态行人 re-ID。
本文通过抑制模态差异来解决跨模态行人重识别 (re-ID) 问题。在跨模态 re-ID 中,query 和 gallery 图像是不同的模态。给定一个训练 ID,流行的深度分类 baseline 是对两种模态共享相同的代理 (即最后一层的权重向量)。作者发现这样的做法对模态差异有相当大的容忍度,因为共享代理会作为两个模态之间的中间中继。为此,提出了一种记忆增强单向度量学习方法 (MAUM),包括两种新的设计,即 单向度量 和 基于记忆的增强。具体来说,MAUM 首先在每个模态下独立学习特定模态代理 (MS-Proxies),之后,MAUM 使用已经学习过的 MS-Proxies 作为静态引用,在对应的模态中关闭特征。这两个单向的指标 (IR图像到RGB代理 以及 RGB图像到IR代理) 共同缓解了中继效应,有利于跨模态联合。通过将 MS-Proxies 存储到 memory banks 以增加参考的多样性,进一步增强了跨模态关联。作者展示了 MAUM 在模态平衡情景下,改善了跨模态 re-ID 的效果,另外对于模态不平衡情景也具有很好的鲁棒性。并在 SYSU-MM01 和 RegDB 数据集上进行了大量实验证明了 MAUM 的优越性。相关代码即将开源。
文章目录
- 3. 方法
- 4. 实验
- 5. 超参数分析
- 6. 总结
- 7. 参考
1. 简介
本文主要研究跨模态的行人重识别问题 (re-ID)。Re-ID 旨在从数据库中检索相关人员图像的任务,现实世界的 re-ID 系统有时需要不分昼夜地识别同一个人。为此,需要使用了两种不同的设备:白天的 RGB 相机、晚上的红外 (IR) 相机。当 query 和 gallery 图像来自不同的模态时,显著的模态差异 是最突出的挑战。在本文中,作者试图通过解决模态差异来改进跨模态 re-ID 的效果。从度量学习的观点来看,re-ID 的主旨是学习一个具有 **类内紧凑 ** 和 类间分离 的嵌入空间。基于深度分类学习 baseline 是用于 re-ID 和人脸识别任务的一种流行方法。在训练过程中,它将所有相同 ID 的特征拉向一个对应的代理 (即分类层中的权重向量)。
当将这一 baseline 应用于跨模态 re-ID 时,作者发现模态差异问题显著阻碍了类内紧凑性,如图1 (a)。在baseline 中,不管其底层模式如何,相同 ID 的所有实例共享一个代理。模态无关的代理努力适应 IR 和 RGB 特性,并充当它们之间的中间中继,这样的中继效应导致对模态差异有相当大的容忍度。从图1 (a) 中的 t-SNE 可视化中可以观察到,两种模态的特征之间存在明显的模态差异。不同 ID 相同模态的特征比相同 ID 不同模态的特征更加接近。例如,ID116 和 ID119 的类间距离小于 ID-116 的类内距离。
为了抑制模态差异,作者提出了一种记忆增强单向度量学习方法 (MAUM),它有两个新颖的设计,即 (1) 学习单向度量;(2) 使用 memory bank 增强。
首先,学习了两个单向指标 (“IR” 到 “RGB” 和 “RGB” 到 “IR”),以缓解 baseline 的中继效应。MAUM 为每个 ID 学习两个特定模态的代理 (MS-Proxies),如图1 (b)。RGB(IR) 代理只接收来自 RGB(IR) 特性的梯度,因此可以用来表示专用的模态。然后,冻结它们并使用 RGB 代理作为提取 IR 特征的静态引用,反之亦然。这两个单向指标促进了更好的跨模态关联。
其次,通过基于记忆的增强进一步加强了这两个单向指标。每次迭代之后,MAUM 将 IR 和 RGB 代理存储到各自的 memory bank 中。由于 MS-proxies 不断迭代更改 (即"漂移"现象),每个 ID 在 memory bank 中都有多个不同的 IR 和 RGB 代理,如图1(b) 所示。一些历史的 MS-Proxies (比最新的 MS-Proxies) 离模态边界更加远,因此对对应模态特征具有更加强的 “拉近” 效应。总之,memory bank 通过难分正样本增强了 MAUM,从而促进了跨模态关联。作者指出,基于记忆的学习在 MAUM 中揭示了一个前所未知但重要的潜力。具体来说,作者使用 “漂移” 来增强参考。相比之下,之前的研究认为 “漂移” 会带来负面影响,并试图避免它。如图1(b) 所示,具有相同 ID 的特征分布紧凑,这表明模态差异被抑制了。例如 如图1(a),ID-116 的类内嵌入明显比 baseline 的更加紧凑。
除了能有效地减小模态差异外,提出的 MAUM 在模态不平衡情景下也具有特殊的优势。在训练数据中,由于人们在夜间活动较少,红外图像通常要比 RGB 图像稀缺,且红外图像更难标注。在 MAUM 中,单向度量和基于内存的增强都是基于特定模态的,IR 代理上的增强独立于 RGB 代理上的增强,反之亦然。因此,MAUM 可以重新平衡 IR 和 RGB 模态的增强。通过重新平衡增益,弥补了红外图像的不足,对模态不平衡问题具有较强的鲁棒性。
作者的主要贡献总结如下:
(1) 提出了一种新的记忆增强单向度量学习方法,用于跨模态 re-ID 问题。它在两个单向上学习显式的跨模态度量,并通过基于内存的增强进一步增强它们;
(2) 考虑了模态不平衡问题,这是跨模态 re-ID 中一个重要的现实问题。通过调整特定模态的增益,MAUM 对模态不平衡问题表现出较强的鲁棒性;
(3) 作者在模态平衡和模态不平衡两种情况下综合评估了他们的方法,实验结果表明,在两种情况下,MAUM 均能显著提高跨模态 re-ID 的性能,显著优于现有的方法。
2. 相关工作
2.1 跨模态度量学习
在异构人脸识别中首次研究了跨模态问题,这些早期的工作都使用模态无关的代理来加强类内的紧凑性。《Rgb-infrared cross-modality per-son re-identification》首先介绍了行人重识别中的跨模态问题,并逐渐引起了 re-ID 界的关注。和本文最接近的工作是《Cross-modality person re-identification via modality-aware collaborative ensemble learning》,与作者的方法类似,也使用特定模态的分类层,然而,两者之间又存在显著差异。他们使用特定模态分类器的集成来生成一个增强的教师模型,用于协作集成学习;而 MAUM 使用特定模态的分类器来学习特定于模态的代理,这些代理在收敛后是固定的,用于学习单向指标。
2.2 基于记忆的学习
Memory bank 在有监督、半监督和无监督中被广泛应用。在半监督学习中,使用 memory bank 来获得历史预测的时间集合,它加强了未标记样本的最新预测与时间集合之间的一致性。无监督学习的两个重要研究成果 ( MOCO 和 监督度量学习 (XBM)) 在使用 memory bank 方面有着类似的动机。具体来说,MOCO 增加了存储的秘钥数量,以便于更加好地进行对比学习;XBM 通过存储历史的特征增强了难例挖掘的效果。它们都是通过增加负面特征从 memory bank 中获益。
在这种基于记忆的学习背景下,作者指出 MAUM 的新颖之处在于一种新的跨模态度量学习机制。在 MAUM 中,memory bank 的好处不是由于时间一致性 (如半监督学习) 或更多的负样本 (如 MOCO 和 XBM)。MAUM 受益于模型漂移,它有助于 MAUM 获得难分正样本参考,促进跨模态关联。此外,MAUM 将代理存储到 memory bank 中,这可以看作是对度量学习任务的一种新的模型扩展,而相比之下,之前的工作只是存储特征向量。
2.3 数据不平衡的学习
数据不平衡是深度学习的一个重要挑战。以往的研究大多关注类别不平衡问题,主要有两种解决方法,即 重采样 和 重加权。重采样是指在训练中对少数类 (样本少) 进行过采样,对高频类 (样本多) 进行少采样,目的是在每次迭代中平衡头尾数据。重加权是指为损失函数中的不同类甚至不同样本分配自适应权重。
论文注意到在跨模态任务中存在一个独特的数据不平衡问题,即 模态不平衡。模态不平衡是指一种模态比另一种模态包含更多样本的情况。在 MAUM 中,针对特定模态的增强是各自分离的,允许对特定模态进行独立的增强,这使 MAUM 对模态不平衡问题具有较强的鲁棒性。
3. 方法
3.1 MAUM
MAUM 的框架如图2 所示。MAUM 采用 ResNet50 作为 backbone,接受 RGB 和 IR 图像作为输入。MAUM 将第一个卷积块分成两个独立的分支,以适应特定模态的低级特征形式,一个用于 RGB,另一个用于 IR。为了计算效率,两种模态共享所有的卷积块。对于卷积特征映射,MAUM 使用全局平均池化 (GAP) 为每个输入图像生成深度嵌入。基于这种普遍采用的 backbone 设置,提出的 MAUM 着重于其新的记忆增强单向度量学习方法。
3.1.1 特定模态代理
MAUM 首先用两个特定模态( IR 和 RGB)的 ID 分类器补充了 baseline 中与模式无关的 ID 分类器,以促进单向度量,所有的三个 ID 分类器都使用各自的全连接层来实现。它们的区别在于:模态无关的 ID 分类器同时接受 RGB 和 IR 特征,而 IR (RGB) ID 分类器只接受 IR (RGB) 特征进行训练。相应的,IR 和 RGB 分类器学习两组特定模态的代理。考虑到 RGB 的特性,RGB 分类器采用广泛使用的交叉熵损失作为优化目标,其表达式如 公式(1)。
在每个特定模态的分类器中,MS-Proxies 不再努力适应两个相反的模态,因此对其专用的模态具有高度代表性。
3.1.2 构建 memory bank
在完全训练特定模态的代理之后,MAUM 将它们收集到两个相应的 memory bank 中,并使用队列策略来更新 memory bank,当 memory bank 达到其大小限制后,将最新的代理进行入队,将最旧的代理进行出队。memory bank 对 MAUM 有三个关键的功能:(1) 它们冻结已经学习过的 MS-Proxies,并使用它们作为单向度量学习的静态参考;(2) 它们利用模型漂移现象累积历史的 MS-Proxies 来增强这些 MS-Proxies 的多样性;(3) 它们帮助 MAUM 获得额外的抵抗模态不平衡问题的鲁棒性,因为基于记忆的增强是针对特定模态的,所以可以独立调整以重新平衡 IR 和 RGB 模态。
3.1.3 学习单向度量
冻结 memory bank 里的MS-Proxies,然后用它们作为静态参考来拉近对应模态中的特征。作者注意到,尽管在特定模态的分类器中,每个 ID 只有一个 IR 和 RGB 代理,但将历史 MS-Proxies 存储到 memory bank 中仍会逐渐增加其数量。因此,在 RGB (IR) memory bank 中,每个标识都有多个 RGB (IR) 代理,为单个 IR (RGB) 特征提供多个正样本参考。受到 Circle Loss 的启发,作者将学习 RGB 图像到 IR 代理的单向度量的损失函数定义为公式(2)。
3.1.4 优化
作者将一个模态共享损失、两个特定模态损失和两个单向度量损失组合在一起,得到总体损失函数,如公式(3)。
其中 λ 是平衡单向度量损失贡献的超参数。
3.1.5 带有部件特征的 MAUM
部件特征通常能够改善 可视re-ID 以及 跨模态re-ID 的性能。为了验证 MAUM 与部件特征兼容,作者引入了一个基于部件特征的变体,即 MAUM^p。这个变体根据一个简单的部件特征 baseline,将最后一个卷积特征映射均匀地分成六个部件特征。在训练过程中,每个部件都有各自的监督。在测试过程中,将所有的六个部件特征串联起来,形成最终的表示。
3.2 模态不平衡场景下的 MAUM
在跨模态 re-ID 中,红外图像通常比 RGB 图像稀缺,从而产生模态不平衡问题,且红外图像更加难标注。当模态不平衡达到一个极限时,一些 ID 可能只有一个模态 (如只有 RGB)。咱们将这两种情况定义为:(1) Modality-imbalance scenario,每个 ID 都有两种形式,且红外图像比 RGB 图像少;(2) Modality-fragmentary scenario,有些 ID 只有一个模态,而其他 ID 有两个模态。
MAUM 是第一个考虑跨模态 re-ID 中的模态不平衡问题的工作。实验表明,模态不平衡问题显著降低了 re-ID 的精度。在 MAUM 中,由于增强是基于两个特定模态的 memory banks,它们之间的比例可以灵活调整,用以弥补红外图像样本的不足。因此,MAUM 对于模态不平衡问题具有较强的鲁棒性。
3.3 机制分析
这里分析了 MAUM 中基于记忆的增强机制。作者展示了 memory bank 中累积的代理漂移是增强单向度量学习的原因。
当我们在两个不同的训练迭代中观察相同 ID 的代理时,这两个观察结果自然是不同的。为了定量分析,作者将同一代理的两个观测值之间的 差 定义为代理漂移,如公式(4)。
图3(a) 显示了不同采样间隔下的漂移情况,可以看到:间隔越大,漂移越大。因此,在将代理存储到 memory bank 中时,MAUM 倾向于使用相对较大的采样间隔,以增加历史代理之间的多样性。
图3(b) 用 t-SNE 可视化了 memory bank 中代理的分布情况,由于代理漂移,历史代理分散在最新代理周围。一些历史代理远离模态边界,这就成为了在对应模态中拉近特征的难分正样本。它们促进了更强的跨模态关联,从而提高了跨模态 re-ID。
最近,XBM 在使用 memory bank 增强度量学习时也注意到了漂移现象,但它认为漂移是 memory bank 的副作用。因此,当漂移衰减到一个小范围后,XBM 才开始基于记忆进行学习。同样在 MOCO 中,在深度模型上应用指数移动平均运算来平滑历史键的漂移。相比之下,MAUM 与它们有着本质的不同。在 MAUM 中,利用漂移来增加历史代理的多样性,这有助于学习更加鲁棒的跨模态关联。这一发现与以往的研究相反,激发了人们对漂移现象和基于记忆的学习的新认知。
4. 实验
4.1 主要设置
Datasets 作者在两个公共的跨模态 re-ID 数据集上评估了本文的方法,即 SYSU-MM01 和 RegDB。SYSU-MM01是由 4 个 RGB 摄像头和 2 个红外摄像头在室内和室外环境中的 491 个 ID 组成。训练集中有 395 个 ID 的22258 张 RGB 图像和 11909 张 IR 图像。query 集中包含了 3803 张 IR 图像,而 gallery 集中包含了 301 张 RGB 图像。RegDB 的采集采用双摄像头系统,包括一个可见光摄像头和一个红外摄像头。总共有 412 个 ID,其中 206 个 ID 用于训练,另外 206 个 ID 用于测试。每个 ID 包含 10 张 RGB 图像和 10 张 IR 图像。
Evaluation metrics 所有实验均遵循标准的评价指标,即 CMC 和 mAP。所有的实验结果都是 10 次试验的平均值。
Implementation details 为了进行公平的比较,使用在 ImageNet上 预训练的 ResNet50 作为backbone。对于 RGB 和 IR 图像,输入图像的大小调整为 288x114x3。具有全局特征的 MAUM 使用 2048 维向量表示特征,具有部件特征的 MAUM 使用 3072 维向量表示特征。训练 batchsize 设置为 64,由 8 个 ID 组成,每个 ID 有 4 张 RGB 图像和 4 张红外图像。
4.2 MAUM 的有效性
通过比较 baseline 和最先进的方法来评估 MAUM 的有效性。为了公平比较,将比较方法分为两组,即基于全局特征的方法和基于部件特征的方法,表1展示了在 RegDB 和 SYSU-MM01 上的结果。从中我们可以观察到两点:(1) 将 MAUM 于 baseline 进行比较,可以发现 MAUM 显著改善了 baseline;(2) MAUM 在全局特征和部件特征设置下都实现了具有竞争力的性能。
4.3 消融实验
作者通过消融实验研究了两个关键组件,即单向度量 (UM) 和基于记忆的增强 (MA),实验结果如表2。
4.4 模态不平衡场景
作者研究了模态不平衡情况下的 MAUM。为了更加全面的研究,基于原始的 SYSU-MM01 数据集综合了几种不同的不平衡设置,实验结果如表3。
4.5 模态碎片场景
作者研究了模态碎片情景下的 MAUM,如有些训练 ID 只有单一模态。在原有 SYSU-MM01 的基础上,通过去除一些 ID 的红外图像,合成了多个模态碎片数据集,实验结果如表4。
5. 超参数分析
图4 实验分析了 memory bank 和 sampling interval 这两个超参数在 SYSU-MM01 上对效果的影响。
6. 总结
论文提出了一种用于跨模态 re-ID 的记忆增强单向度量学习方法 MAUM。MAUM有两个优点:(1) MAUM 没有使用模式无关的代理作为两个模态之间的中间中继,而是强制显式地与两个单向度量进行跨模态关联;(2) 通过探索模型漂移的潜力,MAUM 通过基于记忆增强进一步加强了跨模态关联。结合这两个优点,MAUM 显著抑制了模态差异,提高了跨模态 re-ID 的能力。还有另外一个贡献是,将模态不平衡问题引入到跨模态 re-ID 社区中,并证明了 MAUM 在该问题上具有较高的鲁棒性和优越性。
Limitation 在 MAUM 中,使用两个特定模态的 memory banks 来存储 MS-Proxies。虽然这些代理没有梯度,但存储和使用它们仍然需要一定的内存和计算开销。当训练集规模较大时,如工业数据集,其内存和计算开销是不可忽视的。如何优化内存和计算开销将是今后工作的重点。
7. 参考
[1] Learning Memory-Augmented Unidirectional Metrics for Cross-modality Person Re-identification.
[2] Rgb-infrared cross-modality per-son re-identification.
[3] Cross-modality person re-identification via modality-aware collaborative ensemble learning.
好了,以上解读了 MAUM 直面跨模态行人 re-ID。希望我的分享能对你的学习有一点帮助。
【极智视界】
搜索关注我的微信公众号【极智视界】,获取我的更多经验分享,让我们用极致+极客的心态来迎接AI !