跨模态特征对齐实现高级声源定位

关键词：声源定位、跨模态对齐、跨模态学习、音视频学习

人类可以轻松地确定声音的来源，例如通过关注声音的方向并将其与视觉信息联系起来。声音来源定位在视觉场景中具有重要的应用价值，例如语音识别、视频监控和虚拟现实等。最近的研究指出了现有声源定位基准测试中的视觉显著性偏差，并利用这种偏差来提高定位精度。这些研究表明，即使没有视觉和听觉信号之间的交互，模型仅依赖于视觉信号也可以实现高定位精度，这与声源定位任务的真正目标相矛盾。简而言之，当前的评估、基准测试和模型设置没有充分捕捉视听交互能力。

本文构建了一个新的基准数据集，用于评估交互式声音来源定位；同时提出了一种新的学习方法，在声音来源定位和跨模态检索任务上取得了最先进的性能。

源代码：https://github.com/kaistmm/SSLalignment

1 相关背景

1.1 声源定位方法

1.1.1 基于跨模态注意力机制的方法

这是最广泛使用的方法，它利用音频和视觉特征之间的对应关系来定位声音来源。主要方法包括：

跨模态注意力：使用注意力机制来增强音频和视觉特征之间的关联性，并通过对比学习来优化模型参数。
内部帧硬样本挖掘：从视频的每一帧中提取关键帧，并将其作为训练数据，以增强模型的鲁棒性。
迭代对比学习和伪标签：通过迭代对比学习和伪标签来逐步优化模型参数，并提高定位精度。
特征正则化、正样本挖掘和负样本挖掘：通过特征正则化、正样本挖掘和负样本挖掘来提高模型的鲁棒性和泛化能力。
负梯度学习：通过停止梯度操作来避免模型学习到负样本的影响，从而提高定位精度。
动量编码器和修改后的对比损失：通过动量编码器和修改后的对比损失来提高模型的效率和精度。

1.1.2 利用额外语义标签或物体先验的方法

这些方法利用额外的语义标签或物体先验来提高定位精度，例如：

使用语义标签进行预训练：使用语义标签对音频和视觉编码器进行预训练，以增强模型对语义信息的理解。
使用物体先验进行后处理：使用物体先验对模型的输出进行后处理，以进一步提高定位精度。

1.1.3 声音分离和视听导航

这些方法试图同时定位声音来源并分离声音，或者为特定的声音来源进行视听导航。

1.2 自监督表示学习

基于实例区分的对比学习：通过对比学习来学习具有区分性的特征表示，例如 SimCLR 和 MoCo 等方法。
基于正样本挖掘的方法：通过 nearest neighbor 搜索来选择与查询样本语义相似的样本，并将其作为正样本进行对比学习，例如 SimSiam 和 Dino 等方法。

1.3 跨模态表示学习

利用音频进行视觉表示学习：通过学习音频和视觉特征之间的对应关系，来学习视觉表示，例如 SoundNet 和 AIT-Net 等方法。
利用视觉进行音频表示学习：通过学习音频和视觉特征之间的对应关系，来学习音频表示，例如 VAD-Net 和 AudioToVisual 等方法。
联合音频视觉表示学习：假设音频和视觉特征之间存在语义或时间上的对应关系，并利用这种对应关系进行联合学习，例如 Audio2Visual 和 CrossModal-CIC 等方法。

2 方法

2.1 跨模态特征对齐

空间定位相似度：使用空间视觉特征和音频特征之间的点积和欧氏距离来计算相似度，并使用对比损失来优化模型参数，使定位区域与声音来源更接近。
语义特征对齐相似度：使用视觉特征和音频特征在投影空间中的平均池化和欧氏距离来计算相似度，并使用对比损失来优化模型参数，使音频和视觉特征在语义上更一致。

2.2 使用多个正样本进行扩展

手工制作的正样本：通过对图像和音频样本进行简单的变换，例如随机旋转、翻转和时间轴上的位移，来生成多个视图，并将其作为正样本进行对比学习。
语义相似的样本：使用预训练的图像和音频编码器，通过 nearest neighbor 搜索来选择与查询样本语义相似的样本，并将其作为正样本进行对比学习。

3 实验

3.1 数据集

3.1.1 训练数据集

VGGSound-144K：包含大约 20 万个视频，用于训练音频和视觉编码器。
Flickr-SoundNet-144K：Flickr-SoundNet 数据集的一个子集，也用于训练音频和视觉编码器。

3.1.2 测试数据集

3.3 实现细节

3.4 实验结果

VGG-SS 和 Flickr-SoundNet-Test：标准的单声音来源定位基准数据集。
AVSBench：包含单声音来源和多声音来源的视听分割数据集。
VPO Benchmark：包含单声音来源和多声音来源的视听分割数据集。
IS3：新的合成数据集，包含多种物体组合和背景，用于评估交互式声音来源定位。
3.2 评估指标
cIoU：常用的声音来源定位评估指标，计算预测框与真实框的交并比。
Adaptive cIoU：自适应 cIoU，根据真实框面积自适应地设置阈值，避免由于阈值设置不当导致的评估误差。
IIoU：交互性是声源定位的核心标准。交互式 IoU，评估模型在多个音频输入下是否能够准确地定位所有声音来源。
AUC：计算预测框与真实框的交并比曲线下面积，用于评估模型的鲁棒性。
mIoU：计算分割掩码之间的平均交并比，用于评估模型的分割性能。
F-Score：计算分割掩码之间的精确率、召回率和 F1 值，用于评估模型的分割性能。
使用 ResNet18 作为音频和视觉编码器。
对图像和音频进行预处理，例如标准化和去噪。
使用 nearest neighbor 搜索和通用数据增强方法来生成多个正样本。
使用 Adam 优化器和学习率 0.0001 进行训练。
对比学习温度参数设置为 0.07。
在 VGG-SS 和 Flickr-SoundNet-Test 数据集上，提出的方法在 cIoU 和 AUC 指标上均优于现有的方法。
在 AVSBench、VPO Benchmark 和 IS3 数据集上，提出的方法在 cIoU、Adaptive cIoU 和 IIoU 指标上均优于现有的方法。
在 IS3 数据集上，提出的方法在 mIoU 和 F-Score 指标上也优于现有的方法。

标签：模态,定位,声源,音频,样本,学习,视觉,对齐,方法
From： https://blog.csdn.net/robinfang2019/article/details/140559311