首页 > 其他分享 >跨模态特征对齐实现高级声源定位

跨模态特征对齐实现高级声源定位

时间:2024-07-20 18:26:55浏览次数:14  
标签:模态 定位 声源 音频 样本 学习 视觉 对齐 方法

       关键词:声源定位、跨模态对齐、跨模态学习、音视频学习

人类可以轻松地确定声音的来源,例如通过关注声音的方向并将其与视觉信息联系起来。声音来源定位在视觉场景中具有重要的应用价值,例如语音识别、视频监控和虚拟现实等。最近的研究指出了现有声源定位基准测试中的视觉显著性偏差,并利用这种偏差来提高定位精度。这些研究表明,即使没有视觉和听觉信号之间的交互,模型仅依赖于视觉信号也可以实现高定位精度,这与声源定位任务的真正目标相矛盾。简而言之,当前的评估、基准测试和模型设置没有充分捕捉视听交互能力。

        本文构建了一个新的基准数据集,用于评估交互式声音来源定位同时提出了一种新的学习方法,在声音来源定位和跨模态检索任务上取得了最先进的性能。

       源代码:https://github.com/kaistmm/SSLalignment

1 相关背景

1.1 声源定位方法

1.1.1 基于跨模态注意力机制的方法

这是最广泛使用的方法,它利用音频和视觉特征之间的对应关系来定位声音来源。主要方法包括:

  • 跨模态注意力: 使用注意力机制来增强音频和视觉特征之间的关联性,并通过对比学习来优化模型参数。
  • 内部帧硬样本挖掘: 从视频的每一帧中提取关键帧,并将其作为训练数据,以增强模型的鲁棒性。
  • 迭代对比学习和伪标签: 通过迭代对比学习和伪标签来逐步优化模型参数,并提高定位精度。
  • 特征正则化、正样本挖掘和负样本挖掘: 通过特征正则化、正样本挖掘和负样本挖掘来提高模型的鲁棒性和泛化能力。
  • 负梯度学习: 通过停止梯度操作来避免模型学习到负样本的影响,从而提高定位精度。
  • 动量编码器和修改后的对比损失: 通过动量编码器和修改后的对比损失来提高模型的效率和精度。

1.1.2 利用额外语义标签或物体先验的方法

这些方法利用额外的语义标签或物体先验来提高定位精度,例如:

  • 使用语义标签进行预训练: 使用语义标签对音频和视觉编码器进行预训练,以增强模型对语义信息的理解。
  • 使用物体先验进行后处理: 使用物体先验对模型的输出进行后处理,以进一步提高定位精度。

1.1.3 声音分离和视听导航

这些方法试图同时定位声音来源并分离声音,或者为特定的声音来源进行视听导航。

1.2 自监督表示学习

  • 基于实例区分的对比学习: 通过对比学习来学习具有区分性的特征表示,例如 SimCLR 和 MoCo 等方法。
  • 基于正样本挖掘的方法: 通过 nearest neighbor 搜索来选择与查询样本语义相似的样本,并将其作为正样本进行对比学习,例如 SimSiam 和 Dino 等方法。

1.3 跨模态表示学习

  • 利用音频进行视觉表示学习: 通过学习音频和视觉特征之间的对应关系,来学习视觉表示,例如 SoundNet 和 AIT-Net 等方法。
  • 利用视觉进行音频表示学习: 通过学习音频和视觉特征之间的对应关系,来学习音频表示,例如 VAD-Net 和 AudioToVisual 等方法。
  • 联合音频视觉表示学习: 假设音频和视觉特征之间存在语义或时间上的对应关系,并利用这种对应关系进行联合学习,例如 Audio2Visual 和 CrossModal-CIC 等方法。

2 方法

2.1 跨模态特征对齐

  • 空间定位相似度: 使用空间视觉特征和音频特征之间的点积和欧氏距离来计算相似度,并使用对比损失来优化模型参数,使定位区域与声音来源更接近。
  • 语义特征对齐相似度: 使用视觉特征和音频特征在投影空间中的平均池化和欧氏距离来计算相似度,并使用对比损失来优化模型参数,使音频和视觉特征在语义上更一致。

2.2 使用多个正样本进行扩展

  • 手工制作的正样本: 通过对图像和音频样本进行简单的变换,例如随机旋转、翻转和时间轴上的位移,来生成多个视图,并将其作为正样本进行对比学习。
  • 语义相似的样本: 使用预训练的图像和音频编码器,通过 nearest neighbor 搜索来选择与查询样本语义相似的样本,并将其作为正样本进行对比学习。

3 实验

3.1 数据集

3.1.1 训练数据集

  • VGGSound-144K:包含大约 20 万个视频,用于训练音频和视觉编码器。
  • Flickr-SoundNet-144K:Flickr-SoundNet 数据集的一个子集,也用于训练音频和视觉编码器。

3.1.2 测试数据集

3.3 实现细节

3.4 实验结果

  • VGG-SS 和 Flickr-SoundNet-Test:标准的单声音来源定位基准数据集。
  • AVSBench:包含单声音来源和多声音来源的视听分割数据集。
  • VPO Benchmark:包含单声音来源和多声音来源的视听分割数据集。
  • IS3:新的合成数据集,包含多种物体组合和背景,用于评估交互式声音来源定位。
  • 3.2 评估指标

  • cIoU:常用的声音来源定位评估指标,计算预测框与真实框的交并比。
  • Adaptive cIoU:自适应 cIoU,根据真实框面积自适应地设置阈值,避免由于阈值设置不当导致的评估误差。
  • IIoU:交互性是声源定位的核心标准交互式 IoU,评估模型在多个音频输入下是否能够准确地定位所有声音来源。
  • AUC:计算预测框与真实框的交并比曲线下面积,用于评估模型的鲁棒性。
  • mIoU:计算分割掩码之间的平均交并比,用于评估模型的分割性能。
  • F-Score:计算分割掩码之间的精确率、召回率和 F1 值,用于评估模型的分割性能。
  • 使用 ResNet18 作为音频和视觉编码器。
  • 对图像和音频进行预处理,例如标准化和去噪。
  • 使用 nearest neighbor 搜索和通用数据增强方法来生成多个正样本。
  • 使用 Adam 优化器和学习率 0.0001 进行训练。
  • 对比学习温度参数设置为 0.07。
  • 在 VGG-SS 和 Flickr-SoundNet-Test 数据集上,提出的方法在 cIoU 和 AUC 指标上均优于现有的方法。
  • 在 AVSBench、VPO Benchmark 和 IS3 数据集上,提出的方法在 cIoU、Adaptive cIoU 和 IIoU 指标上均优于现有的方法。
  • 在 IS3 数据集上,提出的方法在 mIoU 和 F-Score 指标上也优于现有的方法。

标签:模态,定位,声源,音频,样本,学习,视觉,对齐,方法
From: https://blog.csdn.net/robinfang2019/article/details/140559311

相关文章

  • 240720-模态应变法计算阻尼-论文阅读
    技术报告:NASA-ComputationalSimulationofDampinginCompositeStructures摘要提出了一种复合材料结构被动阻尼预测的计算方法。该方法综合了微观力学、层压理论和结构阻尼理论,建立了多级阻尼模型。采用有限元离散化方法对结构层面的阻尼进行了模拟。论文中将这个方法应......
  • 基于卷积神经网络(CNNs)的无监督多模态子空间聚类方法
    基于卷积神经网络(CNNs)的无监督多模态子空间聚类方法引言基于卷积神经网络(CNNs)的无监督多模态子空间聚类方法是一种前沿技术,专门设计用于处理来自不同模态(如图像、文本、音频等)的高维数据,旨在自动学习表示并聚类这些数据,而无需任何标记信息。这种方法利用CNNs的特征提取能......
  • 1003:对齐输出 题解
    题目链接题目描述读入三个整数,按每个整数占\(8\)个字符的宽度,右对齐输出它们,按照格式要求依次输出三个整数,之间以一个空格分开。解题思路由于我们不知道这个数有多大,所以我们可以用printf自带的占位符%xd输出,其中x为位数。例:printf("%3d",a);就是占用3位。题目要求为\(8\)位......
  • 完整的多模态LLM的训练流程
    目录一、模型结构选择二、数据预处理三、模型预训练四、模型评估五、使模型和人类对齐六、LLM融合多模态6.0多模态LLM架构6.1一阶段预训练6.2二阶段微调6.2.1构造图像-指令遵循数据集6.2.2训练方式6.2.3质量评估6.3链接外部工具6.3.1构造<指令,API>数据6.3.2评估API调用......
  • pytorch 自定义 dataloader 维度不对齐+广播机制导致不易察觉 bug
    很简单,自定义了一个dataloader,出现以下不易察觉buginputs维度:[bs,4],这个没问题labels维度:正确应该是[bs,1],但是dataloader出来是[bs]模型的outputs维度:[bs,1]如果用torch.mean(torch.abs(labels-outputs))计算L1Loss/MAE由于pytorch的广播机制,torch.ab......
  • Element-plus中 Pagination 分页组件国际化和对齐方式设置
    一、国际化设置官方提供的两种方式:1.全局配置importElementPlusfrom'element-plus'importzhCnfrom'element-plus/es/locale/lang/zh-cn'app.use(ElementPlus,{locale:zhCn,})2.ConfigProvider按需引入1)引入ElConfigProvider和中文包2)用ElConfigProvider......
  • 数组是缓存对齐的特征
    Anarrayiscache-aligned:Thesizeofeacharrayelementmatchesthesizeofthecacheblock.Thestartingaddressofthearrayisamultipleofthecacheblocksize.Let'selaborateonthesepoints:ArrayElementSizeMatchesCacheBlockSizeI......
  • 为视觉语言多模态模型进行偏好优化
    为视觉语言多模态模型进行偏好优化训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如SFT(Supervisedfinetuning)的传统的方法一般都需要耗费较大成本,因为这些算法需要对数据打上特定的标签。而偏好优化(PreferenceOptimization)作为一种替代选项,通常可以简......
  • 流形对齐方法
    流形对齐方法解决异构多源数据中存在关联缺失的问题流形对齐(ManifoldAlignment)是一种在流形学习领域的典型方法,主要用于处理来自不同分布或不同数据源的数据集,目的是将它们投影到同一特征空间中,同时保持各自原有的流形结构和样本间的相似性。流形对齐方法在迁移学习、......
  • 【C/C++】结构体内存对齐
    结构体内存对齐详解1、第一个成员在与结构体变量偏移量为0的地址处2、其他成员变量要偏移到对齐数的整数倍的地址处,注意偏移是从结构体首地址处开始的。对齐数取的是编译器默认的一个对齐数与该成员大小 这个俩个数中的最小值。【VS中默认的值为8、Linu......