首页 > 其他分享 >STFT:解决音频-视频零样本学习 (ZSL) 中的挑战

STFT:解决音频-视频零样本学习 (ZSL) 中的挑战

时间:2024-07-17 13:01:11浏览次数:15  
标签:SNN 音频 特征 STFT ZSL 模型

       传统的监督学习方法需要大量的标记训练实例来进行训练,视听零样本学习的任务是利用音频和视频模态对对象或场景进行分类,即使在没有可用标记数据的情况下。为了解决传统监督方法的限制,提出了广义零样本学习(Generalized Zero-Shot Learning, GZSL)的设置。GZSL方法允许模型识别和分类来自已见过和未见过类别的实例,从而为视听分类和识别任务提供了更实用和可扩展的解决方案。

     尽管深度学习在最近几年取得了发展,视听零样本学习因其在多个领域的潜在应用而受到了显著关注,例如暴力检测、航空场景识别、语音识别和视频分类等。现有的大多数方法分别对输入的视听和文本模态进行建模和对齐,以获得更健壮的视听特征表示。然而,将SNNs(尖峰神经网络)与变换器(Transformers)结合起来,仍然面临着几个挑战:

  • 时间步长:现有 SNN 通常使用固定时间步长来平均神经元输出,忽略了不同层在编码时间序列中的重要性,导致性能波动。
  • 尖峰冗余:SNN 输出存在时间维度和空间维度上的冗余,与尖峰发射频率和神经元位置高度相关。
  • 输出异质性:SNN 和 Transformer 的输出数据分布存在显著差异,SNN 为二进制尖峰序列,Transformer 为浮点特征,难以高效融合。

     本文提出一种新的Spiking Tucker Fusion Transformer(STFT)用于视听零样本学习。STFT模型通过以下方式来提高性能:

  • 时间步长因子(TSF): 动态衡量每个时间步对 SNN 输出的影响,指导后续推理信息的合成。
  • 全局-局部池化(GLP): 结合最大池化和平均池化操作,引导输入膜电位的形成,减少尖峰噪声。
  • 动态阈值调整: 根据语义和时序信息动态调整神经元阈值,提高模型鲁棒性。
  • 时序-语义 Tucker 融合: 以低成本实现 SNN 和 Transformer 输出的多尺度融合,同时保持完全的二阶交互。

1 方法

STFT的架构由四个主要部分组成:空间-时间尖峰神经网络(SNN)、潜在语义推理模块、时序-语义Tucker融合和联合推理模块。在训练阶段,训练集由标记的嵌入向量组成,目标是学习一个投影函数,将音频和视觉特征映射到类别级文本嵌入。在测试阶段,使用相同的函数将未见过的测试样本投影到嵌入空间。

1.1  空间-时间尖峰神经网络(SNN)

  • 卷积 SNN 块: 使用卷积操作和 LIF 模型构建 SNN 网络,每个 SNN 块包含卷积层和 LIF 层。
  • 全局-局部池化 (GLP): 将最大池化和平均池化操作相结合,提取全局和局部特征,并指导 LIF 神经元的输入特征分布。
  • 时间步长因子 (TSF): 动态调整不同时间步长 SNN 输出的权重,使模型能够有效地利用时间信息并编码不同时间尺度的相关特征。
  • 动态阈值调整: 根据当前 SNN 输出和 GLP 的信息含量动态调整 LIF 神经元的阈值,从而减少脉冲噪声并提高模型的鲁棒性。

1.2 潜在语义推理模块

  • 音频和视觉编码器: 使用预训练的 SeLaVi 模型提取音频和视觉特征,并进行进一步的特征提取和降维。
  • 潜在语义推理模块: 引入潜在知识组合器 (LKC) 来动态更新和融合音频和视觉特征的潜在语义信息,从而获得更鲁棒的跨模态特征表示。
  • LKC 通过学习一组潜在知识槽来捕获不同模态之间的潜在语义特征,并使用门控函数选择性地保留融合特征。
  • LKC 会根据输入向量和之前的潜在知识槽 Kt-1 动态更新,并通过自注意力机制进一步推断音频和视觉特征之间的内在关系。

1.3 时序-语义 Tucker 融合

  • 特征投影: 将音频和视觉特征分别投影到嵌入向量,并进行二线性交互。
  • Tucker 分解: 将二线性交互后的特征张量分解为多个因子矩阵,以降低模型参数数量并提高计算效率。
  • 多尺度融合: 利用 Tucker 分解后的因子矩阵进行多尺度融合,同时保留二阶交互信息。

1.4 联合推理模块

  • 跨模态 Transformer: 使用共享权重的跨模态 Transformer 进一步推理不同模态之间的特征对应关系,并捕获互补信息。
  • 投影和重建层: 将联合音频-视觉特征投影到与文本特征相同的嵌入空间,并进行重建以保留相关信息。

1.5 训练策略

STFT使用Nvidia V100S GPU进行训练。音频和视觉嵌入是使用预训练的SeLaVi提取的。设置了特定的参数,并选择了Adam作为训练优化器。STFT训练了60个周期,学习率为0.0001。为了更有效地更新参数,STFT使用了三元组损失、投影损失和重建损失的组合。

2 实验

在ZSL和GZSL设置下评估了所提出的模型。使用平均类别准确率来衡量模型在分类任务中的有效性。对于ZSL评估,特别关注模型在未见测试类别子集上的性能。在GZSL评估中,评估模型在包括已见(S)和未见(U)类别的整个测试集上的性能。通过计算和谐均值(HM),提供模型在GZSL场景下整体性能的平衡度量。

2.1 数据集

  • ActivityNet:目前的版本为v1.3,专注于视频中的活动检测和识别,包含丰富的活动类别和大量的视频时长。包括约20000个YouTube视频,其中训练集包含约10000个视频,验证集和测试集各包含约5000个视频。
  • UCF101:专注于动作识别,包含大量真实场景下的动作视频片段,适用于各种动作识别任务。包含超过 13,000 个视频,涵盖各种人类动作。
  • VGGSound:专注于音频分类和识别,包含丰富的视听样本,适用于音频视觉任务的模型训练和评估。包含超过 200 个类别和数千个音频片段。

2.2 实验结果

2.2.1 基于ActivityNet 数据集

  • HM 提升 14.9%:STFT 在 ActivityNet 数据集上取得了 15.38 的 HM分数,相比最佳现有方法 AVMST 的 12.71%,提升了 14.9%。
  • ZSL 提升 24.5%:STFT 在 ActivityNet 数据集上取得了 12.91 的 ZSL分数,相比最佳现有方法 AVMST 的 10.37%,提升了 24.5%。

备注:

AVMST模型是一种用于音频-视觉零样本学习的模态融合网络。具体来说,该模型包含以下几个关键组件:

  • 脉冲神经网络(SNN)模块:用于提取每个模态的显著时间信息。
  • 交叉注意力块:有效地融合时间和语义信息。
  • 变换器推理模块:进一步探索融合特征之间的相互。

2.2.2 基于UCF101 数据集

  • HM 提升 3.9%:STFT 在 UCF101 数据集上取得了 32.58 的 HM分数,相比最佳现有方法 MDFT 的 31.36%,提升了 3.9%。
  • ZSL 略有下降:STFT 在 UCF101 数据集上取得了 29.72的 ZSL分数,相比最佳现有方法 MDFT 的 31.53%,略有下降。

2.2.3  基于VGGSound 数据集

  • HM 提升 15.4%:STFT 在 VGGSound 数据集上取得了 19.22 的 HM分数,相比最佳现有方法 TCaF 的 13.32%,提升了 15.4%。
  • ZSL 提升 35.9%:STFT 在 VGGSound 数据集上取得了 10.06%的 ZSL分数,相比最佳现有方法 TCaF 的 7.33%,提升了 35.9%。

标签:SNN,音频,特征,STFT,ZSL,模型
From: https://blog.csdn.net/robinfang2019/article/details/140406148

相关文章

  • 蓝牙(Bluetooth)音频协议 & 音频编解码协议
    简短不看版:协议名称  特点HSP(手机协议,Head-Set-Profile)提供手机与耳机之间通信所需的基本功能。连接和配置好后,耳机可以作为远程设备的音频输入和输出接口HFP(免提协议,Hands-Free-Profile)在HSP协议的基础上增加了一些扩展功能A2DP(高级音频传送协议,Adva......
  • 音频翻译成中文的软件有什么?安利5大音频翻译软件
    随着7月15日初伏的到来,我们步入了三伏天,这是一年中最为酷热难耐的时光。热气腾腾之际,连专注工作都成了一种挑战。然而,智能工具的出现,为我们带来了一丝清凉的解决之道。想象一下,那些冗长的会议录音,或是急需整理的音频资料,在音频翻译成文字的软件帮助下,瞬间转化为清晰的文字记......
  • 【人工智能】Transformers之Pipeline(一):音频分类(audio-classification)
    ​​​​​​​目录一、引言 二、音频分类(audio-classification)2.1概述2.2技术原理2.2.1 Wav2vec2.0模型 2.2.1HuBERT模型2.3pipeline参数2.3.1pipeline对象实例化参数2.3.2pipeline对象使用参数 2.4 pipeline实战2.4.1指令识别(默认模型) 2.4.2 情......
  • 【正点原子i.MX93开发板试用连载体验】简单的音频分类
    本文最早发表于电子发烧友论坛:今天测试的内容是进行简单的音频分类。我们要想进行语音控制,就需要构建和训练一个基本的自动语音识别(ASR)模型来识别不同的单词。如果想了解这方面的知识可以参考TensorFlow的官方文档:简单的音频识别:识别关键词  |  TensorFlowCore。 ......
  • text2speech文生音频模型XTTS-V2部署带UI
    text2speech文生音频模型XTTS-V2部署带UI模型下载链接,及前端代码效果链接见个人博客:https://pylzzz.online效果图:python后端代码flask框架由于使用的是自己电脑的gpu运算,所以中间有转发的过程,利用内网穿透和虚拟局域网通信。内网穿透教程可见个人博客所需依赖tts......
  • 在不改变音调启动的情况下增加声音变化的音频速度
     {       //--------------------------------------------------------------------------------------       /*addsonicchangeaudiospeedwithoutchangingtonestart*/       if(!is->sonic_handle)       {           ......
  • 音频带宽控制
    音频带宽控制是音频编码和传输中的关键概念,通过调整带宽,可以在不同的网络条件下优化音频质量和传输效率。Opus编码器具有灵活的带宽控制机制,能够动态调整音频带宽以适应网络条件和应用需求。1.带宽(Bandwidth)的定义音频带宽指的是音频信号中包含的频率范围。带宽越宽,包含的音频......
  • H5播放音频和视频
    H5播放音频和视频: <!DOCTYPEhtml><html><head><metacharset="UTF-8"><title>音乐在线试听</title><metaname="renderer"content="webkit"><metahttp-equiv="X-UA-Compati......
  • 音频demo:使用opencore-amr将PCM数据与AMR-NB数据进行相互编解码
    1、READMEa.编译编译demo由于提供的.a静态库是在x86_64的机器上编译的,所以仅支持该架构的主机上编译运行。$make编译opencore-amr如果想要在其他架构的CPU上编译运行,可以使用以下命令(脚本)编译opencore-amr[下载地址]得到相应的库文件进行替换:#!/bin/bashtarxzf......
  • 如何恢复已删除的音频文件
    设备中文件被意外删除并不是什么新鲜事。但是,如果文件是你最喜欢的MP3歌曲,那就太令人沮丧了。但你知道吗,有一种方法可以从Windows机器中恢复已删除的音乐文件。尝试奇客数据恢复并检索已删除的音频文件。虽然产品名称听起来不像可以帮助恢复已删除的歌曲,但相信我,此工具确实......