首页 > 其他分享 >Paper Reading(2)-Audio Generation with Multiple Conditional Diffusion Model

Paper Reading(2)-Audio Generation with Multiple Conditional Diffusion Model

时间:2024-09-23 15:51:14浏览次数:8  
标签:Diffusion 控制 编码器 嵌入 Multiple mel 音频 条件 Audio

Audio Generation with Multiple Conditional Diffusion Model

来源

http://export.arxiv.org/abs/2308.11940
https://conditionaudiogen.github.io/conditionaudiogen/

主要贡献:

1)引入了一个新的任务,该任务可生成由文本和控制条件指导的音频,从而能够使用时间戳、音高轮廓和能量轮廓对音频进行细粒度定制。2)整合现有的数据集,创建一个新的数据集,包括音频和相应的条件,并使用一系列的评估指标来评估性能,这可以作为未来工作的基准。3)提出了基于现有预训练TTA模型的音频生成模型,它不仅接受文本作为条件,而且还包含其他控制条件,以实现对音频的更细粒度和更精确的控制生成。实验结果验证了本文模型的有效性,该模型在生成音频信号时具有较好的控制效果。

任务

生成由文本和控制条件指导的音频,从而能够使用时间戳、音高轮廓和能量轮廓对音频进行细粒度定制(多条件控制)。

工作

提出了基于现有预训练TTA模型的音频生成模型,它不仅接受文本作为条件,而且还包含其他控制条件,以实现对音频的更细粒度和更精确的控制生成。

  • 具体方法:
    文本和控制条件编码器分别提取相应的嵌入。在文本和控制嵌入的指导下,使用来自VAE编码器的带噪声的mel嵌入(用于训练)或标准高斯噪声(用于测试)构建潜在表示,VAE解码器将其重建回mel频谱图,然后用声码器来生成最终的音频。为了保持生成能力,我们冻结了VAE,文本条件编码器和条件潜在扩散模型,并使用来自预训练TTA模型Tango的权重。

  • (1)组件信息:

    1. a text condition encoder(文本条件编码器):使用的是FLAN-T5-LARGE,提取文本条件的嵌入。在训练阶段,文本条件编码器的参数被冻结,以保持原有的语义表示能力。(冻结模块
    1. a control condition encoder(控制条件编码器):控制条件编码器将控制条件作为输入,包括时间戳、音高轮廓和能量轮廓,提取控制条件的嵌入。(可训练模块
    1. a conditional latent diffusion model(LDM)(条件潜在扩散模型):它依赖于噪声mel嵌入xt,文本嵌入ctext和控件嵌入ccontrol在内的条件。(U-net冻结模块)[潜在表示捕捉了数据的主要特征,并且通常具有更简单的分布。]
    1. a variational auto-encoder(变分自编码器):由编码器和解码器组成,编码器和解码器将mel频谱图压缩到mel嵌入x0中,并从mel嵌入x0重建mel频谱图。使用AudioLDM的VAE检查点并冻结其参数。(冻结模块
    1. a Fusion-Net(融合网络):为了将控制嵌入ccontrol集成到LDM中,我们在冻结的U-Net的每一层之间引入了一个可训练的融合网络。(可训练模块
    1. HiFi-GAN:作为声码器,将mel频谱图转化为最终音频
  • (2)控制条件预处理:

  • ①时间戳:首先,采用与文本条件编码器相同的冻结的FLAN-T5 LARGE来将声音事件类转换为语义表示。然后,为了保持每个声音事件的独立性,利用可训练的1 × 1卷积层将FLANT 5-LARGE的输出转换为标签嵌入。最后,将标签嵌入与帧级时间戳的对应位置相乘,并对声音事件类的维数求和,得到帧级语义表示类对象:

  • ②音高轮廓:采用连续小波变换来分解连续基音轮廓,并将每帧图像转换成256个可能的对数值,作为控制条件,由控制条件编码器转换为控制嵌入。

  • ③能量轮廓:通过计算每个短时傅立叶变换帧的幅度的L2范数并在对数尺度上量化来计算其能量,该能量使用控制条件编码器来编码。

  • 为了实现支持多个控制条件(时间戳、音高轮廓和能量轮廓)的一个模型,我们还应用上述操作来将控制条件标准化为相同的维度。随后,我们利用共享的多层感知器对它们进行编码,采用条件类型作为提示,以区分Fusion-Net中的不同控制条件。

  • (3)控制条件融合:

  • 融合网络将控制嵌入作为输入,并添加了条件类型嵌入CLS。在一系列类似于VAE编码器的结构之后,我们调整了控制嵌入的维度,以匹配梅尔频谱图的维度,其中包括ResnetBlocks和卷积层。采用不同核大小和步长的二维对流层生成不同维数的控制条件tokens。在固定U-Net的每一层之间,我们将控制条件tokens与U-Net中从前一层获得的mel tokens连接起来。随后,我们采用自注意只选择与前馈块的mel tokens对应的输出tokens。

  • (4)Classifier-Free Guidance:

  • (5)数据集集成到一个名为AudioCondition的新数据集,该数据集包含音频、相应的文本和控制条件。

实验评价标准:

  • (1)时间顺序控制指标:采用SED系统提供基于事件的度量(Eb)和剪辑级宏观F1分数(At)来评估时间顺序控制能力。这些指标评估生成音频中声音事件的存在,以及在AudioCondition测试集中使用DCASE 2022任务4(PB-SED)中的第一名SED系统的启动和偏移量。
  • (2)音高控制指标:为了比较音频的音高分布,我们计算了语音领域中使用的几个矩,包括标准差、偏度和峰度,以及基音和合成音频之间音高分布的平均动态时间翘曲距离。
  • (3)能量控制指标:计算从生成的音频中提取的逐帧能量与真实音频中的能量之间的MAE。

标签:Diffusion,控制,编码器,嵌入,Multiple,mel,音频,条件,Audio
From: https://www.cnblogs.com/yu757503836/p/18423373

相关文章

  • Android15音频进阶之新播放器HwAudioSource(八十六)
    简介:CSDN博客专家、《Android系统多媒体进阶实战》一书作者新书发布:《Android系统多媒体进阶实战》......
  • 深入探讨Hailuo AI:基于MoE、Dense和Diffusion模型的AI视频生成技术解析
    1.什么是HailuoAI?近年来,AI生成技术在视频制作领域迅速崛起。众多创新工具使得视频生成变得更加自动化和高效,而HailuoAI正是在这一背景下成为一款备受瞩目的工具。作为MiniMax开发的AI视频生成平台,HailuoAI运用了先进的**MixtureofExperts(MoE)**模型,为用户提供了高......
  • How to get the exact duration of an audio file in js All In One
    HowtogettheexactdurationofanaudiofileinjsAllInOneerrorsaudiodurationtimeprecisebugtime误差bug❌Reducedtimeprecision/时间精度降低Toofferprotectionagainsttimingattacksandfingerprinting,theprecisionofvideo.currentTim......
  • AI绘画实操 Stable Diffusion 到底怎么玩儿,新手必看的AI绘画入门安装使用教程
    大家好,我是灵魂画师向阳2024年,是AI绘画技术飞速发展的一年,各种AI绘画工具层出不穷,为了让大家在了解和学习AI绘画的过程中少走弯路,今天我将详细介绍目前世界上使用用户最多,社区最大,生态最丰富的免费图像生成模型——StableDiffusion,并为你提供详细的安装教程,让你轻松踏入AI......
  • Stable Diffusion绘画 | SDXL Turbo:惊呆了,一步出图
    SDXLTurbo模型使用了一种全新的对抗扩散蒸馏技术,能够在保持图片质量的同时,大大降低采样步数,甚至可以一步出图。安装部署模型下载地址:https://huggingface.co/stabilityai/sdxl-turbo/tree/main完成下载后,放置位置:SD安装目录\models\Stable-diffusion这份完整版的AI......
  • 超强AI绘画工具StableDiffusion,SD整合包V4.9 来了 版本win加mac安装包以及搭载PS安装
    众所周知,StableDiffusion是非常强大的AI绘图工具,今天为大家带来的是StableDiffusionSD整合包v4.9版本安装说明。这里带来的安装版本是9月最新整合包sd-webui-aki-v4.9版本。WIN加MAC一、整合包详细说明1、整合包升级的内容:torch2、xformers0.0.17、cud......
  • 构建自己的文生图工具:Python + Stable Diffusion + CUDA
    构建自己的文生图工具:Python+StableDiffusion+CUDA前言概述环境搭建安装PyTorch安装StableDiffusion编写Python代码结论结语前言  在这个数字化和人工智能飞速发展的时代,图像生成技术正逐渐成为现实。想象一下,只需输入几个关键词,计算机就能创造出一幅栩栩如......
  • LLM multiple modal applications
    MoneyPrinterTurbohttps://github.com/harry0703/MoneyPrinterTurbo/tree/main利用AI大模型,一键生成高清短视频GenerateshortvideoswithoneclickusingAILLM. FunClip https://github.com/modelscope/FunClipOpen-source,accurateandeasy-to-usevideosp......
  • src/pyaudio/device_api.c:9:10: fatal error: portaudio.h: 没有那个文件或目录
    (venv)shgbitai@shgbitai-C9X299-PGF:~/pythonworkspace/ai-accompany$pipinstallpyaudiosounddeviceCollectingpyaudioDownloadingPyAudio-0.2.14.tar.gz(47kB)━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━47.1/47.1k......
  • pip install pyaudio sounddevice error: externally-managed-environment
    shgbitai@shgbitai-C9X299-PGF:~/pythonworkspace/ai-accompany$pipinstallpyaudiosounddeviceerror:externally-managed-environment×Thisenvironmentisexternallymanaged╰─>ToinstallPythonpackagessystem-wide,tryaptinstallpython3-xyz,wh......