标签：Diffusion 控制编码器嵌入 Multiple mel 音频条件 Audio

Audio Generation with Multiple Conditional Diffusion Model

来源：

http://export.arxiv.org/abs/2308.11940
https://conditionaudiogen.github.io/conditionaudiogen/

主要贡献：

1）引入了一个新的任务，该任务可生成由文本和控制条件指导的音频，从而能够使用时间戳、音高轮廓和能量轮廓对音频进行细粒度定制。2）整合现有的数据集，创建一个新的数据集，包括音频和相应的条件，并使用一系列的评估指标来评估性能，这可以作为未来工作的基准。3）提出了基于现有预训练TTA模型的音频生成模型，它不仅接受文本作为条件，而且还包含其他控制条件，以实现对音频的更细粒度和更精确的控制生成。实验结果验证了本文模型的有效性，该模型在生成音频信号时具有较好的控制效果。

任务：

生成由文本和控制条件指导的音频，从而能够使用时间戳、音高轮廓和能量轮廓对音频进行细粒度定制（多条件控制）。

工作：

提出了基于现有预训练TTA模型的音频生成模型，它不仅接受文本作为条件，而且还包含其他控制条件，以实现对音频的更细粒度和更精确的控制生成。

具体方法：
文本和控制条件编码器分别提取相应的嵌入。在文本和控制嵌入的指导下，使用来自VAE编码器的带噪声的mel嵌入（用于训练）或标准高斯噪声（用于测试）构建潜在表示，VAE解码器将其重建回mel频谱图，然后用声码器来生成最终的音频。为了保持生成能力，我们冻结了VAE，文本条件编码器和条件潜在扩散模型，并使用来自预训练TTA模型Tango的权重。
（1）组件信息：
1. a text condition encoder（文本条件编码器）：使用的是FLAN-T5-LARGE，提取文本条件的嵌入。在训练阶段，文本条件编码器的参数被冻结，以保持原有的语义表示能力。（冻结模块）
1. a control condition encoder（控制条件编码器）：控制条件编码器将控制条件作为输入，包括时间戳、音高轮廓和能量轮廓，提取控制条件的嵌入。（可训练模块）
1. a conditional latent diffusion model(LDM)（条件潜在扩散模型）：它依赖于噪声mel嵌入xt，文本嵌入ctext和控件嵌入ccontrol在内的条件。（U-net冻结模块）[潜在表示捕捉了数据的主要特征，并且通常具有更简单的分布。]
1. a variational auto-encoder（变分自编码器）：由编码器和解码器组成，编码器和解码器将mel频谱图压缩到mel嵌入x0中，并从mel嵌入x0重建mel频谱图。使用AudioLDM的VAE检查点并冻结其参数。（冻结模块）
1. a Fusion-Net（融合网络）：为了将控制嵌入ccontrol集成到LDM中，我们在冻结的U-Net的每一层之间引入了一个可训练的融合网络。（可训练模块）
1. HiFi-GAN：作为声码器，将mel频谱图转化为最终音频
（2）控制条件预处理：
①时间戳：首先，采用与文本条件编码器相同的冻结的FLAN-T5 LARGE来将声音事件类转换为语义表示。然后，为了保持每个声音事件的独立性，利用可训练的1 × 1卷积层将FLANT 5-LARGE的输出转换为标签嵌入。最后，将标签嵌入与帧级时间戳的对应位置相乘，并对声音事件类的维数求和，得到帧级语义表示类对象：
②音高轮廓：采用连续小波变换来分解连续基音轮廓，并将每帧图像转换成256个可能的对数值，作为控制条件，由控制条件编码器转换为控制嵌入。
③能量轮廓：通过计算每个短时傅立叶变换帧的幅度的L2范数并在对数尺度上量化来计算其能量，该能量使用控制条件编码器来编码。
为了实现支持多个控制条件（时间戳、音高轮廓和能量轮廓）的一个模型，我们还应用上述操作来将控制条件标准化为相同的维度。随后，我们利用共享的多层感知器对它们进行编码，采用条件类型作为提示，以区分Fusion-Net中的不同控制条件。
（3）控制条件融合：
融合网络将控制嵌入作为输入，并添加了条件类型嵌入CLS。在一系列类似于VAE编码器的结构之后，我们调整了控制嵌入的维度，以匹配梅尔频谱图的维度，其中包括ResnetBlocks和卷积层。采用不同核大小和步长的二维对流层生成不同维数的控制条件tokens。在固定U-Net的每一层之间，我们将控制条件tokens与U-Net中从前一层获得的mel tokens连接起来。随后，我们采用自注意只选择与前馈块的mel tokens对应的输出tokens。
（4）Classifier-Free Guidance：
（5）数据集集成到一个名为AudioCondition的新数据集，该数据集包含音频、相应的文本和控制条件。

实验评价标准：

(1)时间顺序控制指标:采用SED系统提供基于事件的度量(Eb)和剪辑级宏观F1分数(At)来评估时间顺序控制能力。这些指标评估生成音频中声音事件的存在，以及在AudioCondition测试集中使用DCASE 2022任务4(PB-SED)中的第一名SED系统的启动和偏移量。
(2)音高控制指标:为了比较音频的音高分布，我们计算了语音领域中使用的几个矩，包括标准差、偏度和峰度，以及基音和合成音频之间音高分布的平均动态时间翘曲距离。
(3)能量控制指标:计算从生成的音频中提取的逐帧能量与真实音频中的能量之间的MAE。

标签：Diffusion,控制,编码器,嵌入,Multiple,mel,音频,条件,Audio
From： https://www.cnblogs.com/yu757503836/p/18423373

Paper Reading（2）-Audio Generation with Multiple Conditional Diffusion Model

Audio Generation with Multiple Conditional Diffusion Model

来源：

主要贡献：

任务：

工作：

实验评价标准：

相关文章

赞助商

阅读排行