Audio Generation with Multiple Conditional Diffusion Model
来源:
http://export.arxiv.org/abs/2308.11940
https://conditionaudiogen.github.io/conditionaudiogen/
主要贡献:
1)引入了一个新的任务,该任务可生成由文本和控制条件指导的音频,从而能够使用时间戳、音高轮廓和能量轮廓对音频进行细粒度定制。2)整合现有的数据集,创建一个新的数据集,包括音频和相应的条件,并使用一系列的评估指标来评估性能,这可以作为未来工作的基准。3)提出了基于现有预训练TTA模型的音频生成模型,它不仅接受文本作为条件,而且还包含其他控制条件,以实现对音频的更细粒度和更精确的控制生成。实验结果验证了本文模型的有效性,该模型在生成音频信号时具有较好的控制效果。
任务:
生成由文本和控制条件指导的音频,从而能够使用时间戳、音高轮廓和能量轮廓对音频进行细粒度定制(多条件控制)。
工作:
提出了基于现有预训练TTA模型的音频生成模型,它不仅接受文本作为条件,而且还包含其他控制条件,以实现对音频的更细粒度和更精确的控制生成。
-
具体方法:
文本和控制条件编码器分别提取相应的嵌入。在文本和控制嵌入的指导下,使用来自VAE编码器的带噪声的mel嵌入(用于训练)或标准高斯噪声(用于测试)构建潜在表示,VAE解码器将其重建回mel频谱图,然后用声码器来生成最终的音频。为了保持生成能力,我们冻结了VAE,文本条件编码器和条件潜在扩散模型,并使用来自预训练TTA模型Tango的权重。 -
(1)组件信息:
-
- a text condition encoder(文本条件编码器):使用的是FLAN-T5-LARGE,提取文本条件的嵌入。在训练阶段,文本条件编码器的参数被冻结,以保持原有的语义表示能力。(冻结模块)
-
- a control condition encoder(控制条件编码器):控制条件编码器将控制条件作为输入,包括时间戳、音高轮廓和能量轮廓,提取控制条件的嵌入。(可训练模块)
-
- a conditional latent diffusion model(LDM)(条件潜在扩散模型):它依赖于噪声mel嵌入xt,文本嵌入ctext和控件嵌入ccontrol在内的条件。(U-net冻结模块)[潜在表示捕捉了数据的主要特征,并且通常具有更简单的分布。]
-
- a variational auto-encoder(变分自编码器):由编码器和解码器组成,编码器和解码器将mel频谱图压缩到mel嵌入x0中,并从mel嵌入x0重建mel频谱图。使用AudioLDM的VAE检查点并冻结其参数。(冻结模块)
-
- a Fusion-Net(融合网络):为了将控制嵌入ccontrol集成到LDM中,我们在冻结的U-Net的每一层之间引入了一个可训练的融合网络。(可训练模块)
-
- HiFi-GAN:作为声码器,将mel频谱图转化为最终音频
-
(2)控制条件预处理:
-
①时间戳:首先,采用与文本条件编码器相同的冻结的FLAN-T5 LARGE来将声音事件类转换为语义表示。然后,为了保持每个声音事件的独立性,利用可训练的1 × 1卷积层将FLANT 5-LARGE的输出转换为标签嵌入。最后,将标签嵌入与帧级时间戳的对应位置相乘,并对声音事件类的维数求和,得到帧级语义表示类对象:
-
②音高轮廓:采用连续小波变换来分解连续基音轮廓,并将每帧图像转换成256个可能的对数值,作为控制条件,由控制条件编码器转换为控制嵌入。
-
③能量轮廓:通过计算每个短时傅立叶变换帧的幅度的L2范数并在对数尺度上量化来计算其能量,该能量使用控制条件编码器来编码。
-
为了实现支持多个控制条件(时间戳、音高轮廓和能量轮廓)的一个模型,我们还应用上述操作来将控制条件标准化为相同的维度。随后,我们利用共享的多层感知器对它们进行编码,采用条件类型作为提示,以区分Fusion-Net中的不同控制条件。
-
(3)控制条件融合:
-
融合网络将控制嵌入作为输入,并添加了条件类型嵌入CLS。在一系列类似于VAE编码器的结构之后,我们调整了控制嵌入的维度,以匹配梅尔频谱图的维度,其中包括ResnetBlocks和卷积层。采用不同核大小和步长的二维对流层生成不同维数的控制条件tokens。在固定U-Net的每一层之间,我们将控制条件tokens与U-Net中从前一层获得的mel tokens连接起来。随后,我们采用自注意只选择与前馈块的mel tokens对应的输出tokens。
-
(4)Classifier-Free Guidance:
-
(5)数据集集成到一个名为AudioCondition的新数据集,该数据集包含音频、相应的文本和控制条件。
实验评价标准:
- (1)时间顺序控制指标:采用SED系统提供基于事件的度量(Eb)和剪辑级宏观F1分数(At)来评估时间顺序控制能力。这些指标评估生成音频中声音事件的存在,以及在AudioCondition测试集中使用DCASE 2022任务4(PB-SED)中的第一名SED系统的启动和偏移量。
- (2)音高控制指标:为了比较音频的音高分布,我们计算了语音领域中使用的几个矩,包括标准差、偏度和峰度,以及基音和合成音频之间音高分布的平均动态时间翘曲距离。
- (3)能量控制指标:计算从生成的音频中提取的逐帧能量与真实音频中的能量之间的MAE。