论文原文:具有对抗性学习的条件变分自动编码器用于端到端文本到语音的转换
github:论文源码
摘要
最近提出了几种支持单阶段训练和并行采样的端到端文本转语音 (TTS) 模型,但它们的样本质量与两阶段 TTS 系统不匹配。在这项工作中,我们提出了一种并行端到端 TTS 方法,该方法可生成比当前两阶段模型更自然的音频。我们的方法采用通过归一化流程和对抗性训练过程增强的变分推理,提高了生成模型的表达能力。我们还提出了一个随机持续时间预测器,用于从输入文本中合成具有不同节奏的语音。通过对潜在变量的不确定性建模和随机持续时间预测器,我们的方法表达了自然的一对多关系,其中文本输入可以以不同的音调和节奏以多种方式说出。对 LJ Speech(单个说话人数据集)的主观人类评估(平均意见得分或 MOS)表明,我们的方法优于最好的公开可用的 TTS 系统,并实现了与真实情况相当的 MOS。
1.简介
文本转语音 (TTS) 系统通过多个组件从给定文本合成原始语音波形。随着深度神经网络的快速发展,除了文本标准化和音素化等文本预处理之外,TTS系统管道已简化为两阶段生成建模。第一阶段是从预处理文本中生成中间语音表示,例如梅尔谱图(Shen 等人,2018)或语言特征(Oord 等人,2016),第二阶段是生成以中间语音为条件的原始波形表示(Oord 等人,2016;Kalchbrenner 等人,2018)。两级管道的模型都是独立开发的。
基于神经网络的自回归 TTS 系统已显示出合成真实语音的能力(Shen 等,2018;Li 等,2019),但其顺序生成过程使其难以充分利用现代并行处理器。为了克服这个限制并提高合成速度,已经提出了几种非自回归方法。在文本到频谱图生成步骤中,尝试从预先训练的自回归教师网络中提取注意力图(Ren 等人,2019;Peng 等人,2020),试图降低学习文本和频谱图之间对齐的难度。最近,基于可能性的方法通过估计或学习最大化目标梅尔谱图可能性的对齐方式进一步消除了对外部对齐器的依赖(Zeng 等人,2020;Miao 等人,2020;Kim 等人,2020) 。与此同时,生成对抗网络(GAN)(Goodfellow 等人,2014)已在第二阶段模型中进行了探索。基于 GAN 的前馈网络具有多个鉴别器,每个鉴别器区分不同尺度或周期的样本,实现高质量的原始波形合成(Kumar 等人,2019;Bi ́ nkowski 等人,2019;Kong 等人,2020) )。
尽管并行 TTS 系统取得了进步,但两阶段管道仍然存在问题,因为它们需要顺序训练或微调(Shen 等人,2018 年;Weiss 等人,2020 年)才能实现高质量生产,其中后阶段模型使用早期模型生成的样本。此外,它们对预定义中间特征的依赖妨碍了应用学习的隐藏表示来获得性能的进一步改进。最近,FastSpeech 2s (Ren et al., 2021) 和 EATS (Donahue et al., 2021) 等几项工作提出了高效的端到端训练方法,例如通过短音频片段而不是整个波形进行训练,利用梅尔谱图解码器来帮助文本表示学习,并设计专门的频谱图损失来缓解目标语音和生成语音之间的长度不匹配。然而,尽管利用学习到的表示可能会提高性能,但它们的合成质量仍落后于两阶段系统。
在这项工作中,我们提出了一种并行的端到端 TTS 方法,该方法可以生成比当前两阶段模型更自然的音频。使用变分自动编码器(VAE)(Kingma & Welling,2014),我们通过潜在变量连接 TTS 系统的两个模块,以实现高效的端到端学习。为了提高我们方法的表达能力,以便合成高质量的语音波形,我们将归一化流应用于波形域的条件先验分布和对抗训练。除了生成细粒度的音频之外,TTS 系统表达一对多关系也很重要,在这种关系中,文本输入可以通过不同的变化(例如音调和持续时间)以多种方式说出。为了解决一对多问题,我们还提出了一种随机持续时间预测器,用于从输入文本中合成具有不同节奏的语音。通过对潜在变量的不确定性建模和随机持续时间预测器,我们的方法捕获了无法用文本表示的语音变化。
与最好的公开 TTS 系统 Glow-TTS(Kim 等人,2020)和 HiFiGAN(Kong 等人,2020)相比,我们的方法获得了更自然的语音和更高的采样效率。我们公开演示页面和源代码2。
2.方法
在本节中,我们将解释我们提出的方法及其架构。所提出的方法主要在前三小节中描述:条件 VAE 公式;从变分推断得出的对齐估计;用于提高合成质量的对抗性训练。本节末尾描述了总体架构。图 1a 和 1b 分别显示了我们方法的训练和推理过程。从现在开始,我们将我们的方法称为端到端文本转语音的对抗性学习的变分推理(VITS)。
2.1. 变分推理
2.1.1.概述
VITS 可以表示为一个条件变分自编码器(VAE)(条件就是输入文本c-text),其目标是最大化数据的不可解边际对数似然函数 \(\log p_\theta(x|c)\) 的变分下界(也称为证据下界,ELBO)
\[\log p_\theta(x|c) \geq \Bbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)−\log \frac{q_\phi(z|x)}{p_\theta(z|c)}] \tag{1} \]左边是不可解的边际对数似然$ \log p_\theta(x|z)$,右边是其变分下界的表达式。这个下界是通过计算潜在变量 \(z\) 的后验分布 \(q_\phi(z|x)\) 下的期望值来估计的。右边的第一项$ \log p_\theta(x|z)\(表示生成模型的对数似然,第二项\) \log \frac{q_\phi(z|x)}{p_\theta(z|c)}$ 是 KL 散度的一部分,用于衡量后验分布 \(q_\phi(z|x)\)与先验分布 \(p_\theta(z|c)\)之间的差异。
其中\(p_\theta(z|c)\) 表示给定条件 c 的潜在变量 z 的先验分布,\(p_\theta(x|c)\) 是数据点 x 的似然函数,\(q_\phi(z|x)\) 是近似后验分布。训练损失就是负的ELBO,它可以被视为“重建损失 − $ \log p_\theta(x|z)\(和 KL 散度\) \log \frac{q_\phi(z|x)}{p_\theta(z|c)}$ 之和,其中 \(z \sim q_\phi(z|x)\)。
2.1.2.重建损失
作为重建损失中的目标数据点,我们使用梅尔频谱图而不是原始波形,用 $x_{mel} $表示。我们通过解码器将潜在变量 \(z\)上采样到波形域 \(\hat{y}\),并将\(\widehat{y}\) 变换到梅尔谱图域\(\hat{x}_{mel}\)。然后将预测梅尔谱图与目标梅尔谱图之间的$ L_1$损失用作重建损失:
\[L_{recon} = \begin{Vmatrix} x_{mel} - \hat{x}_{mel} \end{Vmatrix}_{1} \tag{2} \]这可以被视为假设数据分布为拉普拉斯分布并忽略常数项的最大似然估计。我们定义了梅尔谱图域中的重建损失,以通过使用近似人类听觉系统响应的梅尔尺度来提高感知质量。请注意,从原始波形估计梅尔谱图不需要可训练参数,因为它仅使用 STFT 和梅尔标度上的线性投影。此外,估计仅在训练期间使用,而不是推理。在实践中,我们不会对整个潜在变量 $z $进行上采样,而是使用部分序列作为解码器的输入,这是用于高效端到端训练的窗口生成器训练(Ren 等人,2021 年;Donahue 等人,2021 年)。
2.1.3. KL-散度
先验编码器c的输入条件由从文本中提取的音素\(c_{text}\)以及音素和潜在变量之间的对齐\(A\)组成。对齐是一个硬单调注意矩阵,带有 \(|c_{text}| × |z|\)表示每个输入音素扩展多长时间以与目标语音时间对齐的维度。由于对齐没有真实标签,因此我们必须在每次训练迭代时估计对齐,我们将在第 2.2.1 节中讨论这一点。在我们的问题设置中,我们的目标是为后编码器提供更高分辨率的信息。因此,我们使用目标语音 \(x_{lin}\) 的线性频谱图而不是梅尔频谱图作为输入。请注意,修改后的输入不会违反变分推理的属性。则 KL 散度为:
\[L_{kl} = log q_\phi(z|x_{lin}) - log p_\theta(z|c_{text}, A) \\ z \sim q_\phi(z|x_{lin}) = N(z; \mu_\phi(x_{lin}), \sigma_\phi(x_{lin})) \tag3 \]\(q_\phi(z|x_{lin})\)是高斯分布,z从\(q_\phi(z|x_{lin})\)中采样,\(\mu_\phi(x_{lin}), \sigma_\phi(x_{lin})\)分别表示均值和方差,由后验编码器学习目标语音 \(x_{lin}\)产生。
图 1. 系统图描绘了 (a) 训练过程和 (b) 推理过程。所提出的模型可以被视为一个条件 VAE;后验编码器、解码器和条件先验(绿色块:归一化流、线性投影层和文本编码器)以及基于流的随机持续时间预测器。
分解正态分布用于参数化我们的先验和后验编码器。我们发现增加先验分布的表达能力对于生成真实样本非常重要。因此,我们应用归一化流 $f_\theta $ (Rezende & Mohamed, 2015),它允许在因式分解的正态先验分布之上,遵循变量变化规则将简单分布可逆变换为更复杂的分布:
\[p_\theta(z|c) = \mathcal{N} (f_\theta(z); \mu_\theta(c), \sigma_\theta(c)) \left| \det \frac{\partial f_\theta(z)}{\partial z} \right|, \quad \tag{4} \\ c = [c_{\text{text}}, A] \]论文中简单分布使用高斯分布\(\mathcal{N} (f_\theta(z); \mu_\theta(c), \sigma_\theta(c))\),乘上雅可比矩阵变换到复杂分布p,也就是将q的采样点变换到以c为条件的p分布上。
2.2.对齐估计
2.2.1.单调对齐搜索
为了估计输入文本和目标语音之间的对齐 A,我们采用单调对齐搜索 (MAS)(Kim 等人,2020),这是一种搜索对齐的方法,可最大化由归一化流$ f $参数化的数据的可能性:
\[A = \arg\max_{\hat{A}} \log p(x | c_{\text{text}}, \hat{A}) \\ = \arg\max_{\hat{A}} \log \mathcal{N} \left( f(x); \mu(c_{\text{text}}, \hat{A}), \sigma(c_{\text{text}}, \hat{A}) \right) \quad \tag{5} \]由于人类按顺序阅读文本而不跳过任何单词,因此候选对齐被限制为单调且不可跳过。为了找到最佳对齐方式,Kim 等人。 (2020)使用动态规划。在我们的设置中直接应用 MAS 很困难,因为我们的目标是 ELBO,而不是精确的对数似然。因此,我们重新定义 MAS 以找到最大化 ELBO 的对齐方式,从而简化为找到最大化潜在变量 z 的对数似然的对齐方式:
\[\arg\max_{\hat{A}} \left( \log p_\theta(x_{\text{mel}}|z) - \log \frac{q_\phi(z|x_{\text{lin}})}{p_\theta(z|c_{\text{text}}, \hat{A})} \right) \\ = \arg\max_{\hat{A}} \log p_\theta(z|c_{\text{text}}, \hat{A}) \\ = \log \mathcal{N} \left( f_\theta(z); \mu_\theta(c_{\text{text}}, \hat{A}), \sigma_\theta(c_{\text{text}}, \hat{A}) \right) \quad \tag{6} \]由于公式 5 与公式 6 相似,我们可以使用原始 MAS 实现而无需修改。附录 A 包括 MAS 的伪代码。
2.2.2.根据文本预测持续时间
我们可以通过对估计对齐\(\sum_j A_{i,j}\) 的每行中的所有列求和来计算每个输入标记 \(d_i\) 的持续时间。正如之前的工作 (Kim et al., 2020) 中所提出的,持续时间可用于训练确定性持续时间预测器,但它无法表达一个人每次以不同语速说话的方式。
为了生成类似人类的语音节奏,我们设计了一个随机持续时间预测器,使其样本遵循给定音素的持续时间分布。随机持续时间预测器是基于流的生成模型,通常通过最大似然估计进行训练。然而,最大似然估计的直接应用是困难的,因为每个输入音素的持续时间是 1) 一个离散整数,需要对其进行反量化以使用连续归一化流,以及 2) 一个标量,它阻止由于可逆性而导致的高维变换。我们应用变分反量化(Ho et al., 2019)和变分数据增强(Chen et al., 2020)来解决这些问题。具体来说,我们引入两个随机变量 u 和 ν,它们分别用于变分去量化和变分数据增强,它们与持续时间序列 d 具有相同的时间分辨率和维度。我们将 u 的支持度限制为 [0, 1),以便差值 d − u 成为正实数序列,并且我们按通道连接 ν 和 d 以形成更高维的潜在表示。我们通过近似后验分布\(q_\phi(u, v|d, c_{text})\)对两个变量进行采样。由此产生的目标是音素持续时间的对数似然的变分下界:
\[\log p_\theta(d|c_{\text{text}}) \geq \mathbb{E}_{q_\phi(u, \nu | d, c_{\text{text}})} \left[ \log \frac{p_\theta(d - u, \nu|c_{\text{text}})}{q_\phi(u, \nu|d, c_{\text{text}})} \right] \quad \tag{7} \]训练损失 \(L_{dur}\) 就是负变分下界。我们将停止梯度算子(van den Oord et al., 2017)应用于输入条件,以防止反向传播输入的梯度,以便持续时间预测器的训练不会影响其他模块的训练。
2.3.对抗性训练
为了在我们的学习系统中采用对抗训练,我们加入了一个判别器 \(D\),用于区分解码器 \(G\) 生成的输出与真实波形 \(y\) 之间的差异。在本研究中,我们使用了两种在语音合成中成功应用的损失函数:用于对抗训练的最小二乘损失函数(Mao 等,2017),以及用于训练生成器的额外特征匹配损失(Larsen 等,2016)。
\[L_{\text{adv}}(D) = \mathbb{E}_{(y, z)} \left[ \left( D(y) - 1 \right)^2 + \left( D(G(z)) \right)^2 \right], \quad \tag{8} \]\[L_{\text{adv}}(G) = \mathbb{E}_{z} \left[ \left( D(G(z)) - 1 \right)^2 \right], \quad \tag{9} \]\[L_{\text{fm}}(G) = \mathbb{E}_{(y, z)} \left[ \sum_{l=1}^{T} \frac{1}{N_l} \left\| D_l(y) - D_l(G(z)) \right\|_1 \right], \quad \tag{10} \]其中T表示鉴别器中的总层数,\(D^l\)输出具有\(N^l\)个特征的鉴别器第\(l\)层的特征图。值得注意的是,特征匹配损失可以看作是在鉴别器的隐藏层中测量的重建损失,建议作为 VAE 的元素重建损失的替代方案(Larsen 等人,2016)。
2.4. 最终损失
通过结合 VAE 和 GAN 训练,训练我们的条件 VAE 的总损失可以表示为:
\[L_{vae} = L_{recon} + L_{kl} + L_{dur} + L_{adv}(G) + L_{fm}(G) \tag{11} \]\(L_{recon}:重构损失 L_{kl}:kl散度损失 L_{dur}:时长预测损失 \\ L_{adv}(G):生成器损失 L_{fm}(G):判别器每层损失求和\)
2.5.模型架构
所提出模型的整体架构由后验编码器、先验编码器、解码器、鉴别器和随机持续时间预测器组成。后验编码器和判别器仅用于训练,不用于推理。架构细节可参见附录 B。
2.5.1. 后验编码器
对于后编码器,我们使用 WaveGlow(Prenger 等人,2019)和 Glow-TTS(Kim 等人,2020)中使用的非因果 WaveNet 残差块。 WaveNet 残差块由具有门控激活单元和跳跃连接的扩张卷积层组成。块上方的线性投影层产生正态后验分布的均值和方差。对于多说话人的情况,我们在残差块中使用全局调节(Oord et al., 2016)来添加说话人嵌入。
2.5.2.先验编码器
先验编码器由处理输入音素 $c_{text} \(的文本编码器和提高先验分布灵活性的归一化流\) f_\theta$ 组成。文本编码器是一个transformer
编码器(Vaswani et al., 2017),它使用相对位置表示(Shaw et al., 2018)而不是绝对位置编码。我们可以通过文本编码器和文本编码器上方的线性投影层从 \(c_text\) 获得隐藏表示$ h_{text}$,该线性投影层产生用于构造先验分布的均值和方差。归一化流是由一堆 WaveNet残差块组成的仿射耦合层堆栈(Dinh 等人,2017)。为简单起见,我们将归一化流程设计为雅可比行列式为 1 的体积保持变换。对于多说话人设置,我们通过全局条件将说话人嵌入加入到归一化流中的残差块。
2.5.3. 解码器
解码器本质上是 HiFi-GAN V1
生成器(Kong 等人,2020)。它由一堆转置卷积组成,每个转置卷积后面都有一个多感受野融合模块(MRF)
。 MRF
的输出是具有不同感受野大小的残差块的输出之和。对于多说话人设置,我们添加一个线性层来转换多说话人嵌入并将其添加到输入潜在变量 z 中。
2.5.4.鉴别器
我们遵循 HiFi-GAN
中提出的多周期鉴别器的鉴别器架构(Kong 等人,2020)。多周期鉴别器是基于马尔可夫窗口的子鉴别器的混合(Kumar et al., 2019),每个子鉴别器都对输入波形的不同周期模式进行操作。
2.5.5.随机持续时间预测器
随机时长预测器从条件输入 \(h_{\text{text}}\) 中估计音素时长的分布。为了高效地参数化随机时长预测器,我们堆叠了带有膨胀和深度可分离卷积层的残差块。我们还应用了神经样条流(Neural Spline Flows,Durkan 等,2019),其形式为使用单调有理二次样条的可逆非线性变换,用于耦合层。与常用的仿射耦合层相比,神经样条流在使用相似数量参数的情况下提高了变换的表达能力。对于多说话人设置,我们添加了一个线性层,该层将说话人嵌入进行变换,并将其添加到输入 \(h_{\text{text}}\)中。
3.实验
3.1数据集
我们在两个不同的数据集上进行了实验。我们使用 LJ 语音数据集(Ito,2017)与其他公开可用的模型和 VCTK 数据集(Veaux 等人,2017)进行比较,以验证我们的模型是否可以学习和表达不同的语音特征。 LJ Speech 数据集由单个说话者的 13,100 个短音频片段组成,总长度约为 24 小时。音频格式为 16 位 PCM,采样率为 22 kHz,我们在使用时没有进行任何操作。我们将数据集随机分为训练集(12,500 个样本)、验证集(100 个样本)和测试集(500 个样本)。 VCTK 数据集包含大约 44,000 个短音频片段,由 109 名以不同口音的英语为母语的人说出。音频片段的总长度约为 44 小时。音频格式为 16 位 PCM,采样率为 44 kHz。我们将采样率降低至 22 kHz。我们将数据集随机分为训练集(43,470 个样本)、验证集(100 个样本)和测试集(500 个样本)。
3.2.预处理
我们使用可以通过短时傅里叶变换(STFT)从原始波形获得的线性频谱图作为后编码器的输入。变换的FFT大小、窗口大小和跳数大小分别设置为1024、1024和256。我们使用 80 个频带梅尔尺度频谱图来进行重建损失,这是通过将梅尔滤波器组应用于线性频谱图而获得的。
我们使用国际音标(IPA)序列作为先验编码器的输入。我们使用开源软件(Bernard, 2021)将文本序列转换为 IPA 音素序列,并按照 Glow-TTS 的实现方式,在转换后的序列中插入空白符号。
3.3.训练
网络使用 AdamW 优化器(Loshchilov & Hutter, 2019)进行训练,其中 \(\beta_1 = 0.8\),\(\beta_2 = 0.99\),权重衰减 \(\lambda = 0.01\)。学习率衰减按每个 epoch 以 \(0.9991^{1/8}\) 的比例递减,初始学习率为 \(2 \times 10^{-4}\)。按照之前的研究(Ren 等,2021;Donahue 等,2021),我们采用了窗口化生成器训练方法,这种方法仅生成部分原始波形,以减少训练时间和内存使用。我们随机提取大小为 32 的潜在表示片段并输入解码器,而不是输入整个潜在表示,同时从真实的原始波形中提取对应的音频片段作为训练目标。训练使用混合精度,在 4 块 NVIDIA V100 GPU
上进行。每个 GPU
的批量大小设置为 64,模型训练至 80 万步。
3.4.用于比较的实验设置
我们将我们的模型与最佳的公开模型进行了比较。我们使用 Tacotron 2(一种自回归模型)和 Glow-TTS(一种基于流的非自回归模型)作为第一阶段模型,使用 HiFi-GAN 作为第二阶段模型。我们使用了他们的公共实现和预训练权重3。由于两阶段 TTS 系统理论上可以通过顺序训练实现更高的合成质量,因此我们将经过微调的 HiFi-GAN 包含在第一阶段的预测输出中,最多可实现 100k 步模型。我们通过实验发现,使用 Tacotron 2 在教师强制模式下生成的梅尔频谱微调 HiFi-GAN 能够为 Tacotron 2 和 Glow-TTS 都带来更好的质量,而不是使用 Glow-TTS 生成的梅尔频谱进行微调,因此我们将这个经过更好微调的 HiFi-GAN 同时应用于 Tacotron 2 和 Glow-TTS。
由于每个模型在采样过程中都有一定程度的随机性,因此我们在整个实验中固定了控制每个模型随机性的超参数。 Tactron 2 预网中的 dropout 概率设置为 0.5。对于 Glow-TTS,先验分布的标准差设置为 0.333。对于 VITS,随机持续时间预测器的输入噪声的标准差设置为 0.8,我们将比例因子 0.667 乘以先验分布的标准差。
4.结果
4.1.语音合成质量
我们进行了众包 MOS(crowd-sourced MOS) 测试来评估质量。评分者聆听随机选择的音频样本,并按照从 1 到 5 的 5 分制评分其自然度。评分者可以对每个音频样本进行一次评估,我们对所有音频片段进行标准化,以避免幅度差异对分数的影响。这项工作中的所有质量评估都是以这种方式进行的。
评估结果如表 1 所示。VITS 的表现优于其他 TTS 系统,并且其 MOS 分数接近真实音频。使用与 Glow-TTS 相同的确定性时长预测器架构而非随机时长预测器的 VITS (DDP) 在 MOS 评估中得分第二高。这些结果表明:1)随机时长预测器生成的音素时长比确定性时长预测器更真实,2)即使保持相似的时长预测器架构,我们的端到端训练方法仍能比其他 TTS 模型生成更好的样本。
我们进行了消融研究,以证明我们方法的有效性,包括先验编码器中的归一化流和线性尺度谱图的后验输入。消融研究中的所有模型都训练了 30 万步。结果如表 2 所示。移除先验编码器中的归一化流导致 MOS 评分相比基线降低 1.52,表明先验分布的灵活性对合成质量有显著影响。将后验输入的线性尺度谱图替换为梅尔谱图导致质量下降(MOS 减少 0.19),这表明高分辨率信息对于 VITS 提高合成质量是有效的。
4.2. 多说话人语音合成的泛化能力
为了验证我们的模型是否能够学习和表达多样的语音特征,我们将其与 Tacotron 2、Glow-TTS 和 HiFi-GAN 进行了比较,这些模型在之前的研究中展现了扩展到多说话人语音合成的能力(Jia 等,2018;Kim 等,2020;Kong 等,2020)。我们使用 VCTK 数据集训练了这些模型。按照第 2.5 节的描述,我们在模型中加入了说话人嵌入。对于 Tacotron 2,我们将说话人嵌入广播并与编码器输出进行拼接;对于 Glow-TTS,我们按照之前的研究应用了全局条件。评估方法与第 4.1 节中描述的方法相同。正如表 3 所示,我们的模型获得了比其他模型更高的 MOS,这表明我们的模型能够以端到端的方式学习和表达多样的语音特征。
4.3. 语音变化
我们验证了随机时长预测器生成了多少不同长度的语音,以及合成的样本具有多少不同的语音特征。
与 Valle 等(2021)类似,所有样本均来自句子 "How much variation is there?"。图 2a 显示了每个模型生成的 100 个语句的长度直方图。由于 Glow-TTS 使用的是确定性时长预测器,因此它只能生成固定长度的语句,而我们模型生成的样本长度分布与 Tacotron 2 类似。图 2b 显示了在多说话人设置下,我们模型根据五个不同说话人身份生成的 100 个语句的长度,这表明模型能够学习到与说话人相关的音素时长。图 3 中使用 YIN 算法(De Cheveigné & Kawahara, 2002)提取的 10 个语句的 F0 轮廓显示,我们的模型生成的语音具有多样的音高和节奏,图 3d 中展示了根据不同说话人身份生成的五个样本,表明我们的模型能够为每个说话人身份生成长度和音高差异显著的语音。需要注意的是,Glow-TTS 可以通过增加先验分布的标准差来提高音高的多样性,但这可能会降低合成质量。
4.4. 合成速度
我们将模型的合成速度与并行的两阶段 TTS 系统 Glow-TTS 和 HiFi-GAN 进行了比较。我们测量了整个过程中从音素序列生成原始波形所需的同步时间,使用了从 LJ Speech 数据集测试集中随机选取的 100 个句子。我们在一块 NVIDIA V100 GPU 上进行测试,批量大小为 1。结果如表 4 所示。由于我们的模型不需要生成预定义的中间表示模块,其采样效率和速度得到了极大提升。
5.相关工作
5.1. 端到端语音合成
目前,具有两阶段流程的神经网络 TTS 模型可以合成接近人类的语音(Oord 等,2016;Ping 等,2018;Shen 等,2018)。然而,这些模型通常需要使用第一阶段模型输出的结果来训练或微调声码器,这导致了训练和部署效率低下。此外,它们无法利用端到端方法的潜在优势,后者可以使用学习到的隐藏表示,而不是预定义的中间特征。
最近,提出了单阶段端到端 TTS 模型,以直接从文本生成原始波形这一更具挑战性的任务。相比梅尔谱图,原始波形包含更丰富的信息(例如高频响应和相位)。FastSpeech 2s(Ren 等,2021)是 FastSpeech 2 的扩展,通过采用对抗训练和辅助梅尔谱图解码器来帮助学习文本表示,实现了端到端的并行生成。然而,为了解决一对多的问题,FastSpeech 2s 必须从语音中提取音素时长、音高和能量,并将其作为训练中的输入条件。EATS(Donahue 等,2021)同样采用了对抗训练和可微分的对齐机制。为了解决生成语音与目标语音之间的长度不匹配问题,EATS 采用了通过动态规划计算的软动态时间规整损失。Wave Tacotron(Weiss 等,2020)将归一化流与 Tacotron 2 结合,形成了端到端结构,但仍然是自回归的。上述所有端到端 TTS 模型的音频质量都不如两阶段模型。
与上述端到端模型不同,我们的模型通过利用条件 VAE,1) 学会直接从文本合成原始波形,而不需要额外的输入条件,2) 使用动态规划方法 MAS 来搜索最优对齐,而不是计算损失,3) 并行生成样本,4) 其性能优于公开可用的最佳两阶段模型。
5.2. 变分自编码器 (VAEs)
VAEs(Kingma & Welling,2014)是最广泛使用的基于似然的深度生成模型之一。我们将条件 VAE 应用于 TTS 系统。条件 VAE 是一种条件生成模型,观察到的条件调控用于生成输出的潜在变量的先验分布。在语音合成中,Hsu 等(2019)和 Zhang 等(2019)将 Tacotron 2 与 VAE 结合,学习语音风格和韵律。BVAE-TTS(Lee 等,2021)基于双向 VAE(Kingma 等,2016)并行生成梅尔谱图。与之前将 VAE 应用于第一阶段模型的工作不同,我们将 VAE 应用于并行的端到端 TTS 系统。
Rezende & Mohamed(2015)、Chen 等(2017)和 Ziegler & Rush(2019)通过使用归一化流增强先验和后验分布的表达能力来提高 VAE 的性能。为了提高先验分布的表达能力,我们在条件先验网络中加入了归一化流,从而生成更逼真的样本。
与我们的工作类似,Ma 等(2019)在非自回归神经机器翻译 FlowSeq 中提出了一种在条件先验网络中使用归一化流的条件 VAE。然而,我们的模型能够显式地将潜在序列与源序列对齐,这与 FlowSeq 依赖注意力机制隐式学习对齐的方式不同。我们的模型通过 MAS(蒙特卡洛样本选择)将潜在序列与时间对齐的源序列进行匹配,消除了将潜在序列转换为标准正态随机变量的负担,从而使归一化流的架构更加简化。
5.3. 非自回归语音合成中的时长预测
自回归 TTS 模型(Taigman 等,2018;Shen 等,2018;Valle 等,2021)通过其自回归结构以及一些技巧(包括在推理过程中保持 dropout 概率和 priming(Graves,2013))生成具有不同节奏的多样化语音。而并行 TTS 模型(Ren 等,2019;Peng 等,2020;Kim 等,2020;Ren 等,2021;Lee 等,2021)则依赖于确定性时长预测。这是因为并行模型必须在一次前馈路径中预测目标音素时长或目标语音的总长度,这使得很难捕捉语音节奏的相关联合分布。在本研究中,我们提出了一种基于流的随机时长预测器,该预测器能够学习估计的音素时长的联合分布,从而并行生成多样化的语音节奏。
6.结论
在本研究中,我们提出了一种并行 TTS 系统 VITS
,该系统可以以端到端的方式进行学习和生成。我们还引入了随机时长预测器,以表达语音的多样化节奏。最终系统能够直接从文本合成自然的语音波形,而不需要经过预定义的中间语音表示。实验结果表明,我们的方法优于两阶段 TTS 系统,并且达到了接近人类语音的质量。我们希望所提出的方法能够在许多语音合成任务中取代两阶段 TTS 系统,从而实现性能提升并简化训练过程。同时我们也指出,尽管我们的方法集成了 TTS 系统中两个独立的生成流程,文本预处理问题仍然存在。研究自监督的语言表示学习可能是消除文本预处理步骤的一个方向。我们将发布源代码和预训练模型,以促进未来多种研究方向的发展。
参考文献
- Bernard, M. Phonemizer. https://github.com/ bootphon/phonemizer, 2021.
- Bi ́ nkowski, M., Donahue, J., Dieleman, S., Clark, A., Elsen, E., Casagrande, N., Cobo, L. C., and Simonyan, K. High Fidelity Speech Synthesis with Adversarial Networks. In International Conference on Learning Representations, 2019.
- Chen, J., Lu, C., Chenli, B., Zhu, J., and Tian, T. Vflow: More expressive generative flows with variational data augmentation. In International Conference on Machine Learning, pp. 1660–1669. PMLR, 2020.
- Chen, X., Kingma, D. P., Salimans, T., Duan, Y., Dhariwal, P., Schulman, J., Sutskever, I., and Abbeel, P. Variational lossy autoencoder. 2017. URL https: //openreview.net/forum?id=BysvGP5ee.
- Dinh, L., Sohl-Dickstein, J., and Bengio, S. Density estimation using Real NVP. In International Conference on Learning Representations, 2017.
- Donahue, J., Dieleman, S., Binkowski, M., Elsen, E., and Simonyan, K. End-to-end Adversarial Text-to-Speech. In International Conference on Learning Representations, 2021. URL https://openreview.net/forum? id=rsf1z-JSj87.
- Durkan, C., Bekasov, A., Murray, I., and Papamakarios, G. Neural Spline Flows. In Advances in Neural Information Processing Systems, pp. 7509–7520, 2019.
- Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative Adversarial Nets. Advances in Neural Information Processing Systems, 27:2672–2680, 2014.
- Graves, A. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850, 2013.
- Ho, J., Chen, X., Srinivas, A., Duan, Y., and Abbeel, P. Flow++: Improving flow-based generative models with variational dequantization and architecture design. In International Conference on Machine Learning, pp. 27222730. PMLR, 2019.
- Hsu, W.-N., Zhang, Y., Weiss, R., Zen, H., Wu, Y., Cao, Y., and Wang, Y. Hierarchical Generative Modeling for Controllable Speech Synthesis. In International Conference on Learning Representations, 2019. URL https: //openreview.net/forum?id=rygkk305YQ.
- Ito, K. The LJ Speech Dataset. https://keithito. com/LJ-Speech-Dataset/, 2017.
- Jia, Y., Zhang, Y., Weiss, R. J., Wang, Q., Shen, J., Ren, F., Chen, Z., Nguyen, P., Pang, R., Lopez-Moreno, I., et al. Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis. In Advances in Neural Information Processing Systems, 2018.
- Kalchbrenner, N., Elsen, E., Simonyan, K., Noury, S., Casagrande, N., Lockhart, E., Stimberg, F., Oord, A., Dieleman, S., and Kavukcuoglu, K. Efficient neural audio synthesis. In International Conference on Machine Learning, pp. 2410–2419. PMLR, 2018.
- Kim, J., Kim, S., Kong, J., and Yoon, S. Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search. Advances in Neural Information Processing Systems, 33, 2020.
- Kingma, D. P. and Welling, M. Auto-Encoding Variational Bayes. In International Conference on Learning Representations, 2014.
- Kingma, D. P., Salimans, T., Jozefowicz, R., Chen, X., Sutskever, I., and Welling, M. Improved variational inference with inverse autoregressive flow. Advances in Neural Information Processing Systems, 29:4743–4751, 2016.
- Kong, J., Kim, J., and Bae, J. HiFi-GAN: Generative Adversarial networks for Efficient and High Fidelity Speech Synthesis. Advances in Neural Information Processing Systems, 33, 2020.
- Kumar, K., Kumar, R., de Boissiere, T., Gestin, L., Teoh, W. Z., Sotelo, J., de Br ́ ebisson, A., Bengio, Y., and Courville, A. C. MelGAN: Generative Adversarial Networks for Conditional waveform synthesis. volume 32, pp. 14910–14921, 2019.
- Larsen, A. B. L., Sønderby, S. K., Larochelle, H., and Winther, O. Autoencoding beyond pixels using a learned similarity metric. In International Conference on Machine Learning, pp. 1558–1566. PMLR, 2016.
- Lee, Y., Shin, J., and Jung, K. Bidirectional Variational Inference for Non-Autoregressive Text-to-speech. In International Conference on Learning Representations, 2021. URL https://openreview.net/forum? id=o3iritJHLfO.
- Li, N., Liu, S., Liu, Y., Zhao, S., and Liu, M. Neural speech synthesis with transformer network. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pp. 6706–6713, 2019.
- Loshchilov, I. and Hutter, F. Decoupled Weight Decay Regularization. In International Conference on Learning Representations, 2019. URL https://openreview. net/forum?id=Bkg6RiCqY7.
- Ma, X., Zhou, C., Li, X., Neubig, G., and Hovy, E. Flowseq: Non-autoregressive conditional sequence generation with generative flow. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pp. 4273–4283, 2019.
- Mao, X., Li, Q., Xie, H., Lau, R. Y., Wang, Z., and Paul Smolley, S. Least squares generative adversarial networks. In Proceedings of the IEEE international conference on computer vision, pp. 2794–2802, 2017.
- Miao, C., Liang, S., Chen, M., Ma, J., Wang, S., and Xiao, J. Flow-TTS: A non-autoregressive network for text to speech based on flow. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7209–7213. IEEE, 2020.
- Oord, A. v. d., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., and Kavukcuoglu, K. Wavenet: A generative model for raw audio. arXiv preprint arXiv:1609.03499, 2016.
- Peng, K., Ping, W., Song, Z., and Zhao, K. Nonautoregressive neural text-to-speech. In International Conference on Machine Learning, pp. 7586–7598. PMLR, 2020.
- Ping, W., Peng, K., Gibiansky, A., Arik, S. O., Kannan, A., Narang, S., Raiman, J., and Miller, J. Deep Voice 3: 2000-Speaker Neural Text-to-Speech. In International Conference on Learning Representations, 2018. URL https: //openreview.net/forum?id=HJtEm4p6Z.
- Prenger, R., Valle, R., and Catanzaro, B. Waveglow: A flow-based generative network for speech synthesis. In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 3617–3621. IEEE, 2019.
- Ren, Y., Ruan, Y., Tan, X., Qin, T., Zhao, S., Zhao, Z., and Liu, T.-Y. FastSpeech: Fast, Robust and Controllable Text to Speech. volume 32, pp. 3171–3180, 2019.
- Ren, Y., Hu, C., Tan, X., Qin, T., Zhao, S., Zhao, Z., and Liu, T.-Y. FastSpeech 2: Fast and High-Quality End-to-End Text to Speech. In International Conference on Learning Representations, 2021. URL https://openreview. net/forum?id=piLPYqxtWuA.
- Rezende, D. and Mohamed, S. Variational inference with normalizing flows. In International Conference on Machine Learning, pp. 1530–1538. PMLR, 2015.
- Shaw, P., Uszkoreit, J., and Vaswani, A. Self-Attention with Relative Position Representations. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pp. 464–468, 2018.
- Shen, J., Pang, R., Weiss, R. J., Schuster, M., Jaitly, N., Yang, Z., Chen, Z., Zhang, Y., Wang, Y., Skerrv-Ryan, R., et al. Natural tts synthesis by conditioning wavenet on mel spectrogram predictions. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4779–4783. IEEE, 2018.
- Taigman, Y., Wolf, L., Polyak, A., and Nachmani, E. Voiceloop: Voice Fitting and Synthesis via a Phonological Loop. In International Conference on Learning Representations, 2018. URL https://openreview. net/forum?id=SkFAWax0-.
- Valle, R., Shih, K. J., Prenger, R., and Catanzaro, B. Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. In International Conference on Learning Representations, 2021. URL https://openreview.net/forum? id=Ig53hpHxS4.
- van den Oord, A., Vinyals, O., and Kavukcuoglu, K. Neural discrete representation learning. In Advances in Neural Information Processing Systems, pp. 6309–6318, 2017.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. Attention is All you Need. Advances in Neural Information Processing Systems, 30:5998–6008, 2017.
- Veaux, C., Yamagishi, J., MacDonald, K., et al. CSTR VCTK corpus: English multi-speaker corpus for CSTR voice cloning toolkit. University of Edinburgh. The Centre for Speech Technology Research (CSTR), 2017.
- Weiss, R. J., Skerry-Ryan, R., Battenberg, E., Mariooryad, S., and Kingma, D. P. Wave-Tacotron: Spectrogramfree end-to-end text-to-speech synthesis. arXiv preprint arXiv:2011.03568, 2020.
- Zeng, Z., Wang, J., Cheng, N., Xia, T., and Xiao, J. Aligntts: Efficient feed-forward text-to-speech system without explicit alignment. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6714–6718. IEEE, 2020.
- Zhang, Y.-J., Pan, S., He, L., and Ling, Z.-H. Learning latent representations for style control and transfer in endto-end speech synthesis. In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6945–6949. IEEE, 2019.
- Ziegler, Z. and Rush, A. Latent normalizing flows for discrete sequences. In International Conference on Machine Learning, pp. 7673–7682. PMLR, 2019.