论文分享｜[ACL 2024] 鲁棒的歌声转录服务于合成

标签：转录单词 ACL 2024 鲁棒歌声音符 SVS 标注

题目：Robust Singing Voice Transcription Serves SynthesisRobust Singing Voice Transcription Serves Synthesis

作者：Ruiqi Li, Yu Zhang, Yongqi Wang, Zhiqing Hong, Rongjie Huang, Zhou Zhao

论文：Robust Singing Voice Transcription Serves Synthesis

Demo：Robust Singing Voice Transcription Serves Synthesis

代码：GitHub - RickyL-2000/ROSVOT: Robust Singing Voice Transcription and MIDI Extraction

1. 摘要

音符级自动歌声转录（AST）将歌唱录音转换为音符序列，为歌声合成（SVS）应用中的歌唱数据集自动标注提供了便利。然而，目前的 AST 方法在实际标注中在准确性和鲁棒性方面存在困难。本文提出了 ROSVOT，这是首个服务于 SVS 的鲁棒 AST 模型，它结合了多尺度框架，能有效捕获粗粒度音符信息并确保细粒度的帧级分割，同时配备基于注意力机制的音高解码器以进行可靠的音高预测。我们还为 SVS 建立了一个全面的标注和训练流程，以便在实际环境中测试该模型。实验结果表明，ROSVOT 在输入干净或有噪声的情况下都能达到最先进的转录准确性。此外，当在扩大的、自动标注的数据集上进行训练时，SVS 模型的性能优于其基线，证实了其实际应用的能力。

2. 引言

音符级自动歌唱声音转录（AST）是指将歌声录音转换为一系列音符事件，包括音符音高、起始时间和结束时间。作为音乐信息检索（MIR）任务的一部分，AST 在专业音乐制作和后期制作调音中广泛应用。随着歌声合成（SVS）的最新进展，对标注数据的需求不断增长，而 AST 方法仅仅展示了自动标注的潜力。

从歌声中进行音符转录比从乐器中进行音符转录要困难得多，因为人类声音的音高成分是高度动态的。在唱歌时，人们发出字词的声音，这会导致音高不稳定以及音符边界模糊。例如，如果一个单词以清辅音开头，音高的起始可能会稍微延迟。此外，像颤音和倚音这样的歌唱技巧进一步使边界定位变得复杂。

自动歌声转录（AST）任务主要可分解为两个步骤：音符分割和音高估计。第一步预测每个音符的边界，即音符的起始和结束时间，这通常被实现为分类任务或目标检测任务。对于音高估计，先前的工作主要在基频（F0）值上采用加权中值或平均运算。

尽管已有先前的成就，但据我们所知，目前还没有一个自动歌声转录（AST）模型能够实现用于训练歌声合成（SVS）模型的完整标注管道。将 AST 方法应用于歌声合成任务的自动标注仍面临几个挑战：

准确性不足。尽管为提高准确性做出了众多努力，但对于自动标注来说，其性能仍然不够。目前，自动歌声转录（AST）的结果仅仅作为初步的指导，在实际应用中还需要额外的人工细化。
音符与文本不同步。歌声合成（SVS）模型通常需要文本与音符同步的标注。目前，在没有单词 / 音素监督的情况下对歌声进行转录确定边界需要额外的后处理来进行对齐，这会引入累积误差。
鲁棒性不足。网络爬虫是一种流行的数据收集方法，但质量参差不齐。自动歌声转录（AST）方法容易受到噪声影响，因为声音伪影往往会破坏边界定位和音高感知。

在本文中，我们提出了 ROSVOT，这是一个服务于歌声合成（SVS）的鲁棒自动歌声转录模型。音符边界预测被公式化为一维语义分割，并且采用基于注意力的解码器进行音高预测。为了实现粗粒度语义建模和细粒度帧级分割，我们通过整合 Conformer和 U-Net设计了一种多尺度架构。此外，该模型结合了单词边界来指导分割过程。我们将输入波形与 MUSAN噪声随机混合以模拟嘈杂环境，形成瓶颈并增强去噪能力。

为了展示 ROSVOT 在实际标注应用中的潜力，我们在歌声合成（SVS）任务的综合标注和训练管道上进行了大量实验，模拟真实世界的场景。我们选择并稍加修改 RMSSinger，这是最先进的 SVS 模型之一，作为歌唱声学模型。实验表明，使用纯转录标注训练的 SVS 模型在音高准确性方面达到了手动标注数据的 91%，且整体质量没有损失。我们还探索了跨语言任务的泛化性能，使用用普通话语料库训练的 ROSVOT 来标注英语语料库，然后用其训练 SVS 模型。我们的贡献总结如下：

我们提出了 ROSVOT，这是首个服务于歌声合成（SVS）的鲁棒自动歌声转录模型，它在干净或嘈杂的环境下均能实现最先进的转录准确性。
我们构建了一个全面的标注和训练管道，以研究自动转录标注对歌声合成任务的影响。
所提出的多尺度模型在音高转录方面比之前最佳的已发表方法相对提高了 17%，在有噪声输入的情况下提高了 23%。
通过纳入自动标注的大规模数据集，我们展示了 ROSVOT 的实际应用能力以及缓解歌声合成中数据稀缺问题的可能性。
我们探索了 ROSVOT 的跨语言泛化能力。

3. 方法

整体架构。、和分别代表梅尔频谱图、单词边界和基频（F0）轮廓输入的编码器。“Down” 和 “Up” 部分表示 U-Net 主干的编码器和解码器。“Seg.” 和 “Smooth” 标记分别表示时间分割和标签平滑操作。

任务定义

在音符分割步骤中，模型在每个时间步预测起始 / 结束状态。我们引入静音音符来将整个序列中的每个音符首尾相连，用单个音符边界标记序列代替起始 / 结束元组。第一步可以被视为语义分割，预测一个二值标签序列。第二步是预测音高序列。

概述

歌声合成（SVS）的常见数据收集管道包括两个阶段：a）音素 / 单词标注；b）音符标注，其中前者可以通过利用自动语音识别（ASR）方法和强制对齐工具（如 MFA）来实现。然而，第二阶段远未达到完全自动化的水平。艰苦的人工标注阻碍了大规模数据收集。需要一个高精度且鲁棒的标注器。

音符分割是一个多尺度分类任务，因为音符序列是粗粒度的，而预测的边界序列是细粒度的。因此，我们构建了一个多尺度模型，结合了一个 U-Net 主干和一个下采样的 Conformer。该模型以梅尔频谱图、基频（F0）轮廓和单词边界作为输入。为了提高鲁棒性，我们在嘈杂环境下训练模型并应用各种数据增强操作。对于音高预测，我们采用基于注意力的方法来获得动态时间权重并进行加权平均。音符分割部分和音高预测部分共同训练以获得最佳结果。

数据增强

音符起始和结束的确切时间位置在微观尺度上很难划分，因为音符之间的过渡是连续且平滑的。因此，标签平滑是自动歌声转录（AST）任务中的一种常见策略。此外，软标签比硬标签携带更多信息，例如模型所需的置信度。具体来说，我们在标签序列和高斯滤波器之间应用时间卷积操作：

我们在提取频谱图之前将真实的噪声信号与波形混合。利用 MUSAN 噪声语料库随机引入干扰。MUSAN 语料库由各种噪声组成，如嘈杂声、音乐、噪声和语音。引入的噪声强度根据信噪比（SNR）区间随机调整。噪声信号被重复或分块以满足每个训练样本的长度。在训练阶段，我们进行噪声混合，然后即时提取梅尔频谱图：

除了频谱图之外，我们还向基频（F0）轮廓和标签序列添加噪声。由于模型将 F0 轮廓作为输入，干净的 F0 轮廓可能会泄露信息。我们简单地向对数 F0 轮廓和软标签添加高斯噪声以提高鲁棒性。

单词边界条件

为了调整分割结果并更好地适应实际标注，我们引入了单词边界条件。单词边界序列与音符边界序列具有相同的形式，包括静音或 “NONE” 单词。进行这种调整是必要的，因为在实际标注中，单词序列和音符序列需要在时间上同步。换句话说，在时间步处存在单词边界意味着在处存在音符边界，但反之不一定成立。这是因为滑音是一种常用的歌唱技巧。如果不进行调整，就需要额外的后处理来同步单词和音符序列。

由于在实际中，音符标注阶段在音素标注阶段之后，所以应该已经通过像 MFA 这样的强制对齐工具获得了单词边界。我们直接将单词边界编码为一个额外的条件，以确保单词和音符的同步。此外，为了提供仅音符的支持，我们训练了一个额外的单词边界提取器，以处理音乐行业中的声乐调音等场景，在这些场景中无法进行单词对齐。

多尺度架构

音符序列的语义信息是粗粒度和高层次的，而分割结果是细粒度和帧级的。为了解决这个问题，我们设计了一个多尺度模型，结合了多个特征编码器和一个音高解码器。

对于精确分割，高分辨率结果对于防止舍入误差至关重要。因此，我们采用 U-Net 架构，因为它能够下采样表示同时确保详细的重建。为了捕获与音符事件相关的高层次特征，我们使用 Conformer 网络，这是最流行的自动语音识别模型之一。U-Net 架构包裹着 Conformer，将其焦点引导至下采样的特征上，并减轻处理长序列的计算负担。通过集成跳跃连接，我们的模型通过融合多个尺度的特征实现了精细的帧级精度。

U-Net 主干的编码器和解码器分别由个下采样层和上采样层组成。下采样率设置为 2，通道维度与输入保持相同，以减轻过拟合。主干的中间部分被一个带有相对位置编码的两层 Conformer 块所取代。

解码器和目标

我们采用一个音符边界解码器，将来自 U-Net 主干的输出转换为对数几率。采用二元交叉熵（BCE）损失来训练音符分割。值得一提的是，在音符分割任务中，正负样本之间存在显著的不平衡，比例约为 1:5001。此外，加入单词边界条件会导致不同的分类难度，有些边界本质上比其他边界更容易分类。为了解决这个不平衡问题，我们采用焦点损失以更多地关注困难样本。对于音高值预测，我们利用基于注意力的加权平均操作来聚合细粒度特征，而不是简单地应用加权中值或平均值。

推理流程

在推理阶段，首先我们计算边界概率，并使用一个阈值来确定边界状态。预测结果将进行后处理，以清理间距过小的边界。最后，我们分割中间特征并解码音高。值得一提的是，可以控制生成音符的粒度。换句话说，较低的可能会导致更细粒度和细分的音高，而较高的会忽略小的波动。这是因为较低的允许更多的边界。

歌声合成系统

一旦我们完成推理并自动标注一个数据集，新的数据集就会被用来训练一个歌声合成（SVS）系统，以进一步研究其实际性能。我们选择 RMSSinger 作为歌唱声学模型，并选择一个预训练的 HiFi-GAN模型作为声码器。RMSSinger 最初是为单词级别的真实乐谱输入而提出的，记为。为了适应我们的设置，我们去掉了单词级别的注意力模块，并直接使用细粒度的 MIDI 输入。