摘要
In this work, we firstly publish CN-Celeb, a large-scale multi-genre corpus that includes in-the-wild speech utterances of 3,000 speakers in 11 different genres. Secondly, using this dataset, we conduct a comprehensive study on the multi-genre phenomenon, in particular the impact of the multi-genre challenge on speaker recognition and the performance gain when the new dataset is used to conduct multi-genre training.
- 建立了一个更大的数据集;
- 包含 11 种类型下的 3000 个说话人;
数据集描述
- CN-Celeb2 包含来自 11 个类型的 2000 个说话人数据;
- 时长分布
主要数据集对比
CN-Celeb12 语音采集都是来自多个形式,包括11种;
实验一
数据集
-
VoxCeleb:包括 VoxCeleb1 和 VoxCeleb2,一共 7000 多个说话人;并对数据进行加噪;
-
SITW:299 个说话人,作为测试集,数据属性和 VoxCeleb 相似;
-
CN-Celeb.E:CN-Celeb1 的子集,200 个说话人;一个说话人的语音来自多个类型;
-
SITW(S):由于 SITW 语音长度过长,进行裁剪得到以匹配 CN-Celeb.E 平均长度;
评估结果
- 使用相同的训练数据集;最终得到的结果在 CN-Celeb.E 上表现很差;说明模型在处理多类型的语音效果很差;
- 在 SITW(S) 表现比起原数据集 SITW 很差;因为语音变短了;
其他模型的结果
- 可见 TDNN 和 ResNet-34 对多类型语音没有带来什么帮助;
- 对比 x-vector 也基本没有提升;
不同类型的评估结果
DCT 曲线:可以更直观看出在不同类型下的表现;
- 对 11 个不同类型进行了评估;
- 演讲,直播,vlog,访谈 EER 不超过 8%;而唱歌,朗诵,话剧,电影超过 12%;
- 造成差异的两个原因
- 训练集 VoxCeleb 是访谈类型,自然对测试集中相似类型判断更准确;
- 某些类型,例如朗诵,唱歌说话人风格多变,更难识别;
- 另外,即使是访谈类,结果也不如 SITW;这是由于媒体频道(b 站和 YouTube)和语言(中文和英文)的差异;
跨类型评估
即一种类型注册语言,其他11中类型进行评估;例如第一行表示使用说话人在广告类型中的语音进行注册,使用其他的类型进行测试;最后一列表示总体结果
- 使用演讲类型注册的效果最好(倒数第二行 6.19);
- 镜像基本近似,即注册和测试对调后EER很接近,例如(speech-singing(22.15) singing-speech(18.45));
- 以上结果说明跨类型的识别是一个很有挑战性的问题;
C l l r C_{llr} Cllr 分布和 EER 类似,此处不再详述;
PLDA 相关的统计
- 类间方差和类内方差;
- 可以看出,产生最显着统计变化和均值偏移的类型受到的性能下降最大(和图7联合起来看);
定性分析
- i-vector 很难分辨多类型说话人;
- x-vector 在多类型上效果更好
实验二
多类型训练
数据集
- CN-Celeb.T:CN-Celeb 中的所有数据;包含 Celeb1 和 Celeb2,一共 2800 个作为训练集;
- CN-Celeb.T/SI:将 CN-Celeb.T 进行处理,来自不同类型的同一说话人也标记为不同说话人;
评估结果
前端模型(只看余弦相似度)
- 多类型训练似乎没有带来提升;(a 和 d 的对比),但是 CN-Celeb.T 数据集小得多,这样依然能够达到近似水平,基本可以确定其带来了提升;
- 对于 x-vector 模型,部分 MG 训练略逊于 MG 训练 (20.83% vs. 20.35%)。这是意料之中的,因为在说话人隔离后,部分多流派数据的说话人标签会丢失跨流派信息
后端模型(对比 PLDA 分数)
- 对比 a 和 b,后端训练带来了不小的提升;
- 使用 /SI 训练(对比 a 和 c) 可以带来不小的提升;这是有用的,因为收集 /SI 数据比收集真正的多类型数据容易且便宜;例如 CN-Celeb.T 必须采集一个人在多个场景下的语音,而 /SI 只需要在不同场景即可,不要求同一个人;
总结
- 本文收集了一个数据集 CN-Celeb2,结合之前的 CN-Celeb1 一起组成了 CN-Celeb 数据集;
- 基于新的数据集,对 i-vector 和 x-vector 进行了评估;证明了多类型说话人识别的主要挑战在于类型的复杂性和类型不匹配;
- 使用对类型进行训练可以带来一些改善,尤其在 PLDA 分数上;
- 在说话人识别技术在实践践行中普遍适用之前,多类型说话人识别将是需要解决的主要障碍之一。