首页 > 其他分享 >声纹识别技术初步了解(阅读笔记)

声纹识别技术初步了解(阅读笔记)

时间:2022-12-26 19:55:27浏览次数:42  
标签:音频 声纹 笔记 初步 speaker 声纹识别 文本 辨认

目录

1. 声纹识别分类

1.1 按任务分类

声纹识别技术按照其所要识别的任务及应用场景主要分成两类:声纹验证(speaker verification)及声纹辨认(speaker identification 或speaker matching)。

1.1.1 声纹验证(speaker verification)

声纹验证流程:

声纹注册(speaker registration)或声纹录入(voice enrollment)

有目标说话人(target speaker)事先提供音频样本,通过特定的算法,从音频样本中提取能够表征该目标说话人声纹特征的说话人模型(模板);

模板匹配

对于一段新的音频,能够将其与目标说话人模型(模板)进行匹配,得到一个匹配分数,可以将该匹配分数与某个实现设定好的阈值进行比较,并根据最后的比较结果进行二值判别。

1.1.2 声纹辨认(speaker identification 或 speaker matching)

限定在特定的候选说话人(candidate speakers)集合之中,记集合中候选说话人个数为M。将没有冒名顶替者的声纹辨认称为“闭集”声纹辨认,而将可能会有冒名顶替着的声纹辨认称为“开集”声纹辨认。如果是开集辨认,需要额外将最高的分数与某个事先设定好的阈值进行比较,若是最高分数低于该阈值,则辨别为冒名顶替者。

声纹辨认对应的应用场景主要是个性化。对于声纹辨认,通常认为M,任务越难,识别准确率也会越低;声纹验证通常不存在这个问题。

1.2 按文本内容分类

按照识别的内容可以分为三类:文本相关(textdependent)的声纹识别、文本无关(text-independent)的声纹识别,以及文本提示型(text-prompted)的声纹识别。

1.2.1 文本相关

文本相关的声纹识别,通常称为“固定文本”的声纹识别。

问题的简化之处在于两点:

  • 录入的音频及待识别的音频包含着完全相同的音节。声纹识别模型的建立,只需要对有限的几个音节进行建模即可。
  • 可以假设待识别的音频长度被限制在某个有限的变化范围内,甚至是固定的时间长度。

在实际应用中,文本相关的声纹识别系统主要用于唤醒词或验证口令的声纹识别。

1.2.2 文本无关

无论说话人说的什么内容,都要能够识别出说话人的身份,根据是否限定特定语言,可分为语言相关和语言无关。

难点在于:

  • 声纹录入时用户提供的音频与验证时的音频,其所对应的文本不同;
  • 训练时难以同时覆盖所有说话人和所有内容;
  • 无论是声纹录入还是实际的验证,由于文本内容的不确定性,我们无法预知用户将要提供的音频的具体长度,需要能够处理不同长度的音频,并比较其声纹相似度;

文本无关的声纹识别技术的应用更加广泛。

1.3 系统流程

说话人模型”或者“声纹模型”,通常指的是声纹建模过程的输出,是通过声纹录入阶段得到的。将说话人模型称为声纹嵌入码(embedding),而将声纹建模过程本身所依赖的模型称为声纹编码器(encoder)。

参考链接:
[1] 声纹技术:从核心算法到工程实践

标签:音频,声纹,笔记,初步,speaker,声纹识别,文本,辨认
From: https://www.cnblogs.com/AccompanyingLight/p/17004770.html

相关文章

  • UE4学习笔记27——【UI】3DUI的交互和显示
    P69.3DUI的交互和显示P69 (新建一个包含第一人称射击模板的项目)新建一个文件夹(用于存放自己新建的文件)(我重命名为了“WJJ1221P69”),在此文件夹中,右键“用户界面——......
  • 微积分 II 笔记
    5.1定积分的概念定义定积分是积分的一种,是函数\(f(x)\)在区间\([a,b]\)上积分和的极限若\(f(x)\)在\([a,b]\)有界,在\([a,b]\)上任意插入\(n\)个分点将......
  • 一些排序算法的学习笔记
    大纲:冒泡排序插入排序选择排序快速排序归并排序堆排序一、冒泡排序简述:把一个数组看成一个装水的桶,数组中的每个元素的值代表其质量。一开始这些元素被我用箩筐......
  • Android笔记--视图显示
    视图显示视图的宽高设置方式一:在.xml文件中设置视图的宽和高通过调用android:layout_width设置视图的宽通过调用android:layout_height设置视图的高宽和高的取值主要......
  • CTC算法学习笔记
    CTC算法在OCR或语音识别任务中,经常出现不知道从哪里开始对齐比如对​​apple​​,OCR出aaappppllle这种东西如果只是简单的去重的话就变成了​​aple​​ConnectionistT......
  • manjaro安装有道云笔记
    我在使用debtap过程中,可以安装!但是竟然更新不了!真是绝了!所有我就在网上找到了有道云笔记的软件的英文名字——ynote-desktop使用yay ynote-desktop查找软件包,随后:会出现......
  • angular学习笔记
    *ngSwitch1.用法<div[ngSwitch]="num"><div*ngSwitchCase="0">0</div><div*ngSwitchCase="1">1</div><div*ngSwitchDefault>默认的</div></di......
  • 地震储层预测笔记—AVO近似公式总结
    地震储层预测笔记—AVO近似公式总结(一).Zeoppritz方程AVO地球物理基础是平面弹性波在层状介质下推倒得出的Zeopprizt方程,在两层介质下(如图1所示)其Zeopprizt方程可以写......
  • 『DL笔记』DNN(Deep Neural Networks)的前向传播推导(1)
    1、绪论神经网络技术起源于上世纪五、六十年代,当时叫感知机(perceptron),拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。但......
  • 『DL笔记』深入理解softmax交叉熵损失函数反向传播求导过程分析
    目录​​一、softmax函数​​​​二、损失函数lossfunction​​​​三、最后的准备工作                         ......