目录
对于声纹识别技术,需要有统一的指标来衡量这些系统之间的优劣。声纹识别领域中通常使用等错率等指标来衡量一个系统的识别性能。
常见的声纹识别系统在识别阶段主要包括特征提取、声纹建模、相似匹配和判别这四个模块。
相似匹配模块通常有两个输入:
- 来自验证音频的声纹模型;
- 来自目标说话人的声纹模型;
输出:一个实数,称为匹配分数(score)。
假设需要匹配的声纹模型可以表示为两个嵌入码向量\(e_1\)与\(e_2\),那相似匹配可以采取以下几种形式:
1. 余弦相似度(cosine similarity)
\[\cos \left(\boldsymbol{e}_{1}, \boldsymbol{e}_{2}\right)=\frac{\boldsymbol{e}_{1} \cdot \boldsymbol{e}_{2}}{\left\|\boldsymbol{e}_{1}\right\|_{2} \cdot\left\|\boldsymbol{e}_{2}\right\|_{2}} \]该相似度表示\(e_1\)与\(e_2\)这两个向量在多维空间中的夹角的余弦值。如果\(e_1\)和\(e_2\)是单位向量,则余弦相似度简化为这两个单位向量的点积。余弦相似度的取值范围在\([-1,1]\),便于选取全局的判别阈值,因此余弦相似度是声纹识别中最常用的相似匹配方法。
2. 欧式距离(Euclidean distance)
\[d\left(\boldsymbol{e}_{1}, \boldsymbol{e}_{2}\right)=\left\|\boldsymbol{e}_{1}-\boldsymbol{e}_{2}\right\|_{2} \]最终的匹配分数可以取欧式距离的倒数或其它单调递减的变换。
3. 神经网络
通过可训练的神经网络或者支持向量机等机器学习模型实现更复杂的相似匹配函数\(f\left(e_{1}, e_{2} \mid \theta\right)\),这里\(\theta\)表示机器学习模型\(f(\cdot)\)的参数集合。
标签:right,读书笔记,boldsymbol,余弦,相似,声纹识别,评价,left From: https://www.cnblogs.com/AccompanyingLight/p/17007050.html