01 语音情感识别总纲
目录 1. 重要性 2. 情感描述模型 3. 情感语音数据库 4. 语音情感特征 4.1 韵律特征 4.1.1 语速 4.1.2 短时平均能量 4.1.3 短时平均过零率 4.1.4 基音频率 4.2 基于谱的特征 4.3 音质特征 4.4 个性化与非个性化特征 4.5 基于人耳听觉特性的特征 4.6 i—vector特征 4.7 融合特征 4.8 深度学习特征 5. 语音情感识别流程 6. 研究前景及意义 7. 挑战 8. 参考文献1. 重要性
语音作为语言的第一属性,在语言中起决定性的支撑作用,不仅包含说话人所要表达的文本内容,也包含说话人所要表达的情感信息。情感与人态度中的内向感受、意向具有协调一致性,是态度在生理上一种较复杂而又稳定的评价和体验。
情感是一种综合了人类行为、思想和感觉的现象,语音情感是指从语音信号中获取相应情感信息。心理学把情感定义为人对客观现实的一种特殊反映,是人对于客观事物是否符合人的需要而产生的态度体验,其本质就是人脑对于客观事物价值的主观反映。
情感信息主要表现在内、外两个层面:
- 内在情感信息指心率、脉搏、血压等无法通过外表观察到的信息;
- 外在情感信息指面部表情、声音、语气、眉头、姿势等通过外表能观察到的信息。
人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能够反映说话人情感状态的信息(如特殊的语气词、语调的变化等)的能力。但人类的语音情感变化是一个抽象的动态过程,难以使用静态信息对其情感交互进行描述,而人工智能的兴起为语音情感识别的发展带来了新的契机。
语音情感识别是计算机对人类上述情感感知和理解过程的模拟,利用计算机分析情感,提取出情感特征值,并利用这些参数进行相应的建模和识别,建立特征值与情感的映射关系,最终对情感分类。
即:从采集到的语音信号中提取表达情感的声学特征,并找出这些特征与人类情感的映射关系。
语音情感识别是人机情感交互的关键,对语音情感的有效识别能够提升语音可懂度,使各种智能设备最大限度理解用户意图,提高机器人性化水平,从而更好地为人类服务。
2. 情感描述模型
情感描述方式大致可分为离散和连续两种形式。
- 离散形式:将情感描述为离散的、形容词标签的形式,如高兴、愤怒等。
在人们的日常交流过程中被广泛使用,同时还被普遍运用于早期的情感相关研究中.丰富的语言标签描述了大量的情感状态,一般认为,那些能够跨越不同人类文化,甚至能够为人类和具有社会性的哺乳动物所共有的情感类别为基本情感.下表列举了不同学者对基本情感的定义和划分,其中,美国心理学家Ekman提出的6大基本情感(又称为big six)在当今情感相关研究领域的使用较为广泛。
- 连续形式:即维度形式,将情感状态描述为多维情感空间中的点。
这里的情感空间实际上是一个笛卡尔空间,空间的每一维对应着情感的一个心理学属性(例如,表示情感激烈程度的激活度属性以及表明情感正负面程度的效价属性).理论上,该空间的情感描述能力能够涵盖所有的情感状态.换句话说,任意的、现实中存在的情感状态都可以在情感空间中找到相应的映射点,并且各维坐标值的数值大小反映了情感状态在相应维度上所表现出来的强弱程度。
维度情感模型可以在二维或多维空间中构造,用以描述连续情感。可利用效价−唤醒二维模型(valence-arousal, VA) 描述情感的极性和度量情感程度,能够表示大部分情感;愉悦−唤醒−支配三维模型(pleasure-arousal-dominance, PAD) 在VA 模型上添加支配维,用以描述周围环境对自身的影响,如高支配度是一种主宰感,低支配度是一种软弱感,理论上可以表示无穷多种情感,但难以表述惊讶。在PAD 模型基础上添加期望维,度量个体对情感出现的准备性,可以描述惊讶。维度情感模型表征情感能力强(情感类别多、精确性高),可连续表征情感变化,但维度情感理解困难且操作复杂,目前研究者较少。
二维度情感描述模型:效价−唤醒二维模型(valence-arousal, VA) (即: 激活度效价空间理论)如下图所示:
垂直轴是激活度维,是对情感激烈程度的描述;
水平轴是效价维,是对情感正负面程度的评价.
情感状态的日常语音标签和该坐标空间可以进行相互转化,通过对情感状态语言描述的理解和估计,就可以找到它在情感空间中的映射位置。
三维度情感描述模型:PAD情感空间模型
两种表达模型各有千秋:
模型复杂度:离散描述模型较为简洁、易懂,有利于相关研究工作的着手和开展,而维度模型却要面对定性情感状态到定量空间坐标之间如何相互转换的问题;
情感描述能力:离散情感模型的情感描述能力则显示出较大的局限性,多数情况下,它只能刻画单一的、有限种类的情感类型,然而人们在日常生活中所体验的情感却是微妙而多变的,甚至是复杂而模糊的(例如,人们在受到惊吓时所表现出来的情感不仅有吃惊,往往还包含害怕甚至恐惧的成分;又比如,人们对愉悦的表达可以呈现出若干的程度,可以从喜上眉梢,到眉飞色舞,再到手舞足蹈)。
可以说,离散描述方式和自发情感的描述之间还存在着较大的障碍,然而维度情感模型从多侧面、连续的角度进行情感的描述,很好地化解了自发情感的描述问题,并且以精确的数值很大程度上回避了离散情感标签的模糊性问题.
3. 情感语音数据库
以语言标签进行标注的情感语料库为离散情感语料库,而以情感空间坐标值进行标注的语料库为维度情感语料库。目前,就国内外整个研究领域而言,以离散情感语料库居多,而维度情感语料库还有待丰富。
常见分类汇总:
4. 语音情感特征
语音情感特征可分为语言特征和声学特征。
- 语言特征即语音所要表达的言语信息;
- 声学特征则包含了说话人的语气、语调,蕴含感情色彩;
提取关联度高的情感声学特征有助于确定说话人情感状态,通常以帧为单位提取声学特征,但这些特征一般以全局统计的方式作为模型的输入参与情感识别。全局统计指听觉上独立的语句或单词,常用的统计指标有极值、方差、中值、均值、偏度、最小值、最大值、峰度等。目前,常用的声学特征包括韵律特征、谱特征和音质特征等。
4.1 韵律特征
韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排.它的存在与否并不影响我们对字、词、句的听辨,却决定着一句话是否听起来自然顺耳、抑扬顿挫.韵律学特征又被称为“超音段特征”或“超语言学特征”,它的情感区分能力已得到语音情感识别领域研究者们的广泛认可,使用非常普遍。
韵律特征并不影响对语音语义信息的识别,但决定着语音流畅度、自然度和清晰度。
最常用的韵律特征有:
- 时长相关特征:如语速、短时平均过零率等
- 基频相关特征:如基因频率及其均值、变化范围、变化率、均方差等
- 能量相关特征:短时平均能量、短时能量变化率、短时平均振幅等
在声学信号中,韵律特征对不同语言的语音情感识别具有较好的泛化性能,其中使用最广泛的韵律特征是基频、语音能量和持续时间。
- 基频即基音的频率,决定整段语音的音高,它的生理学定义是一段复杂语音中最低且通常情况下最强的频率。基频是由声带的振动产生的,其在语音变化过程中产生的基频等值线的统计特征可作为情感特征。除此之外,基频中还包含了大量表征语音情感的特征,在语音情感识别中起着至关重要的作用。其中自相关函数法、平均幅度差法和小波法为常用的基频特征提取方法。
- 语音能量又称音强,反映了语音信号的振幅随时间的变化强弱。振幅能量是一种重要的韵律特征,包括短时能量和平均幅度。研究表明,不同情感的声音信号的振幅能量不尽相同,惊讶、高兴等情绪会导致能量增加,而悲伤、厌恶等情绪会导致能量减少。
- 语音持续时间是表征语音信号时间的物理量,使用最广泛的持续时间特征有语音速率、清浊音持续时间等。
4.1.1 语速
情绪高涨(高兴、愤怒)时语速快,情绪消沉(伤心、难过)时语速较慢。
语速定义:文本中元音持续时间与元音数目的比值
其中,m表示语音中所包含的元音数目,i代表第i个元音,ti代表第i个元音的持续时间。
4.1.2 短时平均能量
短时平均能量与声音震动的幅值相关,描述的是语音信号的能量值,且发生在相对短的时间内。在一般情况下,如果讲话人讲话的声音大,则消耗的能量就比较大;如果讲话人的声音较小声,代表消耗的能量比较小。对应到不同情感中时,一般在生气惊讶等发出的音量很大,即语音的能量变大,在伤心失落或平静时,语音的音量变低,即语音的能量变小。所以,语音的短时能量特征对语音情感识别分类有很大的帮助。
其中,Em代表第m帧语音信号的短时能量值, w(m)表示窗函数,窗长为N ,x(n)代表语音信号。
以下以“集团进行改革”且情感类别为生气时的语音样本作为例子,进行多种特征的提取。
4.1.3 短时平均过零率
短时平均过零率代表的是每一个分帧内语音信号幅度值为零的次数。语音信号的短时平均过零率特征一定程度地能够描述信号的频率谱特性,因此能够大致估算谱的特性。短时平均过零率的计算如下:
4.1.4 基音频率
人在讲话时声带会对基音频率产生很大影响。一般来说基音频率低,代表声带牵拉的程度小;基音频率高,那就代表声带被牵拉的程度大,此时声带将变得比较长、薄且比较紧,声门的形状为细长。基音频率包含了许多和语音情感激活度有关联的有价值的信息 ,因此能够体现情感的变动。
4.2 基于谱的特征
基于谱的相关特征体现了声道形状变化与发声运动间的相关性。
谱特征参数反映信号在频域的特性,不同情感在各个频谱间的能量是有差异的(如表达欢快的语音在高频区间能量较高,表达哀愁的语音在同样的频段能量较低)。
基于谱的相关特征主要分为:
- 线性频谱特征:线性预测系数(Linear Prediction Coffcients,LPC)、对数频率功率系数(Log Frequency Power Coefficients,LFPC)及单边自相关线性预测系数(One—sided Auto correlation Linear Predictor Coefficient,OSALPC)等
- 倒谱特征:常用的倒谱特征有:线性预测倒谱系数(Linear Prediction Cepstrum Cofficiems,LPCC)、单边自相关线性预测倒谱系数(One—sided Autocorrelation Linear Predictor Cepstral·—based Coefficient,OSALPCC)以及梅尔频率倒谱系数(Mel—FrequencyCepstrum Cofficients,MFCC)等
4.3 音质特征
音质特征是语音的一种主观评价指标,描述了声门激励信号的性质,包括发声者语态、喘息、颤音及哽咽,用来衡量语音纯净度、清晰度和辨识度。对声音质量产生影响的声学表现有喘息、颤音、哽咽等,并且常常出现在说话者情绪激动、难以抑制的情形之下,语音情感的听辨实验中,声音质量的变化被听辨者们一致认定为与语音情感的表达有着密切的关系。通过对声音质量的评价,可获得说话人的生理、心理信息并对其情感状态进行区分。
用于衡量声音质量的声学特征一般有:共振峰频率、带宽、频率扰动、振幅扰动、谐波噪声比、闪光及声门参数等
4.4 个性化与非个性化特征
根据语音情感声学特征是否受说话人自身说话特征影响,将其分为个性化和非个性化特征。个性化特征反映数值大小,包含大量反映说话人语音特点的情感信息;非个性化特征反映说话过程中情感的变化情况,包含一定情感信息且不易受说话人影响,具有很好的相通性和稳定性。
有文章提取基频、短时能量、共振峰的变化率及它们的变化范围、方差等统计值作为非个性化特征,同时提取了传统基频、共振峰等个性化特征,并用这两类特征进行实验,结果表明非个性化特征对SER有着很大的作用,且这类特征受不同说话者的影响更小。
4.5 基于人耳听觉特性的特征
过零峰值幅度特征(Zero Crossings with Peak Amplitudes,ZCPA)使用过零率和峰值的非线性压缩表示语音信号的频率及幅度信息,是一种基于人耳听觉特性的特征。有文章将其引入SER领域分析了分帧时长对ZCPA特征的影响,提出了一种将Teager能量算子与ZCPA特征相结合的过零最大Teager能量算子特征。该特征保留了人耳听觉特性,同时也将最能表征情感状态的特征融入系统,实验结果表明,该特征取得了较好的识别性能。
4.6 i—vector特征
i—vector是一种将GMM超向量空间映射到低维总变异空间的技术。有文章首先提取1584维的声学特征训练语音情感状态识别的通用模型,然后在该模型基础上为每类情感状态生成用于i—vector的GMM超向量并将其串联,最后使用SVM来识别4类语音情感,结果表明,该特征取得了较好的识别性能。
4.7 融合特征
单一特征仅从某个侧面对语音情感信息进行表达,不能很好地表示语音情感,为此,研究者通常将多个单特征融合以进一步提升SER性能。
多模态融合的目的是通过对多种特征进行聚合,提高语音情感的识别率和鲁棒性。
4.8 深度学习特征
深度学习方法在处理复杂的海量数据建模上有很大优势,可以直接从原始数据中自动学习最佳特征表示,通过组合低层特征形成更加抽象的高层特征以表示属性的类别或特征,从而有效捕获隐藏于数据内部的特征,近年来部分研究者将其应用于语音情感特征提取,并取得了一定成果。
5. 语音情感识别流程
目前,语音情感识别算法根据模式识别分为模板匹配法、概率统计法和辨别分类器;还可划分为以隐马尔可夫模型(Hidden Markov Model,HMM)、高斯混合模型(Gaussian Mixed Model,GMM)和K 近邻法(K-Nearst Neighbors,KNN)为代表的基于统计的分类器和以人工神经网络、决策树和支持向量机(Support Vector Machine,SVM)为代表的基于判别的分类器。
- HMM适合于时序序列的识别且系统的扩展性好,只需对新样本进行训练,但HMM对语音情感数据的拟合功能一般,受音位信息的影响较大且对邻近情感的区分性差。
- GMM是一种将一个事物分解为若干的基于高斯概率密度函数来描述语音特征矢量的模型,该模型已经在语音识别等领域取得了巨大的成功。GMM的优点是对语音情感数据的拟合能力较高且其鲁棒性高于HMM,缺点是模型的价数过高、对训练数据的依赖性强。
- KNN是数据挖掘分类技术中最简单的机器学习算法之一,其核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别且具有这个类别上样本的特性。KNN 算法易于实现,较符合语音情感数据的分布特性,对语音情感数据的拟合能力较高,但其计算量较大。
- SVM是建立在结构风险最小化准则的基础上对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM适合于小样本训练集,对语音情感数据的拟合能力较高,能较好地解决局部值问题以实现全局最优,但SVM在多分类问题中存在不足。
- CNN 是一类包含卷积计算且具有稀疏连接、参数共享和相等表示特性的前馈神经网络,能够按其阶层结构对输入信息进行平移不变分类,是模式识别中应用最多、最成功的一种前馈神经网络。CNN有很强的泛化能力、特征分类效果好,但其容易出现梯度消散问题。
- RNN 的研究始于20 世纪80 到90 年代,并在21 世纪发展为深度学习算法之一,具有良好的记忆性和参数共享性。除此之外,RNN 对非线性特征学习时具有一定的优势,在处理时序数据时比CNN 有更好的表达能力,但普通的RNN 随着时间的延长可能会出现梯度消失问题。
6. 研究前景及意义
- 教育领域:可以通过语音情感识别系统实时掌握学生的情感状态,利用其对情感特有的分析辨别能力,实时分析系统接收到的学生回复,及时地了解和把握学生的真实情感状态,从而迅速做出反馈并进行调整,大大增强了课堂效果和提高了学生的学习效率。语音情感识别系统可以通过学生在课堂回答问题时的语音情感推断出其处于积极、自信、消极或者紧张等情感状态并将其进行情感分类,然后教师可针对其情感状态进行一对一的情感互动,鼓励并促进学生进行高效的学习。
- 医学领域:面对诸多医患之间无法沟通交流的现象,语音情感识别系统发挥了极其重要的作用。当遇到情绪波动、抗拒交谈或是精神受创、难以沟通的患者,语音情感识别系统将会迅速做出反应并分析患者此刻的心理状态,与患者进行情感的互动,平复患者的情绪;对于独自居家的老人,语音情感系统同样会自动识别老人的情绪波动,与其进行有效地沟通,通过精神的慰藉和力所能及的帮助,尽量为老人们营造健康的生活环境。
- 服务领域:普通的人工客服只会机械性、重复性地回答客户的问题和需求,不能做到灵活变通,从而致使部分客户产生抵触的情绪,导致客源的损失。而语音情感识别将会对此采取针对性的分析,当监测出客户情绪有负面波动时,则及时切换人工客服进行协调,有效地减少了客源损失量。
- 除上述领域外,语音情感识别在智能娱乐、电子商务、汽车驾驶、辅助测谎和人机交互[等应用程序非常重要。
7. 挑战
从语音情感识别的预处理阶段到特征提取阶段,再到情感识别阶段,每个阶段都面临着一些全新的挑战。
- 数据库:不足且缺少广泛认可的数据库。
- 预处理阶段:语音情感识别系统的数据采集系统还不够完善,带有噪声的语音信号会极大地改变声学特征的分布规律且无法长期精准地对情绪状态进行追踪,不同性别、不同年龄的说话者以及不同的采集方式带来的声学变异均会对特征选择的结果造成一定的影响。人类的情感是通过多种形式同时进行的,单模态的数据采集会影响最终的情感识别率,而多模态的数据采集又会造成维度的“爆炸式”增长,对下一步的特征提取带来麻烦。
- 特征提取阶段:语音信号中含有丰富的情感信息,目前还不清楚什么种类的特征对情感的差异性最具有区分性且特征提取手段极其局限;其次,无法找到与识别目标有明确相关的、深层次的情感特征;此外,由于不同国家的文化和语言特色的差异等,情感的表达特征也不尽相同,对于样本较少的数据集,其提取到的特征数量有限,最终导致无法达到满意的识别效果。
- 情感识别阶段:同样无法明确地找到有效的情感识别方法。除了缺乏统一规范的汉语情感语料库,如何有效地对语言障碍、方言障碍以及远程通话中的语音情感进行识别也是情感识别领域面临的一大挑战,当被观察者意识到自己正在接受语音情感识别的实验时,往往会因为各种因素或隐私问题,刻意调整或试图抑制自己的真实情绪,从而在一定程度上影响识别的真实有效性。
- 情感识别建模阶段:由于语言符号和语言思维之间具有一种天然的不对称性,建立一个高效合理的语言情感识别模型是研究的重点。这个模型以语料库为基础进行大数据式的训练,建立一种联通声学特征和情感状态的映射通路,进而实现对语料情感状态的判断和识别。但是由于情感的复杂性,人类对大脑的情感处理机制认识有限,尚未有一种高效可靠的情感识别模型被建立。因而,脑学科和计算机的交融研究也就成为一种必然趋势,没有对人脑的高度认识就不可能有高效的情感识别建模。
8. 参考文献
- 韩文静,李海峰,阮华斌,等. 语音情感识别研究进展综述[J]. 软件学报,2014,25(1):37-50. DOI:10.13328/j.cnki.jos.004497.
- 李海峰,陈婧,马琳,等. 维度语音情感识别研究综述[J]. 软件学报,2020,31(8):2465-2491. DOI:10.13328/j.cnki.jos.006078.
- 张会云,黄鹤鸣,李伟,等. 语音情感识别研究综述[J]. 计算机仿真,2021,38(8):7-17. DOI:10.3969/j.issn.1006-9348.2021.08.002.
- 余伶俐,蔡自兴,陈明义. 语音信号的情感特征分析与识别研究综述[J]. 电路与系统学报,2007,12(4):76-84. DOI:10.3969/j.issn.1007-0249.2007.04.016.
- 赵腊生,张强,魏小鹏. 语音情感识别研究进展[J]. 计算机应用研究,2009,26(2):428-432. DOI:10.3969/j.issn.1001-3695.2009.02.008.
- 高庆吉,赵志华,徐达,等. 语音情感识别研究综述[J]. 智能系统学报,2020,15(1):1-13. DOI:10.11992/tis.201904065.
- 乔文婷. 基于神经网络的语音情感识别算法研究[D]. 陕西:西安电子科技大学,2018.