首页 > 其他分享 >【语音处理】声音的产生机制和数学模型

【语音处理】声音的产生机制和数学模型

时间:2022-10-12 17:02:18浏览次数:64  
标签:声道 频率 数学模型 模型 声带 语音 机制 共振


上一节介绍了一些基本的概念和应用,从本节开始我们将对语音信号处理的各个方面进行系统性介绍。

本节主要介绍语音产生的过程,包括具体的生理机制,以及由此抽象出的数学模型,包括语音线性产生模型和非线性产生模型。

作者&编辑 | 小米粥

编辑 | 言有三

1. 语音发音系统

人的发音器官主要由四个部分组成:①肺部和气管,产生语音信号的能量源;②咽喉,包括声带和声门,是语音的振动源;③咽腔、口腔和鼻腔等,这些由声门到嘴唇的呼吸通道构成声道,是语音的谐振腔;④唇、齿、舌、面颊等其他发音器官,主要用于改变谐振腔形状。

【语音处理】声音的产生机制和数学模型_人工智能

第一部分中,肺通过肌肉收缩将肺部储存的空气挤出,形成气流,并通过气管将气流送至咽喉,这是语音产生的原动力。

第二部分中,喉部由左右两个肌肉组成,称为声带,而声带之间的空隙称为声门。正常呼吸时,声门张开,气流自由呼出;当讲话时,声带闭合,声门形成窄缝。讲话时,气管传过的气流冲击声带使声带张开,而声带由于其韧性又将快速自动闭合。声带不断快速的张开闭合,即导致了声带的振动,形成了周期性的脉冲气流。

基音频率为声带振动的频率,其数值由声带的物理特性决定,例如声带的大小、厚薄、松紧程度等。基音频率也决定了人的音高,频率快则音调高,频率慢则音调低。一般,男性的基音频率为60-200Hz,而女性和小孩的基因频率为200-450Hz。

【语音处理】声音的产生机制和数学模型_人工智能_02

第三部分中,声道是声门声带之后发音的最重要因素。人们在发出不同音的时候,声道具有非常复杂多变的形状,因而声带振动产生的脉冲气流通过声道响应可以变为不同的语音。

气流通过声道时被视为通过谐振腔,而谐振腔的作用是筛选、放大输入信号的某些频率(谐振频率)。对于某个特定的谐振腔,其拥有多个谐振频率(共振频率),即存在多个共振峰。此外,共振峰也与谐振腔的形状有关。因此,当一个人发不同的音时,即使基音频率是固定的,但是由于声道形状的不同,从而导致谐振腔的共振峰也不同,最终产生不同的语音信号。

由于不同人的声道差异较大,因而不同人的共振峰也有较大的差异。以下为声道共振峰的范围区间(单位:Hz)

【语音处理】声音的产生机制和数学模型_深度学习_03

气流首先经过咽腔,咽腔具有多变的形状。经过咽腔之后,若软腭下垂,则气流主要经过鼻腔发音,即为鼻音,此外鼻腔的形状是固定的,因而共振峰频率固定;若软腭上抬,则完全由口腔发音,即为口音,但是口腔形状不固定,因而共振峰频率不确定。

第四部分中,为了发出各种声音,需要调音改变声道的形状。声道中可自由活动的器官称为调音器官,唇、齿、舌、面颊等调音器官同样改变声道的形状,使声道具有不同的传递特性。

在不同的发音过程中,根据声带是否振动将分为清音和浊音。当肺部而来的气流使声带振动时(更严格说法为,产生明显振动),此机制产生的为清音;若声门张开,声带不振动,气流在声道高速通过,则形成清音。另外,若声道关闭之后再突然打开,将产生爆破音。

2. 语音线性产生模型

由于语音信号在较短的时间内,其特性不随时间变化,因而认为语音信号为短时平稳信号,可采用线性时不变模型进行描述。

语音信号线性产生模型由激励模型、声道模型和辐射模型三部分组成,如下图所示。其中激励模型描述清音或浊音的产生过程,即肺部气流和声带的作用;声道模型主要描述声道的调音运动;辐射模型描述气流在嘴唇、鼻孔的幅射效应。

【语音处理】声音的产生机制和数学模型_机器学习_04

2.1 激励模型

激励模型一般将发音粗略分为清音激励和浊音激励。发浊音时,肺部气流对绷紧的声带持续冲击,形成声带准周期的振动,从而产生准周期的脉冲。脉冲周期,即基音频率,取决于个人声带物理情况。因此,浊音的激励源是一个以基音周期为周期的斜三角脉冲串,其中单个斜三角脉冲的表达式为:

【语音处理】声音的产生机制和数学模型_java_05

其中,N1为上升时间,N2为下降时间,其波形如下图所示。此外,将其转换至频域可知其为低通滤波器。

【语音处理】声音的产生机制和数学模型_人工智能_06

单个斜三角波的z变换全极模型为:

【语音处理】声音的产生机制和数学模型_java_07

斜三角波形串可视为加权的单位脉冲串激励上述单个斜三角波模型的结果,即经过该低通滤波器的输出,因而浊音的激励模型可写为:

【语音处理】声音的产生机制和数学模型_java_08

其中,E(z)为单位脉冲的z变换,而Av为幅度因子。

当发出清音时,声带不发生明显振动,气流通过声门直接进入声道,声道形成湍流,此时的激励模型为随机白噪声,可使用均值为0,方差为1的噪声来表示。

2.2 声道模型

对于声道,常见的数学模型有:声管模型和共振峰模型。声管模型将声道视为多个不同截面的声管串联;而对于常用的共振峰模型,其将声道视为一个谐振腔。在发某个音时,声道具有各种不同的形状变化,从而使声道具有不同的谐振频率(共振频率)。

实践中,前三个共振峰即可表示元音的特征,复杂的辅音或鼻音需要使用5个共振频率。一般成人声道约为17cm长,将其视为均匀断面,则可计算出前三个共振频率为500Hz,1500Hz和2500Hz。发元音e时,声道最接近均匀断面,因而该音的前三个共振峰也近似为500Hz,1500Hz和2500Hz。

常见的共振峰模型有:级联、并联以及混合型三种,它们具有不同的适用描述对象。我们首先说明元音、辅音的区别,元音是指发音时从肺部呼出的气流通过起共鸣器作用的口腔、阻力极小并无摩擦声音的语音,而在辅音中,无论声带振动与否,发声时呼出的气流通过口腔或鼻腔时受到一定阻碍。另外,辅音包括清辅音和浊辅音两大类。发音时声带不震动、送气的叫清辅音;发音时声带震动、不送气的叫浊辅音。级联模型适用于描述大部分元音,其将声道视为一组串联的二阶谐振器,每个谐振器对应1个共振峰频率,即依次放大信号中谐振频率的成分;对于并联模型,其结构相对复杂,适用于描述非一般的元音和大部分辅音。混合模型将串联模型和并联模型结合起来,可根据所要描述的语音,自动进行切换。这三种模型的结构如下图所示。

【语音处理】声音的产生机制和数学模型_深度学习_09

2.3 辐射模型

声道的终端是口和唇,口唇端的辐射效应在高频段较为明显,而在低频段影响较小,因而可用高通滤波器来表示辐射模型:

【语音处理】声音的产生机制和数学模型_java_10

其中,对于浊音,r接近1,而对于清音,取值很小。

语音线性产生模型使用激励模型、声道模型和辐射模型构成,需要说明的是,模型将语音进行简单的清音、浊音的划分是存在不足的,例如浊音中的摩擦音需要清音、浊音两种激励,并非将其直接叠加。

总之,模型的结构虽然与真实的物理过程不完全一致,但在输出处是等效的,为语音信号产生提供了基本的、简洁的分析框架。

3.语音非线性产生模型

线性语音产生模型的基本假设是:肺部气流在声道中以平面波的形式传递。但是,研究表明,声道中的语音信号并不总是以平面波的形式传播,气流在通过声道腔体的某些部分时存在湍流,因此在声道模型中,语音信号应该由平面波部分的线性部分和湍流区域部分的非线性部分共同组成。

调频-调幅模型是成功的非线性语音产生模型。在模型中,语音中的单个共振峰的输出,相当于以该共振峰为载波频率进行频率调制和幅值调制的结果,并且语音信号是由多个这样的共振峰调制叠加而成的。对于一个频率为f共振峰,对应的载波频率也为f,设频率调制信号为q(t),幅值调制信号为a(t),则语音信号中的单个共振峰输出r(t)为:

【语音处理】声音的产生机制和数学模型_人工智能_11

将语音信号视为多个共振峰调制信号叠加,则语音信号s(t)为:

【语音处理】声音的产生机制和数学模型_编程语言_12

其中,K为共振峰的数目。

对于上述模型构建的语音信号,我们可使用基于Teaager能量算子的能量分离算法(ESA)将信号中的幅值调制部分与频率调制部分有效地分离开。

[1] 韩纪庆, 张磊, 郑铁然. 语音信号处理.第2版[M]. 清华大学出版社, 2013.

[2] 赵力. 语音信号处理: 机械工业出版社[M]. 机械工业出版社, 2016.

总结

这一节讲解了基本的语音产生方式,包括清音、浊音产生的具体生理机制。接着对语音线性产生模型进行了详细的讲解,包括其中的激励模型、声道模型和辐射模型等内容。


标签:声道,频率,数学模型,模型,声带,语音,机制,共振
From: https://blog.51cto.com/u_14122493/5751168

相关文章

  • RabbitMQ 存储机制
    一、消息存储机制不管是持久化的消息还是非持久化的消息都可以被写入到磁盘。持久化的消息在到达队列时就被写入到磁盘,非持久化的消息一般只保存在内存中,在内存吃紧的......
  • 集WIFI、蓝牙、语音控制的4.3寸串口屏应用于智能音箱
    智能音箱是通过语音指令实现“隔空操作”,达到与智能家居交互目的的工具。但据近期报告显示,2022年上半年中国智能音箱市场销量为1483万台,同比下降27.1%,而销售额也同比下......
  • 社会运行机制
    20世纪80年代末期,西方学者弗里曼和纳尔逊分别研究提出国家创新体系理论.90年代以后,这一理论在经济合作与发展组织(OECD)国家中广泛采用,并逐渐丰富完善.国家创新体系的出......
  • 【每周CV论文推荐】初学视觉注意力机制有哪些值得阅读的论文?
    欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。注意力机制是当下计算机视觉和......
  • Java程序运行机制
    编译型compile:将源代码转换为计算机可执行的代码,负责编译的程序成为编译器。是用于编写操作系统,比如C/C++解释型:计算机读取要执行的一段代码,要执行什么就读取什么。用于......
  • Redis哨兵机制
    1、哨兵机制Redis的哨兵机制就是解决我们以上主从复制存在缺陷(选举问题),解决问题保证我们的Redis高可用,实现自动化故障发现与故障转移。2、哨兵机制的原理1.哨兵机制每......
  • MySQL事务篇:ACID原则、事务隔离级别及事务机制原理剖析
    引言众所周知,​​MySQL​​数据库的核心功能就是存储数据,通常是整个业务系统中最重要的一层,可谓是整个系统的“大本营”,因此只要​​MySQL​​存在些许隐患问题,对于整个系统......
  • 【博学谷学习记录】超强总结,用心分享|狂野架构师redis淘汰机制
    目录redis淘汰机制淘汰策略LRU算法LFU算法如何获取及设置内存淘汰策略redis淘汰机制淘汰策略1.noeviction(默认策略):默认情况下,Redis在使用的内存空间超过maxmemory......
  • 浅谈MySQL、Hadoop、BigTable、Clickhouse数据读写机制
    个人理解,欢迎指正数据库引擎写数据读数据补充MySqlInnoDB:支持事务,高速读写性能一般Myisam:不支持事务,高速读写性能好以InnoDB更新一条记录为例1、B+Tree......
  • Redis持久化机制
    一、全量同步与增量同步Redis在不明原因宕机的情况下,数据是不会宕机的。因为数据已持久化。持久化策略分为全量同步与增量同步.1、全量同步(RDB):每天定时(避开高峰期)或者采......