人工智能：语音识别技术介绍

时间：2023-04-22 17:39:19浏览次数：42

标签：人工智能模型搜索算法声学语音特征提取识别

人工智能：语音识别技术介绍_声学模型

今天给大家介绍一下关于语音识别相关的知识，希望对大家有所帮助！

1、什么是语音

语音指的是人类通过发声器官发出来具有一定意义、用来沟通交流的声音。

计算机中语音存储：以波形文件的方式存储，通过波形反映语音的变化，从而可以获取音强、音长等参数信息。

音域参数：傅利叶谱、梅尔频率到谱系数，主要用来提取语音内容以及音色的差别，用来更进一步辨别语音信息。

2、什么是语音识别

语音识别简单来说就是把语音内容自动转换为文字的过程，是人与机器交互的一种技术。

涉及领域：声学、人工智能、数字信号处理、心理学等方面。

语音识别的输入：对一段声音文件进行播放的序列。

语音识别的输出：输出的结果是一段文本序列。

3、语音识别的原理

语音识别需要经过特征提取、声学模型、语音模型、语音解码和搜索算法四个部分。

特征提取：把要分析的信号从最原始信号提取出来，这个阶段主要是对语音的幅度标准化、频响校正、分帧、加窗、始末端点检测等预处理操作，为声学模型提供需要特征向量。

声学模型：依靠声学模型进行语音参数分析（语音共振峰频率、幅度等）和对语音的线性预测参数进行分析。

语言模型：根据相关语言学理论，计算出声音片段可能词组序列的概率。

语音解码和搜索算法：根据声学模型+发音词典+语音模型构建的搜索空间，找到最合适的路径。解码完成后最终输出文本。

4、语音识别系统的组成

一个完整的语音识别系统包括：预处理、特征提取、声学模型训练、语言模型训练、语音解码器。

4.1 预处理

对输入的原始声音信号进行处理，过滤掉其中的背景噪音、非重要信息，还要对找到语音信号的开始和结束、语音分帧、提升高频部分的信号等操作。

4.2 特征提取

最常用的特征提取方法为梅尔顿到谱系数(MFCC),因为它拥有良好的抗噪性和健壮性。

4.3 声学模型训练

根据悬恋语音库的特征参数训练出声学模型参数，从而可以在识别时与声学模型进行匹配得到相应结果。目前主流语音识别系统一般都会采用HMM进行声学模型建模。

4.4 语言模型训练

用来预测哪个词序列正确的可能性更大。

4.5 语音解码器

解码器也就是语音识别技术中的识别过程，根据输入的语音信号，然后和训练好的HMM声学模型、语言模型、发音字典建立一个搜索空间，根据搜索算法找到最合适的路径。从而找到最合适的词串。

5、语音识别的使用场景

语音识别在日常生活中使用非常广泛主要分为封闭式和开放式应用。

封闭式应用：主要指针对特定控制指令的应用。

人工智能：语音识别技术介绍_特征提取_02

比如常见的有智能家居比如通过语音指令控制灯开关、热水器开关温度调节、打开空调等，大大丰富了我们日常的生活；

开放式应用：开放式主要是厂商提供语音识别服务，一般会公有云或者私有云的方式部署提供对应的SDK，让使用服务的客户进行语音识别服务的调用。

常见的场景有输入法、会议字幕实时输出、视频剪辑字幕配置等场景。

人工智能：语音识别技术介绍_声学模型_03

标签：人工智能,模型,搜索算法,声学,语音,特征提取,识别
From： https://blog.51cto.com/itShareArea/6215389

人工智能的预训练基础模型的分类
预训练基础模型预训练基础模型是指在大规模语料库上进行预训练的通用人工智能模型。在自然语言处理（NLP）领域，这些模型通常是基于深度神经网络的语言模型，可以用于各种任务，如文本分类、命名实体识别、机器翻译等。目前，人工智能领域的预训练基础模型主要有以下几种：BERT（Bidirectiona......
记录问题：goland无法识别sdk的问题
goland版本：2020go版本：1.20.3最新版在goland中配置GOROOT时找不到sdk解决版本：>cd/usr/local/go#我本地go的安装目录>cd/src/runtime/internal/sys>vizversion.gopackagesysconstTheVersion=`go1.20.3`//添加这一段代码，使用反引号重启goland打开，回到配置sd......
人工智能的预训练基础模型的分类
预训练基础模型预训练基础模型是指在大规模语料库上进行预训练的通用人工智能模型。在自然语言处理（NLP）领域，这些模型通常是基于深度神经网络的语言模型，可以用于各种任务，如文本分类、命名实体识别、机器翻译等。目前，人工智能领域的预训练基础模型主要有以下几种：BERT（Bidirection......
unity实现简单AR识别
首先前往unity官网：https://unity.cn/releases，下拉找到下载UnityHub绿色按钮下载完安装进入UnityHub中，在侧边栏找到Installs，点击打开下载如图所示的unity版本（注：unity同ue，只能高版本向低版本兼容）下载过程中记得取消勾选Documentation，选择简体中文（注：很多内容需要访问外网......
YouTube怎么判断影片内含侵权内容？解析Content ID内容识别系统的原理及功能
你有没有发现YouTube上有许多没有声音，或是画面翻转的影片？这些主要都是为了逃避YouTube全自动的内容识别系统（ContentID）监测。YouTube为了保护版权影片，发展出这一套强大的武器：ContentID。到底ContentID是什么样的功能？有什么强大的能力呢？ YouTubeContentID功能包含了影......
校企合作 | 成都工业职业技术学院人工智能实训专场会顺利召开
近期，人工智能产业应用研究院收到合作已久的成都工业职业技术学院的邀请，在学院的积极组织下，近三百名大数据、工业互联网、云计算相关专业的同学报名参加研究院组织召开的人工智能实训专场会，昨天同学们学习人工智能基础知识及数据标注技能，并通过数据标注实训指导完进行实训。实训目标......
WebStorm 2023.1 vue文件标签中变量无法识别 Unresolved variable or type
从老版本WebStorm升级到 WebStorm2023.1之后，打开项目莫名爆红可能是查询的不对，很多博客指明是依赖的问题，实际修改无效问题出在文件类型指向不对修改为：问题解决 ......
OpenCV实现银行卡数字识别
目录1.预处理模板图像(1)读入模板图像(2)化为灰度图(3)化为二值图(4)画出0-9这10个数字的外轮廓(5)计算外接矩形并且resize成合适大小2.预处理银行卡图像(1)读入需识别的银行卡并化为灰度图(2)礼帽操作(3)梯度运算（Sobel算子）(4)闭操作(5)阈值分割(6)再进行闭操作(7)计算外轮廓(8)计......
打好软件国产化攻坚战，闪信科技面向人工智能和数字经济进行新一代升级
数字经济浪潮席卷全球，面对日益激烈的市场竞争和残酷的技术封锁，国产化行至中场，国产化已经成为我国IT基础产业中长期发展的确定性趋势。长期以来，闪信科技深耕政企服务领域，积累了丰富的政府、公安、央企国企数字化服务经验，一直以来采用自主创新的信息技术，打造政企管理转型升级的解决......
GPT-NER：通过大型语言模型的命名实体识别
讲在前面，chatgpt出来的时候就想过将其利用在信息抽取方面，后续也发现了不少基于这种大语言模型的信息抽取的论文，比如之前收集过的：https://github.com/cocacola-lab/GPT4IEhttps://github.com/RidongHan/Evaluation-of-ChatGPT-on-Information-Extractionhttps://github.com/cocac......