首页 > 其他分享 >ASR项目实战-语音识别

ASR项目实战-语音识别

时间:2023-12-29 20:56:05浏览次数:37  
标签:实战 ASR 热词 实现 语音 识别 数据 加载

本文深入探讨语音识别处理环节。

本阶段的重点特性为语音识别、VAD、热词、文本的时间偏移、讲话人的识别等。

语音识别

业界流派众多,比如Kaldi、端到端等,具体选择哪一种,需要综合考虑人员能力、训练数据量和质量、硬件设施、交付周期等,作出相对合理的交付规划。
基于Kaldi的方案,优点在于其发挥稳定,缺点是使用难度比较高,学习曲线比较陡峭,具备使用经验的算法工程师相对比较稀缺。
端到端方案,业界主要基于Google在17年左右发布的文章作为研究、试验的输入,使用Tensorflow或者Pytorch作为训练、工程化的平台,算法工程师的可获得性比较好,但想要获取比较好的效果,仍需要付出相当的努力。

VAD

通常情况下,可以假定人在讲话时,已经结束的句子对于后续语音数据的识别,影响相对比较小。

依据前述假定,可以通过使用VAD有效划分语音识别会话,避免在识别过程中缓存过多的数据,改善语音识别的效率,降低实现的难度,降低对硬件资源的占用情况。
另外可以基于VAD实现断句,即依据前述假定:

  • 对于10秒以内的语音数据,语音识别过程中的断句可以忽略不考虑,此时可以完全不实现断句。
  • 对于超出10秒的语音数据,需要考虑实现断句。

热词

顾名思义,热词的作用在于提示语音识别系统,帮助语音识别系统输出相对靠谱的识别结果。
比如台州和泰州,在标准普通话中,二者发音接近,仅音调存在差异,考虑到口音和发音习惯的影响,假如听众不结合对话的上下文,可能无法正确有效的识别出具体的结果。
对于语音识别系统而言,假如事先给定台州作为热词,则在遇到类似发音时,在输出结果中使用台州,则可以有效改善识别结果的准确性。
实现热词时,可以有不同的选择。

从产品的角度,可以热词作为系统级和会话级。

  • 系统级热词,语音识别系统在启动时加载相关数据。
  • 会话级热词,用户在调用接口时,传入本次会话中可能使用到的热词。

从加载数据的时机,语音识别系统可以考虑提供静态或者动态的支持。

  • 静态,即将热词作为语言模型的一部分,在语音识别过程中固定增加一个环节,用于使用相关数据来校正语音识别的结果。
  • 动态,与静态类似,同样需要在语音识别过程中增加固定环节,用于使用这部分数据来校正语音识别的结果。

对前述方案进行组合,对比各实现:

  • 系统级热词和静态加载
    优点是实现比较简单,缺点是更新热词的模型时,需要重启语音识别系统,在重启过程中将无法对外部提供服务。

  • 系统级热词和动态加载
    实现复杂度有所上升。在更新热词的模型时,考虑到为了保障业务不中断,可能需要保留两个模型的数据,并且隔离相关请求的处理,这增加了实现的复杂度,同时增加了对硬件资源的消耗。

  • 会话级热词和静态加载
    假如用户请求中包含热词,则使用热词对应的模型来改善识别结果;假如用户提供的热词超出了系统已加载模型可支持的范围,则无法支持。

  • 会话级热词和动态加载
    优点是功能最灵活。缺点是实现复杂度最高,增加了对硬件资源的占用,并且增加了处理时延。

不过目前没有看到比较优雅、高效的实现,比较遗憾。

文本的时间偏移

本特性作为语音识别环节的副产品输出,但重要性非常高,可以有效支撑标点符号、大小写等特性的实现,满足字幕相关业务的交付。

基于Kaldi实现的语音识别引擎,声学模型+发音词典+语言模型,实现思路如下:
将语音数据送入识别引擎,引擎除输出识别得到的文本,同时可以得到音素的列表,以及各音素在音频数据中出现的时间偏移量,此时结合文字或者单词和音素之间的映射关系,即可推算出文字或者单词出现在语音数据中的时间偏移量。
本方案比较简单,实现的难度不大,同时对性能、硬件资源的消耗比较小。
不过对于发音词典有要求,一要数据全面,二要标记准确。
不过考虑到人在讲话时,某些字或者单词的发音中可能出现无意义的重复音,这可能导致从音素序列还原为文字或者单词时出现匹配失败的现象,进而导致文本时间偏移的输出的结果不准确,或者完全失败。

讲话人的识别

一般情况下,一段语音数据中存在多人讲话的场景还是比较多的,比如会话录音、公开课、电话录音等。
在语音识别领域,本特性是一个比较复杂的话题。实际应用时,本特性并不是一个必需的特性。比如可以通过人工处理语音识别的结果,结合录音数据,将不同的人的文本区分开。但假如语音识别结果可以提供必要的辅助信息,无疑将改善后期人工投入的工作量。

从人的发音特征上来说,不同人讲话的声音具备一定的唯一性,业界称之为声纹,业界已经有产品利用这一特点,交付比如考勤系统、门禁系统等应用,支撑特定行业的应用。
基于前述理论基础,在语音识别过程中,可以基于时间,将输入的语音数据切割为等分的时间段,使用机器学习的方式,为每个时间段打上标签,结合语音识别结果中的时间偏移的信息,将不同的文本打上各自讲话人的标签。

由于本特性当前没有实际商用的场景,因此暂未在项目中实践前述想法。

标签:实战,ASR,热词,实现,语音,识别,数据,加载
From: https://www.cnblogs.com/jackieathome/p/17935652.html

相关文章

  • 离线语音控制麻将机,让你轻松成为麻将高手!
    嘿,小伙伴们!今天给大家介绍一个超酷的玩意儿!你们有没有遇到过这样的情况呢?刚入门麻将,对规则一头雾水,每次都得翻阅厚厚的规则书。别担心!现在有了雷龙发展的LSYT201B离线语音模块,解决你的烦恼!这个神奇的小模块可以实现5m离线语音控制!无需联网,随时随地都能使用。只需要简单地说出......
  • JVM-实战篇-GC调优
    1GC调优GC调优指的是对垃圾回收进行调优。GC调优的主要目标是避免由垃圾回收引起的程序性能下降。GC调优的核心分为三部分:通过JVM参数的设置;特定垃圾回收器的JVM参数的设置;解决由频繁的FULLGC引起的程序性能问题。GC调优没有唯一的标准答案,重点学习调优的工具和方法。......
  • JVM-实战篇-内存调优
    1内存溢出和内存泄漏概念:内存泄漏:在Java中如果不在使用一个对象,但是该对象依然在GCROOT的引用链上,这个对象就不会被垃圾回收器回收,这种情况就称之为内存泄漏。内存泄漏绝大多数情况都是由堆内存泄漏引起的,所以后续没特殊说明讨论的均为堆内存泄漏。若持续发生内存泄漏,不管有......
  • 记一次对某杀猪盘站点的实战渗透
    前言昨天半夜看到一篇文章 某菠菜网站渗透实战就想着自己也练一练手,打到一半发现,大师傅们对这类站点已经狠狠的蹂躏了,所以借鉴师傅们的经验,本着锻炼一下,想到哪就记一下,所以写的比较杂乱,其中有没有解决的地方也记录下来的,然后又换了个站点接着走了下去信息收集前台这样看一下其他......
  • Amazon S3 CORS 实战
    AmazonS3(SimpleStorageService)是一项强大的对象存储服务,而跨域资源共享(CORS)是为了在Web应用中安全实现跨域数据传输而设计的标准。在本文中,我们将深入探讨如何在AmazonS3上实战配置CORS,确保安全地处理跨域请求。1.CORS概述1.1同源策略回顾同源策略是浏览器的安全机制,限......
  • Amazon API Gateway CORS 实战
    AmazonAPIGateway是构建和部署RESTfulAPI的托管服务,而跨域资源共享(CORS)是为了在Web应用中安全实现跨域数据传输而设计的标准。在本文中,我们将深入探讨如何在AmazonAPIGateway上实战配置CORS,确保安全地处理跨域请求。1.CORS概述1.1同源策略回顾同源策略是浏览器的安......
  • 程序员必知!适配器模式的实战应用与案例分析
    适配器模式是一种结构型设计模式,它允许不同接口的对象协同工作,它通过将一个类的接口转换成客户希望的另外一个接口,使得不兼容的类可以一起工作。适配器模式提高了类的复用性、系统的灵活性和可扩展性,并降低了系统间的耦合度,在实际应用中,例如电源适配器和数据转换器,以及编程中封装......
  • Amazon CloudFront CORS 实战
    AmazonCloudFront是一项强大的内容分发服务,而跨域资源共享(CORS)则是为了在Web应用中安全实现跨域数据传输而设计的标准。在本文中,我们将探讨如何在AmazonCloudFront上实战配置CORS,确保安全地处理跨域请求。1.CORS概述1.1同源策略回顾同源策略是浏览器的安全机制,限制页面......
  • 【工具篇】Kali下beef实战详细教程
    一、beef安装第一步:安装beef1.首先输入命令进行安装.apt-getinstallbeef-xss发现安装不了,但是有提示.2.根据提示进行输入命令.apt-getupdate3.再输入命令进行安装.apt-getinstallbeef-xss4.直接运行Beef-xss.beef-xss标记处的意思是叫你修改密码(密码输入时不可......
  • # yyds干货盘点 # 盘点一个Python自动化办公实战案例(四)
    大家好,我是皮皮。一、前言前几天在Python最强王者交流群【钟爱一生】问了一个Python自动化办公的问题,一起来看看吧。【温馨提示】遇到表达不清的,能稍微描述下,想要达成的结果吗?在excel上,或者画图也行。最好是把你想要的结果展示在excel中,另外,你展示的这个表格最好做个小的demo发上来......