1.VAD(voice activity detection)语音活动检测
也称为静音检测,是用来判断用户是否已经说完话,然后通过结果判断是否进行回答。
开始语音识别之前,把首尾端的静音切除,以防对后续步骤进行干扰。
如果此时用户还没有说完话,就停止识别了开始回答,会造成理解不当,回答不精准的情况;但是如果用户已经说完话了,过长的识别,从说完话到回答的时间过长,会造成用户体验感不佳的情况,所以VAD的目的是用来识别和消除语音信号中长时间的静音期。
静音检测分为前端VAD和后端VAD:
前端VAD:
- 从用户唤醒语音后多久没有说话就认为用户不想说话
后端VAD:
- 从用户说完话后多久没有说话就认为用户不想说话
静音检测超时,可能是周围人声的影响,也可能是引擎的问题,需要分析pcm录音文件和日志。
VAD的优点:
- 提高语音信号的利用率
- 减少语音信号的冗余信息
- 提高语音识别的准确率和效率
2.ASR(automatic speech recognize)语音识别
是把识别到的声音转换为文字的过程,让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。相当于耳朵
标签:声源,信号,座舱,噪声,车载,基础知识,语音,识别,唤醒 From: https://blog.csdn.net/jingling555/article/details/145224151