是什么
whisper
OpeanAI 推出的多语言语音识别模型,通过了68万小时的语音数据训练,支持99种语言,英文识别准确率非常惊艳。
更重要的是,它开源免费,在电脑上就能离线使用。
fast-whisper
处理速度更快的whisper,具有完全的 whsiper 模型参数,且自带 VAD 加持。它使用了 CTranslate2 来重新实现 whsiper 模型,CT2 对 transformer 类网络进行了优化,使模型推理效率更高。github上说同等情况下是whisper处理速度的4倍。
VAD 即 Voice Activity Detection ——声音活动检测,在语音信号处理中,例如语音增强,语音识别等领域有着非常重要的作用。
它的作用是从一段语音(纯净或带噪)信号中标识出语音片段与非语音片段。在语音转写任务中,可以提前将语音和非语音部分分离出来,从而提升 whisper 网络识别速度,并减少模型幻听。
baidu-aip-AipSpeech
将60秒以内的完整音频文件识别为文字,需要联网,且需要收费的token
标签:baidu,whipser,whisper,aip,fast,语音,识别 From: https://www.cnblogs.com/qev211/p/17702540.html