OpeanAI 推出的 Whipser 语音识别模型,离线也可以使用。它和 ChatGPT 是同门师兄弟。
whisper
Whipser 多语言语音识别模型,通过了68万小时的语音数据训练,支持99种语言,对英文的表现更是强无敌。
更重要的是,它开源免费,在电脑上就能离线使用。
地址:https://github.com/openai/whisper
在速度方面。
为应对不同的语音转录需求,Whipser 推出了 tiny、base、small、medium、large 5个档次的模型。
转录效果依次增加,但相应花费的时间也会增加。
使用方法
Whisper 使用了 Python 开发,安装后,在文件所在目录打开终端,运行 whisper audio.mp3 即可进行转录。
想要自定义设置的话,则可以在后面追加命令参数,具体包括:
whisper audio.mp3 --命令参数
--task
指定转录方式,默认使用 --task transcribe 转录模式,--task translate 则为翻译模式,目前只支持英文。
--model
指定使用模型,默认使用 --model small,Whisper 还有英文专用模型,就是在名称后加上 .en,这样速度更快。
--language
指定转录语言,默认会截取 30 秒来判断语种,但最好指定为某种语言,比如指定中文是 --language Chinese。
--device
指定硬件加速,默认使用 auto 自动选择,--device cuda 则为显卡,cpu 就是 CPU, mps 为苹果 M1 芯片。
准确性
Whisper 的音频数据只有 1/3 来自非英语,在准确性方面,Whisper 对英文的识别错误率为 4.2,中文则为 14.7。
如果转录的内容是英文,那么用 samll 模型就能保证绝大多数正确。
而如果转录的内容是中文,那么至少要用 medium 模型,才能保证绝大多数正确。
Whisper 强在多语言支持,还有超高的英语识别率。
速度对比
在转录速度方面。
飞书妙记和剪映都需要联网上传,其中剪映的速度最快,而 Whisper 的转录速度,极度依赖显卡的加持。
下面是使用显卡加速,同一段10分钟视频的速度对比。
语种支持
Whisper 支持99 种,Whisper 是外语转录的不二选择。
参考:https://www.runningcheese.com/speech-to-text
标签:--,whisper,模型,指定,转录,Whisper From: https://www.cnblogs.com/qev211/p/17687874.html