【框架地址】
https://github.com/modelscope/FunASR
【简单介绍】
FunASR是一个功能全面的语音识别工具包,支持多种预训练模型的推理和微调,提供高精度和高效能的语音识别服务。结合PyAudio库,可以实现电脑本地麦克风实时语音识别项目。
该项目首先通过PyAudio库捕获麦克风输入的音频数据,PyAudio是一个跨平台的音频I/O库,可以方便地访问麦克风等音频设备。捕获的音频数据经过预处理,包括降噪、去除回声等,以提高识别准确率。
随后,使用FunASR中的实时语音识别模型(如Paraformer-zh-streaming)对预处理后的音频数据进行处理。这些模型能够实时地将音频数据转换为文本信息,支持中文等多语言识别。
在识别过程中,FunASR还提供了语音端点检测(VAD)功能,自动检测语音片段的开始和结束,以提高识别效率。同时,还可以添加标点恢复(PR)功能,为识别结果添加标点符号,提升可读性。
最终,识别结果会实时显示在界面上,用户可以通过界面实时查看和编辑识别结果。整个项目流程简洁高效,为实时语音识别应用提供了有力支持。
【测试环境】
anaconda3+python3.9
torch==2.0.1+cu117
funasr==1.1.4
modelscope==1.16.1
PyAudio ==0.2.14
【调用代码】
from FunasrManager import *
fm = FunasrManager()
fm.start()
while True:
time.sleep(0.2)
【视频演示】
https://download.csdn.net/download/FL1623863129/89593855
标签:麦克风,python,pyaudio,实时,语音,识别,FunASR,音频 From: https://blog.csdn.net/FL1623863129/article/details/140764071