基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现

标签：麦克风 python pyaudio 实时语音识别 FunASR 音频

【框架地址】

【简单介绍】

FunASR是一个功能全面的语音识别工具包，支持多种预训练模型的推理和微调，提供高精度和高效能的语音识别服务。结合PyAudio库，可以实现电脑本地麦克风实时语音识别项目。

该项目首先通过PyAudio库捕获麦克风输入的音频数据，PyAudio是一个跨平台的音频I/O库，可以方便地访问麦克风等音频设备。捕获的音频数据经过预处理，包括降噪、去除回声等，以提高识别准确率。

随后，使用FunASR中的实时语音识别模型（如Paraformer-zh-streaming）对预处理后的音频数据进行处理。这些模型能够实时地将音频数据转换为文本信息，支持中文等多语言识别。

在识别过程中，FunASR还提供了语音端点检测（VAD）功能，自动检测语音片段的开始和结束，以提高识别效率。同时，还可以添加标点恢复（PR）功能，为识别结果添加标点符号，提升可读性。

最终，识别结果会实时显示在界面上，用户可以通过界面实时查看和编辑识别结果。整个项目流程简洁高效，为实时语音识别应用提供了有力支持。

【测试环境】

anaconda3+python3.9

torch==2.0.1+cu117

funasr==1.1.4

modelscope==1.16.1

PyAudio ==0.2.14

【调用代码】

from FunasrManager import *
fm = FunasrManager()
fm.start()
while True:
    time.sleep(0.2)

【视频演示】

标签：麦克风,python,pyaudio,实时,语音,识别,FunASR,音频
From： https://blog.csdn.net/FL1623863129/article/details/140764071