VOSK实现语音输出

时间：2024-10-16 13:44:18浏览次数：7

标签：输出 partial text VOSK 语音 import print rec model

以下代码读取麦克风输入并输出中文:

#encoding:utf-8
import wave
import time
import json
import threading
from vosk import Model,KaldiRecognizer,SetLogLevel

# 禁止日志输出
SetLogLevel(-1)
model_path = "models/vosk-model-cn-0.1"
model = Model(model_path)

def resume_microphone(rec):
    print(rec.state(),alsaaudio.PCM_STATE_PAUSED)
    if rec.state() == alsaaudio.PCM_STATE_PAUSED:
        rec.pause(False)

rec = KaldiRecognizer(model,16000)
rec.SetWords(True)
rec.SetPartialWords(True)
import alsaaudio
inp = alsaaudio.PCM(alsaaudio.PCM_CAPTURE,alsaaudio.PCM_NONBLOCK,channels=1,rate=16000,format=alsaaudio.PCM_FORMAT_S16_LE,periodsize=4096)
try:
    while 1:
        l,data = inp.read()
        if rec.AcceptWaveform(data):
            result = json.loads(rec.Result())
            text = result["text"]
            print("You say:{}".format(text))
            if "停止" in text:
                print("program will be pause")
                inp.pause(True)
                t = threading.Timer(5, resume_microphone,args=(inp,))
                t.start()
            if "退出" in text:
                print("program will be exist.")
                break
            if "恢复" in text:
                inp.pause(False)
                print("program will be resume")
        else:
            res = json.loads(rec.PartialResult())
            partial = res["partial"]
            if partial:
                print("Say:{}".format(partial))
                if "退出" in partial:
                    print("program will be exist.")
                    break
        time.sleep(0.01)
except KeyboardInterrupt:
    print("KeyboardInterrupt...")
finally:
    inp.close()

对已存在文件进行分析,需要使用16KHz频率,单声道及16位输入:

#encoding:utf-8
import wave
import json
from vosk import Model,KaldiRecognizer,SetLogLevel


def recognize_speech_from_file(filename):
    SetLogLevel(-1)
    wf = wave.open(filename, "rb")
    if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
        print("Audio file must be WAV format mono PCM")
        return
    rec = KaldiRecognizer(model, wf.getframerate())
    rec.SetWords(True)
    rec.SetPartialWords(True)
    while True:
        data = wf.readframes(2048)
        if len(data) == 0:
            break
        if rec.AcceptWaveform(data):
            jres = json.loads(rec.Result())
            print(jres["text"])
        # else:
        #     jres = json.loads(rec.PartialResult())
        #     if jres["partial"] != "":
        #         print(jres["partial"],2222)
    final_result = rec.FinalResult()
    if final_result:
        final_result = json.loads(final_result)
        text = final_result.get("text")
        if text:
            print(text)

recognize_speech_from_file("output.wav")

使用pyaudio的情况:

#encoding:utf-8
import wave
import json
from pyaudio import PyAudio, paInt16

SetLogLevel(-1)
model_path = "models/vosk-model-cn-0.1"
model = Model(model_path)

rec = KaldiRecognizer(model,16000)
rec.SetWords(True)
rec.SetPartialWords(True)
p = PyAudio()
stream = p.open(format=paInt16, channels=1, rate=16000, input=True, frames_per_buffer=4096)
stream.start_stream()
try:
    while stream.is_active():
        data = stream.read(4096)
        if rec.AcceptWaveform(data):
            result = json.loads(rec.Result())
            text = result["text"]
            print("You say:{}".format(text))
            if "退出" in text:
                print("program will be exist.")
                break
        else:
            res = json.loads(rec.PartialResult())
            partial = res["partial"]
            if partial:
                print("Say:{}".format(partial))
                if "退出" in partial:
                    print("program will be exist.")
                    break
        time.sleep(0.01)
except KeyboardInterrupt:
    print("KeyboardInterrupt...")
finally:
    stream.stop_stream()
    stream.close()
    p.terminate()

参考文章:

https://blog.csdn.net/weixin_48967543/article/details/142338862

标签：输出,partial,text,VOSK,语音,import,print,rec,model
From： https://www.cnblogs.com/commuter/p/18469771

微信消息语音播报秒实现
1.监听系统消息通知注册一个监听系统消息的服务<serviceandroid:name=".MyNotificationListenerService"android:exported="true"android:permission="android.permission.BIND_NOTIFICATION_LISTENER_SERVICE">......
基于常青藤算法优化深度混合核极限学习机(IVY-DHKELM)的数据多变量回归预测 Matlab (
[原创]基于常青藤算法优化深度混合核极限学习机(IVY-DHKELM)的数据多变量回归预测Matlab(多输入单输出)程序已经调试好，无需更改代码替换数据集即可运行！！！数据格式为excel！①将多项式核函数与高斯核函数加权结合，构造出新的混合核函数，并引入自动编码器对极限学习机进行改进，建......
基于网格搜索优化最小二乘向量机(GS-LSSVM)的数据多变量回归预测 Matlab代码(多输入单
基于网格搜索优化最小二乘向量机(GS-LSSVM)的数据多变量回归预测Matlab代码(多输入单输出)程序已经调试好，无需更改代码替换数据集即可运行！！！数据格式为excel！网格搜索GS优化参数为：sigma、gamma1.购买前GS可以更换为其他的优化算法！需要其他算法的都可以定制！注：1️⃣、运行环境要......
基于深度混合核极限学习机DHKELM的数据多特征分类预测 Matlab (多输入单输出)
基于深度混合核极限学习机DHKELM的数据多特征分类预测Matlab(多输入单输出)程序已经调试好，无需更改代码替换数据集即可运行！！！数据格式为excel！①将多项式核函数与高斯核函数加权结合，构造出新的混合核函数，并引入自动编码器对极限学习机进行改进，建立DHKELM模型。该想法创新性......
第九章习题3-编写一个函数print，打印一个学生的成绩数组，该数组有5个学生的数据记录，每个
......
JAVA输入输出，运算符
1.输入输出packagecom.scanner;//1.导包importjava.util.Scanner;publicclassDemo1{publicstaticvoidmain(){print();}//需求：我是一个零基础小白，请帮我写一个程序，可以让用户键盘输入用户名和年龄，然后打印出来。publicstaticvoid......
自然语言处理之语音识别：Convolutional Neural Networks (CNN)：深度学习与神经网络基础
自然语言处理之语音识别：ConvolutionalNeuralNetworks(CNN)：深度学习与神经网络基础深度学习与神经网络基础subdir1.1:神经网络的基本概念神经网络是一种模仿人脑神经元结构的计算模型，用于处理复杂的数据模式识别和预测问题。它由输入层、隐藏层和输出层组成，每一层......
自然语言处理之语音识别：Convolutional Neural Networks(CNN)：语音识别导论
自然语言处理之语音识别：ConvolutionalNeuralNetworks(CNN)：语音识别导论自然语言处理与语音识别基础自然语言处理概览自然语言处理（NLP）是人工智能领域的一个重要分支，它关注如何使计算机能够理解、解释和生成人类语言。NLP技术广泛应用于文本分类、情感分析、机器翻译、......
自然语言处理之语音识别：Convolutional Neural Networks(CNN)与迁移学习_
自然语言处理之语音识别：ConvolutionalNeuralNetworks(CNN)与迁移学习自然语言处理与语音识别基础自然语言处理概览自然语言处理（NLP）是人工智能领域的一个重要分支，它关注如何使计算机能够理解、解释和生成人类语言。NLP技术广泛应用于文本分类、情感分析、机器翻译、问......
使用Spectre.Console定制.NET控制台输出样式演示
创建一个控制台项目，引用包Spectre.Console。或者如果需要定制控制台cli命令，也可以引用Spectre.Console.Cli，里面自带包含了Spectre.Console 先做个最简单的输出演示，例如下划线、背景色、加粗等，如下图演示所示。 MarkupLine对应WriteLine的效果，去掉Line，就代表没了换......

VOSK实现语音输出

相关文章

赞助商

阅读排行