首页 > 其他分享 >【语音识别】搭建本地的语音转文字系统:FunASR(离线不联网即可使用)

【语音识别】搭建本地的语音转文字系统:FunASR(离线不联网即可使用)

时间:2024-05-09 20:34:23浏览次数:22  
标签:cn -- 离线 funasr damo 语音 runtime FunASR

参考自:

阿里达摩院

服务端

安装 Docker

(过程省略)

下面步骤如果是在 Linux 需要以管理员方式执行命令,开头添加 sudo

docker 拉取镜像

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.4

实时语音识别版本:

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

详细文档:https://github.com/alibaba-damo-academy/FunASR/blob/main/runtime/docs/SDK_advanced_guide_online_zh.md

创建模型目录

mkdir -p ./funasr-runtime-resources/models

运行 docker 镜像

docker run -p 10095:10095 -it --privileged=true -v $PWD/funasr-runtime-resources/models:/workspace/models registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.4

启动服务

cd FunASR/runtime

nohup bash run_server.sh \
  --download-model-dir /workspace/models \
  --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \
  --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx  \
  --punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
  --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \
  --itn-dir thuduj12/fst_itn_zh \
  --hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

# 如果您想关闭ssl,增加参数:--certfile 0
# 如果您想使用时间戳或者nn热词模型进行部署,请设置--model-dir为对应模型:
#   damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx(时间戳)
#   damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404-onnx(nn热词)
# 如果您想在服务端加载热词,请在宿主机文件./funasr-runtime-resources/models/hotwords.txt配置热词(docker映射地址为/workspace/models/hotwords.txt):
#   每行一个热词,格式(热词 权重):阿里巴巴 20(注:热词理论上无限制,但为了兼顾性能和效果,建议热词长度不超过10,个数不超过1k,权重1~100)

# `tail -f log.txt` 实时显示输出 log.txt 日志内容


客户端

下载客户端测试工具

wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz

解压上面链接下载的文件。比如我解压到目录 C:\Users\z\Documents\FunASR

解压所在目录下的 funasr_samples\samples 目录为不同类型的语言相关的使用文件

安装 FFMpeg

apt-get install -y ffmpeg  # ubuntu
# yum install -y ffmpeg    # centos
# brew install ffmpeg      # mac
# winget install ffmpeg    # wins

HTML

解压进入目录:C:\Users\z\Documents\FunASR\funasr_samples\samples\html\static

打开 index.html 使用网页的形式进行操作

Python

下载 python

https://www.python.org/ftp/python/3.11.8/python-3.11.8-amd64.exe

pip 安装依赖库

pip install -U modelscope funasr -i https://mirror.sjtu.edu.cn/pypi/web/simple
pip install -U torchaudio websockets pyaudio ffmpeg-python -i https://mirror.sjtu.edu.cn/pypi/web/simple

运行客户端

# 这个目录取决于上面你解压的文件所在的目录
cd C:\Users\z\Documents\FunASR\runtime\python\websocket

# 识别本地文件
python funasr_wss_client.py --host "127.0.0.1" --port 10095 --mode offline --audio_in "C:\Users\z\Videos\02d0b6703d9b5d6bc05a46548a938826_new.mp3"

我自己制作了一个使用 python 脚本运行处理的工具,可以下载使用。

下载链接中的 rar 解压后使用: https://github.com/LaoDie1/Godot-FunASR-UI/releases

在这里插入图片描述
设置执行的 Python,和 funasr_wss 脚本
在这里插入图片描述
注意:识别的文件最好不要超过一个小时,否则可能因为数据太多而返回不回来,造成失败


更多内容和文档,详见:alibaba-damo-academy/FunASR (github.com)

标签:cn,--,离线,funasr,damo,语音,runtime,FunASR
From: https://www.cnblogs.com/LaoDie1/p/18183024

相关文章

  • TSINGSEE青犀视频边缘计算AI智能分析网关V4告警消息语音推送的配置流程
    TSINGSEE青犀视频边缘计算硬件智能分析网关V4内置了近40种AI算法模型,支持对接入的视频图像进行人、车、物、行为等实时检测分析,上报识别结果,并能进行语音告警播放。今天我们来分享一下如何配置和使用AI智能分析网关V4的语音推送。提前准备:以企业认证在腾讯云注册一个账号腾讯云......
  • aws语音呼叫调用,告警电话
      importrequestsdata={'channel':'99x','called_number':'135xxx','tts_code':'TTS_xx','tts_param':{'msg':'【温馨提示】:你好,我叫马昌伟,你是谁'},&#......
  • docker离线导入镜像
    在有网络的服务器上操作1、下载docker镜像dockerpull<image_name>:<tag>2、保存下载的docker镜像为压缩文件dockersave-oimage_file.tar<image_name>:<tag>3、将压缩文件传输到目标服务器scpimage_file.taruser@target_server_ip:/path/to/destination_folder......
  • docker pytorch离线安装
    先在ubuntu18.0464位环境里,有联网情况下操作:安装dockerpytorch镜像:dockerpullpytorch/pytorch:1.13.0-cuda11.6-cudnn8-runtime下载依赖:bonelee@ubuntu:~/Desktop/pythonProject$sudodockerps-aCONTAINERIDIMAGE......
  • 语音信号处理中的“窗函数”
    文章代码仓库:https://github.com/LXP-Never/window_fun窗函数贯穿整个语音信号处理,语音信号是一个非平稳的时变信号,但“**短时间内可以认为语音信号是平稳时不变的,一般10~30ms**。对连续的语音分帧做STFT处理,等价于截取一段时间信号,对其进行周期性延拓,从而变成无限长序列,并对......
  • docker离线安装
    步骤一:官网下载Docker安装包wgethttps://download.docker.com/linux/static/stable/x86_64/docker-24.0.6.tgz步骤二:解压安装包tar-zxvfdocker-24.0.6.tgz步骤三:将解压后的Docker文件移到/usr/bin目录下sudocpdocker/*/usr/bin/步骤四:将Docker注册为系......
  • 文本到语音(tts)
    WebSpeechAPI使你能够将语音数据合并到Web应用程序中。WebSpeechAPI有两个部分:SpeechSynthesis语音合成(文本到语音TTS)和SpeechRecognition语音识别(异步语音识别)SpeechSynthesis:语音服务的控制器接口,获取设备上关于可用的合成声音的信息,开始、暂停语音,或除此之外......
  • 集成了高压初级侧开关,INN3649C-H606-TL、INN3678C-H606-TL、INN3676C-H601-TL 离线转
    1、详情InnoSwitch3-EP系列IC可极大简化低压大电流电源的开发和制造,尤其是那些采用紧凑外壳或需要满足高效率要求的电源。InnoSwitch的架构极具革新性,因为该器件同时将初级和次级控制器以及检测元件和符合安全标准的反馈机制集成到了单个IC中。装置整合了多种保护功能,包括线电压......
  • uniapp+vue3聊天室|uni-app+vite4+uv-ui跨端仿微信app聊天语音/朋友圈
    原创研发uniapp+vue3+pinia2跨三端仿微信app聊天模板Uniapp-Wechat。uni-vue3-wchat基于uni-app+vue3+pinia2+uni-ui+uv-ui等技术跨端仿制微信App界面聊天项目,支持编译到H5+小程序端+App端。实现编辑框多行消息/emoj混合、长按触摸式仿微信语音面板、图片/视频预览、红包/朋友圈......
  • C语音数据类型
    1、基本数据类型 整数类型 浮点类型 字符类型 ......