首页 > 其他分享 >asr_onnxruntime语音识别模型,实现speech-to-text的转换

asr_onnxruntime语音识别模型,实现speech-to-text的转换

时间:2024-09-21 10:20:49浏览次数:10  
标签:asr en cn onnxruntime onnx -- text wav

asr_onnx

论文

模型结构

image

算法原理

image

数据集

环境配置

光源可拉取推理的docker镜像,在光合开发者社区可下载onnxruntime安装包。asr_onnx推荐的镜像如下:

docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-ubuntu20.04-dtk24.04.1-py3.10
cd asr_onnxruntime #进入当前项目目录
docker run -d -t --privileged --device=/dev/kfd --device=/dev/dri/ --network=host --group-add video -v /opt/hyhal:/opt/hyhal:ro -v `pwd`:/mnt --name=asr-test image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-ubuntu20.04-dtk24.04.1-py3.10
docker exec -it asr-test /bin/bash
cd /mnt
pip install onnx -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install pysoundfile -i https://pypi.tuna.tsinghua.edu.cn/simple

下载模型 (https://models.silero.ai/models/en/en_v5.onnx) 到当前目录,建立wavs文件夹添加测试wav文件。

预训练权重快速下载中心:SCNet AIModels ,项目中的预训练权重可从快速下载通道下载:en_v5

推理

python3 main.py --model_dir="./en_v5.onnx" --wav_dir="./wavs/" --warmup=1
# --wav_dir:需要推理的语音路劲,如"./speech_orig.wav";speech_orig.wav是文件夹中已经存在的语音

result

image

精度

暂无

应用场景

算法类别

语音识别

热点应用行业

交通,金融,医疗,教育,家居

源码仓库及问题反馈

ModelZoo / asr_onnxruntime · GitLab

参考资料

标签:asr,en,cn,onnxruntime,onnx,--,text,wav
From: https://blog.csdn.net/qq_27815483/article/details/141859186

相关文章

  • ASR6601 是一款通用的 Sub-GHz 无线通讯 SoC 芯片
    ASR6601是一款通用的Sub-GHz无线通讯SoC芯片该芯片集成了Sub-GHz射频收发器和32位的RISCMCU。Sub-GHz射频收发器不仅支持LoRa调制,还支持(G)FSK和G(MSK)等调制方式。CPU为ARMSTAR,工作频率最大支持48MHz。此外,该芯片支持3xI2C,1xI2S,4xUART,1xLPUART......
  • PyQt5 中的强大工具 ——QTextEdit 富文本框
    在PyQt5的世界里,QTextEdit是一个功能强大的富文本框组件,它为开发者提供了丰富的文本编辑和展示功能。本文将深入探讨PyQt5中的QTextEdit,带你领略其强大之处。一、引言在现代图形用户界面(GUI)应用程序中,富文本编辑功能是不可或缺的一部分。无论是编写文档、编辑邮件还......
  • WPF Customcontrol with ellipse and textblock display randomly in canvas of mainw
    //usercontrol.xaml<UserControlx:Class="WpfApp381.ElpImgTbk"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"......
  • 用来测试 autosize.js 的 HTML 代码,自动适应 textarea 高度
     1<!DOCTYPEhtml>2<htmllang="en">3<head>4<metacharset="UTF-8">5<metaname="viewport"content="width=device-width,initial-scale=1.0">6<title>VueAutosiz......
  • VUE 使用用Echart 报错:this.dom.getContext is not a function
    问题:在VUE中 如果使用了 tabs 关在tab 中加入了<div>标签;在初始化中 执行echart.init() 可能会报错:this.dom.getContextisnotafunction;大致如下所示:<el-tabs> <el-tab-pane><div>    <divstyle="height:500px;widows:1000px;"ref="homeLineRe......
  • 易优eyoucms网站php5.4版本,报错:Can't use method return value in write context
    当你在使用PHP5.4版本时遇到“Can'tusemethodreturnvalueinwritecontext”的错误,这通常是因为你在代码中错误地使用了方法返回值。这种错误通常发生在试图将方法返回值直接赋值给变量或用于其他上下文时。解决方案以下是一些常见的原因和解决方法:1.检查代码中的赋......
  • Unity自定义图片数字TextMeshPro
    本文转载自https://www.cnblogs.com/sailJs/p/181689221、首先要有一张包含了图片字的图集,每个图片字一个Spirte 2、然后右键-> 创建创建好的TMP_SpriteAsset 3、编辑SpriteCharacterTable调整顺序,将index和图片数字对上修改下Unicode值(默认都是0xFFFE),比如9的Un......
  • Unity使用TextMeshPro实现聊天图文混排
    本文来自:https://developer.aliyun.com/article/10666231.文字自适应问题。2.图文混排问题。UI界面1.创建滑动列表首先创建一个可以上下滑动的列表,命名为chat_scroll2.创建聊天预制因为聊天是两人以上的,自己的聊天显示在右侧,别人的聊天消息显示在左侧。因此需要制作两个聊天......
  • WPF ListBox ContextMenu MenuItem Command CommandParameter Path PlacementTarget
    <ListBox.ContextMenu><ContextMenu><MenuItemHeader="ExportNewtonSoftJson"FontSize="50"Foreground="Red"Command="{BindingExportNewt......
  • 论文解读《MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Trai
    系列文章目录文章目录系列文章目录论文细节理解1、研究背景2、论文贡献3、方法框架4、研究思路5、实验6、限制论文细节理解Ensembleteacher.在深度学习领域,什么意思?在深度学习领域,“ensembleteacher”通常指的是一种模型集成的方法,其中多个模型(教师模型)共同训......