一、UniASR语音识别-中文方言-通用-16k-离线(模型部署运行)
根据ModelScope的官方指导文件,ModelScope仅仅支持Python3.7和Python3.8的版本
备注:一开始由于不了解ModelScope的属性,一直是在3.10的虚拟环境下使用,当执行文件时报错需要执行命令行pip install modelscope[audio] -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html下载,但是执行下载后一直报错显示包冲突。并且这种报错没办法调和。
1.1、下载UniASR语音识别-中文方言-通用-16k-离线
UniASR(Unified Automatic Speech Recognition)和FunASR(Function-Driven Automatic Speech Recognition)是两种不同的自动语音识别(ASR)系统。
UniASR:统一的ASR系统:UniASR旨在提供一种统一的ASR解决方案,可以适用于多种不同的语音识别任务和应用场景;端到端模型:UniASR可能采用端到端的深度学习模型,能够直接从音频流中识别文本,而无需人为定义特征或中间表示;集成多种技术:可能集成了多种技术,如深度学习、语言模型和声学模型等,以实现更准确和高效的语音识别。
FunASR:功能驱动的ASR系统:FunASR可能更加注重功能的定制和优化,以满足特定的应用需求。它可能根据具体的任务和场景设计不同的功能;灵活的架构:FunASR可能采用更加灵活的架构,允许用户根据需要定制和调整各种功能模块,以实现最佳的性能;针对特定应用场景:FunASR可能专注于某些特定的应用场景,如语音助手、语音搜索、语音识别游戏等,因此它的设计和优化可能更加贴近这些场景的需求。
总的来说,UniASR和FunASR都是用于自动语音识别的系统,但它们的设计理念、架构和应用重点可能有所不同,用户可以根据具体的需求选择适合自己的系统
原文地址:https://modelscope.cn/models/iic/speech_UniASR_asr_2pass-cn-dialect-16k-vocab8358-tensorflow1-offline/summary
根据地址下载对应的模型文件
UniASR 支持CPU和CPU+GPU运行的。
纯CPU运行:UniASR 可能提供基于 CPU 的运行模式,这意味着它可以在没有 GPU 的情况下运行,依靠 CPU 处理器执行语音识别任务。这种模式通常适用于资源受限或无法访问 GPU 的环境,性能可能会受到一定限制。
CPU+GPU运行:UniASR 也可能支持利用 GPU 加速进行运行,从而提高语音识别的速度和性能。通过利用 GPU 的并行计算能力,UniASR 可能会在支持 GPU 的系统上实现更高的吞吐量和更低的延迟。
1.1.1、下载模型文件
获取 UniASR 软件包:
git clone https://www.modelscope.cn/iic/speech_UniASR_asr_2pass-cn-dialect-16k-vocab8358-tensorflow1-offline.git。
model.pb需要手动下载后上传。下载完成后将文件上传到镜像中
环境安装的说明:https://www.modelscope.cn/docs/环境安装
1、创建虚拟环境并激活
conda create -n myj38 python=3.8
conda activate myj38
1.1.2、基于ModelScope进行推理和微调
版本信息:
numpy 1.24.4
torch 2.3.1
funasr 0.8.7
modelscope 1.9.4
1、要安装FunASR可能要安装gcc
安装gcc编译器和相关工具。在CentOS上,gcc通常包含在Development Tools组中,你可以通过命令安装该组:sudo yum groupinstall "Development Tools"(有时需要检查yum是否是最新的sudo yum update,该步骤时间较长,如果安装失败时再执行更新)
等待安装完成后,验证gcc是否成功安装。运行以下命令检查gcc版本:gcc --version
如果安装成功,你应该能看到gcc的版本信息。
2、在语音识别过程中,我们还需要用到CT-Transformer标点-中文-通用-实时模型
iic/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727
3、创建py文件
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
# 定义解码模式
decoding_model = "fast"
# 音频文件路径
audio_file_path = "/home/myj/jiangxi1.wav"
# 创建处理管道,并指定音频文件路径
inference_pipeline = pipeline(
task=Tasks.auto_speech_recognition,
model='/home/myj/speech_UniASR_asr_2pass-cn-dialect-16k-vocab8358-tensorflow1-online',
param_dict={"model": decoding_model, "audio_file_path": audio_file_path}
)
# 执行语音识别,并将结果输出到控制台
transcription = inference_pipeline()
print("Transcription:", transcription)
5、执行结果对比:
江西南昌方言
原语言:乘客你好,欢迎乘坐南昌地铁,上车的乘客请往里走,长得漂亮的,请给小孩、孕妇、老人让座。本次列车开往双港站,The destination double gang,下一站 彭家桥。we’re arriving at Pang ga qiao。下车的乘客请抓紧时间下车。
UNIASR识别结果:
秦康您好,风音沉着南充地铁,送车的乘客强猛都送走,撞了天机狗,抢给细伢子、婆兔狗、还有公公婆婆娘错,本次例子啊开往宋宫在,这个意DABOGONH,AIDANPANGATGERHALHAGHENG,扎西准备。
东北方言
原语言:咱这疙儿眼瞅要降温了,大家出门多注意啊,别杨了二正的到处撒磨,跩一跤,埋了八汰的。工作上也别老突鲁反仗,半拉咔叽的,有点敬业精神。虽说这年头挣点钱都不容易,但也别老买那便宜娄搜的破玩意儿,对自己好点儿。家里头家务活也多干点,别总整得屋里屋外皮儿片儿的,墙上也魂儿画儿的。
UNIASR识别结果:
咱们这里眼看就要降温了,大家出门时候多注意啊,别总到处看,不小心摔倒了会很脏的。工作上呢也别老反复无常的,有一点敬业精神。虽然说大家这个年头赚点钱都不容易,但也对自己好一点儿,买一些贵的好东西。家里头家务活呢也帮忙多干点,别打别总把屋子里弄得很乱墙上也很脏。
咱们这边眼丑就要降温了大家出门多注意啊别着眼泪儿扔了到处撒嘛坐在脚埋了吧台的工作上别老涂了反正八大科技的有点经济竞赛所以说我这年头挣的钱都不容易但你别老买那便宜露头的破板上对自己好点家里头家务活也也多干点别总整那屋里屋里无外皮片的墙上干活画的
音频文件无法上传上去,江西话和东北话是在抖音上找的然后用格式工厂转为wav音频最后上传到服务器上执行的
标签:中文,cn,CentOS,modelscope,gcc,UniASR,语音,识别 From: https://blog.csdn.net/weixin_72954236/article/details/139674575