首页 > 编程语言 >python系列&deep_study系列:Whisper——部署fast-whisper中文语音识别模型

python系列&deep_study系列:Whisper——部署fast-whisper中文语音识别模型

时间:2024-07-02 19:58:10浏览次数:22  
标签:系列 python Whisper tiny -- whisper zh model size

Whisper——部署fast-whisper中文语音识别模型




Whisper——部署fast-whisper中文语音识别模型

whisper:https://github.com/openai/whisper/tree/main
参考文章:Whisper OpenAI开源语音识别模型

环境配置

pip install faster-whisper transformers

准备tiny模型

需要其他版本的可以自己下载:https://huggingface.co/openai

原始中文语音模型:
https://huggingface.co/openai/whisper-tiny

微调后的中文语音模型:

git clone https://huggingface.co/xmzhu/whisper-tiny-zh

补下一个:tokenizer.json
https://huggingface.co/openai/whisper-tiny/resolve/main/tokenizer.json?download=true

模型转换

float16:

ct2-transformers-converter --model whisper-tiny-zh/ --output_dir whisper-tiny-zh-ct2 --copy_files tokenizer.json preprocessor_config.json --quantization float16

int8:

ct2-transformers-converter --model whisper-tiny-zh/ --output_dir whisper-tiny-zh-ct2-int8 --copy_files tokenizer.json preprocessor_config.json --quantization int8

代码

from faster_whisper import WhisperModel

# model_size = "whisper-tiny-zh-ct2"
# model_size = "whisper-tiny-zh-ct2-int8"

# Run on GPU with FP16
# model = WhisperModel(model_size, device="cuda", compute_type="float16")
model = WhisperModel(model_size, device="cpu", compute_type="int8")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("output_file.wav", beam_size=5, language='zh')

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))







Irving.Gao

Whisper——部署fast-whisper中文语音识别模型

标签:系列,python,Whisper,tiny,--,whisper,zh,model,size
From: https://blog.csdn.net/weixin_54626591/article/details/140093668

相关文章

  • Python解释器安装
    1、首先,我们进入官网链接如下:www.python.org我们选择页面上方下载按钮这里我们选择3.11.1版本然后选择推荐版本等待下载完毕2、下载完成之后选择自定义安装选择位置和功能这里直接下一步这里选择向所有用户安装python3.11和向环境变量添加python,然后再自定义安装......
  • 【课程设计】基于python的一款简单的计算器
    我们是大二本科生团队,主力两人耗时3天完成了这款计算器的制作。希望大家给我们多多引流!!!!!!欢迎各位优秀的高考学子报考长安大学,报考长安大学电子信息工程专业。欢迎有志于就读信息与通信工程和计算机科学与技术的准研究生报考长安大学!注意:文件我已经打包好了!长安大学直属国家......
  • python编译器
        Python解释器安装配置下载    第一,搜索python官网WelcometoPython.orgTheofficialhomeofthePythonProgrammingLanguagehttps://www.python.org/   第二,进入此页面PythonReleasesforWindows|Python.orgTheofficialhomeofthePyth......
  • 轻松调用其他工程的Python文件,提升编程效率
    哈喽,大家好,我是木头左!一、前言在Python开发过程中,经常会遇到需要在一个工程中调用另一个工程的Python文件的情况。这种情况通常发生在需要复用已有代码或者进行模块化开发时。那么,如何实现这一目标呢?本文将为你揭晓答案。二、Python模块导入原理在Python中,可以使用import语......
  • Python 执行其他工程的 Python 文件
    哈喽,大家好,我是木头左!三级标题:探索Python的模块化特性Python是一种广泛使用的高级编程语言,其设计哲学强调代码的可读性和简洁的语法。其中一个重要的特性就是模块化,即允许创建、使用和重用代码模块。这种模块化的特性不仅使得的代码更加清晰和组织化,而且还能让在多个项目中......
  • Python TensorFlow双向Bi-LSTM长短期记忆神经网络深度学习可视化用户传感器活动数据
    全文链接:https://tecdat.cn/?p=36613原文出处:拓端数据部落公众号在本文中,我们旨在利用深度学习技术,特别是TensorFlow框架下的Keras库,对WISDM(无线传感器数据挖掘)数据集进行活动识别。WISDM数据集包含了从用户身上佩戴的加速度传感器收集的三轴加速度数据,这些数据被用于识别用户的......
  • Python123:找出不是两个数组共有的元素、矩阵运算、方阵循环右移(C语言)
    文章目录1、找出不是两个数组共有的元素2、矩阵运算3、方阵循环右移1、找出不是两个数组共有的元素题目:给定两个整型数组,本题要求找出不是两者共有的元素。输入格式:输入分别在两行中给出两个整型数组,每行先给出正整数N(≤20),随后是N个整数,其间以空格分隔。‪‬‪......
  • 2.3 在MacOS系统下载、安装、配置搭建Python开发环境——《跟老吕学Python》
    2.3在MacOS系统下载、安装、配置搭建Python开发环境——《跟老吕学Python》在MacOS系统下载、安装、配置搭建Python开发环境一、Python开发环境的硬件要求二、下载MacOS版Python安装包1.访问Python官网下载页2.选择Mac版本3.点击下载4.检查下载的文件5.准备安装......
  • [Python]使用python处理PDF,在PDF中某一页加一行文字,另存成一个新的文件
    本文参考链接:https://blog.csdn.net/Anq1_/article/details/111144032一、需求分析我有一个数据文件(data.xlsx),里面是序号和班级信息;还有一个PDF文件,每一页里是格式化的信息,其中包含序号,且序号唯一。遍历PDF每个页面,找到序号对应的班级,加在左下角 二、实现过程找了很多方法......
  • (Java)知其然且知其所以然系列4
    写在开头本系列内容主要涵盖我在深入学习Java过程中对一些知识点的深入理解和巩固。如果内容表达不准确或存在谬误,欢迎在评论区或私信中进行补充或指正~目录Java接口、内部类、包        接口可以继承吗?        接口继承要重写父接口的方法吗?     ......