首页 > 其他分享 > 实用模型推荐(三)语音转文本模型:whisper

实用模型推荐(三)语音转文本模型:whisper

时间:2023-06-27 12:12:43浏览次数:56  
标签:__ transcribe whisper 模型 file import 文本 audio

1.开原地址:https://github.com/openai/whisper

                  https://github.com/guillaumekln/faster-whisper

2.使用场景:语音转文字

3.api封装:

import os
import uvicorn
from fastapi import FastAPI, UploadFile, File
from whisper import load_model

app = FastAPI()
model = load_model("large")

def transcribe_audio(audio_file):
    if not audio_file.filename.endswith((".wav", ".mp3")):
        raise ValueError("Invalid audio file. Supported formats: .wav, .mp3")
    
    file_path = os.path.join("D:/save", audio_file.filename)
    with open(file_path, "wb") as f:
        f.write(audio_file.file.read())
    
    result = model.transcribe(file_path)
    return result["text"]

@app.post("/transcribe")
async def transcribe(upload: UploadFile = File(...)):
    try:
        transcription = transcribe_audio(upload)
        return {"transcription": transcription}
    except Exception as e:
        return {"error": str(e)}

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=11120)

 

    

标签:__,transcribe,whisper,模型,file,import,文本,audio
From: https://www.cnblogs.com/AmbitiousMice/p/17508339.html

相关文章

  • 在 MySQL 中,如果要存储大文本数据,改如何选择
    在MySQL中,如果要存储大文本数据,可以选择以下两种数据类型:TEXT:适用于存储较长的文本数据,最大长度为65,535个字符。LONGTEXT:适用于存储非常大的文本数据,最大长度为4,294,967,295个字符。选择使用哪种类型主要取决于文本数据的大小。如果文本数据的长度不超过65,535个字符......
  • 在 MySQL 中,如果要存储大文本数据,改如何选择
    在MySQL中,如果要存储大文本数据,可以选择以下两种数据类型:TEXT:适用于存储较长的文本数据,最大长度为65,535个字符。LONGTEXT:适用于存储非常大的文本数据,最大长度为4,294,967,295个字符。选择使用哪种类型主要取决于文本数据的大小。如果文本数据的长度不超过65,535个字符,可以使用TE......
  • 在 MySQL 中,如果要存储大文本数据,改如何选择
    在MySQL中,如果要存储大文本数据,可以选择以下两种数据类型:TEXT:适用于存储较长的文本数据,最大长度为65,535个字符。LONGTEXT:适用于存储非常大的文本数据,最大长度为4,294,967,295个字符。选择使用哪种类型主要取决于文本数据的大小。如果文本数据的长度不超过65,535个字符,可以使用TE......
  • 在 MySQL 中,如果要存储大文本数据,改如何选择
    在MySQL中,如果要存储大文本数据,可以选择以下两种数据类型:TEXT:适用于存储较长的文本数据,最大长度为65,535个字符。LONGTEXT:适用于存储非常大的文本数据,最大长度为4,294,967,295个字符。选择使用哪种类型主要取决于文本数据的大小。如果文本数据的长度不超过65,535个字符......
  • 实用模型推荐(二)中译英翻译模型:opus-mt-zh-en
    1.开源地址:https://huggingface.co/Helsinki-NLP/opus-mt-zh-en2.使用场景:中译英,多模型场景的中英转换3.API封装importuvicornfromfastapiimportFastAPIfromloguruimportloggerfrompydanticimportBaseModelfromstarlette.middleware.corsimportCORSMiddle......
  • phi-1:高质量小数据小模型逆袭大模型
    人工智能的三个核心要素是算力、算法和数据,这是大多数人在初识人工智能时都会接触到的一个观点。不过,在深入阐述该观点时,很多材料都倾向于解释数据「大」的一面,毕竟当前的大模型一直在由不断增加的「大数据」来推动,而且这条路似乎还没有走到极限。不过,随着数据获取难度增加以及......
  • LLaMA模型微调版本 Vicuna 和 Stable Vicuna 解读
    Vicuna和StableVicuna都是LLaMA的微调版本,均遵循CCBY-NC-SA-4.0协议,性能方面Stable版本更好些。CCBY-NC-SA-4.0是一种知识共享许可协议,其全称为"署名-非商业性使用-相同方式共享4.0国际"。即用的时候要署名原作者,不能商用,下游使用也必须是相同的共享原则。VicunaVicun......
  • 实用模型推荐(一)相似度,文本向量化:text2vec-base-chinese
    1.开源地址:https://github.com/shibing624/text2vec2.使用场景:文本相似度计算,文本转指令3.API封装:importuvicornfromfastapiimportFastAPIfromloguruimportloggerfrompydanticimportBaseModelfromstarlette.middleware.corsimportCORSMiddlewarefromte......
  • LangKit:大语言模型界的“安全管家”
    ChatGPT等大语言模型一直有生成虚假信息、数据隐私、生成歧视信息等难题,阻碍了业务场景化落地。为了解决这些痛点并增强大语言模型的安全性,AI和数据监控平台WhyLabs推出了LangKit。(开源地址:https://github.com/whylabs/langkit)LangKit提供文本输入/输出监控、安全和隐私、情绪分......
  • 李彦宏:AI原生应用比大模型数量更重要
    6月26日,百度创始人、董事长兼首席执行官李彦宏出席“世界互联网大会数字文明尼山对话”,发表了题为《大模型重塑数字世界》的演讲。大模型是当下全球科技创新的焦点,也是全球人工智能竞赛的主战场。李彦宏认为,“新的国际竞争战略关键点,不是一个国家有多少个大模型,而是你的大模型上有......