ASR-使用whisper语音识别

时间：2024-10-23 14:10:15浏览次数：7

标签：ASR whisper result 语音 mel model audio probs

安装如下一些依赖:

ffmpeg-python
transformers

使用如下代码进行识别:

import whisper

model = whisper.load_model("small.pt")
result = model.transcribe("output_audio.wav")
print(result["text"])

另一个更为底层的调用方法:

audio = whisper.load_audio("output.wav")
audio = whisper.pad_or_trim(audio)

mel = whisper.log_mel_spectrogram(audio).to(model.device)
_,probs = model.detect_language(mel)
print("Detected language: {}".format(max(probs, key=probs.get)))
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)
print("You say:",result.text)

其中模型可以打开__init__.py文件进行复制,如small模型在https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt。

参考文章:

https://github.com/openai/whisper/tree/v20230306

标签：ASR,whisper,result,语音,mel,model,audio,probs
From： https://www.cnblogs.com/commuter/p/18496268

微信小游戏实时语音
微信小游戏实时语音1.开通实时语音服务。(开通条件:注册用户大于1000)打开微信小游戏后台(微信公众平台)，依次打开设置->游戏设置→开通语音服务2.关于里面的几个重要api:创建/加入房间：wx.joinVoIPChat离开房间：wx.exitVoIPChat更新房间麦克风/耳机静音设置：wx.updateVoIPChat......
NVR接入录像回放平台EasyCVR视频融合平台语音对讲配置
国标GB28181视频平台EasyCVR视频融合平台可拓展性强、视频能力灵活，平台可提供视频监控直播、云端录像、云存储、录像检索与回看、智能告警、平台级联、云台控制、语音对讲、智能分析接入等功能。其中，在语音对讲方面，NVR接入录像回放平台目前可兼容海康、大华、宇视等设备的对讲。今......
新 Chrome 插件可检测 AI 伪造声音；Canary Speech 推出用于临床对话的语音分析技术丨 R
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（Real-TimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编......
AI人声克隆，只需几秒语音，无需下载，小程序随时随地免费使用
AI人声克隆，只需几秒语音，无需下载，小程序随时随地免费使用提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加【探索声音的无尽可能——“**幻音堂ai配音”**小程序】AI声音克隆技术是一种利用人工智能技术，根据一段声音样本，生成与之相似或完全相同的声音的......
Meta 最新 SPIRIT-LM：语音文本无缝转换还能懂情绪；字节回应实习生破坏大模型训练：网传损
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（Real-TimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表......
搭子陪玩伴游线上游戏陪玩付费语音陪聊系统源码线下家政源码一体式部署（h5+小程序+app）
该平台将满足用户寻找旅行搭子、日常活动搭子、陪伴及享受本地生活服务的需求，同时通过商城分销模式为商家提供新的销售渠道，实现用户、商家与平台的共赢。通过整合线上线下资源，提供一站式服务体验，满足用户多样化需求，同时为商家和合作伙伴创造更多商业价值。现在的年轻人，最常见......
Matlab使用LSTM或BiLSTM对一维信号(语音信号、心电信号等)进行二分类源程序。也可以改
Matlab使用LSTM或BiLSTM对一维信号(语音信号、心电信号等)进行二分类源程序。也可以改成多分类。包含数据和代码，数据可以直接替换为自己的数据。如果用BiLSTM，程序中只需要把lstmlayer改为bilstmlayer即为BiLSTM网络，其他地方不需要任何改动。工作如下：1、加载数据集，一共为......
OpenAI重磅发布GPT-4O-Audio-Preview 语音也能“读懂”情绪！
OpenAI再次引领人工智能技术潮流，推出了全新的gpt-4o-audio-preview模型。这款模型不仅在语音生成和分析方面展现出惊人的能力，还为人机交互开辟了新的可能性。让我们深入了解这款创新模型的特性及其潜在应用。gpt-4o-audio-preview的核心功能包括三大方面:首先，它能够根据文......
AIGC时代的语音笔记工具，创意人士的福音
国庆期间，我发现了一款特别好用的语音笔记工具，它应该算是AIGC时代的新一代笔记工具了。这个工具，是那些随时会有创意想法要记录，或者经常需要做会议纪要，读书笔记的人福音。它有几个功能让我特别喜欢。第一个是语音笔记功能，这个不像科大讯飞的语音输入法，它不仅仅是简单地将语音转成文......
EPUB to Audiobook: 一个简单而强大的电子书转语音工具
EPUBtoAudiobook:将电子书转换为有声读物的强大工具在这个数字化时代,有声读物正变得越来越受欢迎。它们为忙碌的现代人提供了一种便捷的阅读方式,让我们可以在通勤、做家务或锻炼时"阅读"书籍。然而,并非所有的书籍都有相应的有声版本。这就是EPUBtoAudiobook工具发挥作用的......

ASR-使用whisper语音识别

相关文章

赞助商

阅读排行