使用OpenAI的Whisper 模型进行语音识别

时间：2023-01-28 10:55:18浏览次数：56

语音识别是人工智能中的一个领域，它允许计算机理解人类语音并将其转换为文本。该技术用于 Alexa 和各种聊天机器人应用程序等设备。而我们最常见的就是语音转录，语音转录可以语音转换为文字记录或字幕。

wav2vec2、Conformer 和 Hubert 等最先进模型的最新发展极大地推动了语音识别领域的发展。这些模型采用无需人工标记数据即可从原始音频中学习的技术，从而使它们能够有效地使用未标记语音的大型数据集。它们还被扩展为使用多达 1,000,000 小时的训练数据，远远超过学术监督数据集中使用的传统 1,000 小时，但是以监督方式跨多个数据集和领域预训练的模型已被发现表现出更好的鲁棒性和对持有数据集的泛化，所以执行语音识别等任务仍然需要微调，这限制了它们的全部潜力。为了解决这个问题OpenAI 开发了 Whisper，一种利用弱监督方法的模型。

本文将解释用于训练的数据集的种类以及模型的训练方法，以及如何使用Whisper

Whisper 模型介绍

使用数据集：

Whisper模型是在68万小时标记音频数据的数据集上训练的，其中包括11.7万小时96种不同语言的演讲和12.5万小时从”任意语言“到英语的翻译数据。该模型利用了互联网生成的文本，这些文本是由其他自动语音识别系统(ASR)生成而不是人类创建的。该数据集还包括一个在VoxLingua107上训练的语言检测器，这是从YouTube视频中提取的短语音片段的集合，并根据视频标题和描述的语言进行标记，并带有额外的步骤来去除误报。

模型：

主要采用的结构是编码器-解码器结构。

重采样:16000 Hz

特征提取方法:使用25毫秒的窗口和10毫秒的步幅计算80通道的log Mel谱图表示。

特征归一化:输入在全局内缩放到-1到1之间，并且在预训练数据集上具有近似为零的平均值。

编码器/解码器:该模型的编码器和解码器采用Transformers。

编码器的过程：

编码器首先使用一个包含两个卷积层(滤波器宽度为3)的词干处理输入表示，使用GELU激活函数。

第二个卷积层的步幅为 2。

然后将正弦位置嵌入添加到词干的输出中，然后应用编码器 Transformer 块。

Transformers使用预激活残差块，编码器的输出使用归一化层进行归一化。

模型框图：

完整文章：

https://avoid.overfit.cn/post/acab33d88ef54228ad50b8a66324659f

标签：编码器,Whisper,模型,OpenAI,语音,使用,数据
From： https://www.cnblogs.com/deephub/p/17069837.html

跟着思兼学习Klipper(19) 通知系统：蜂鸣器、语音播报与手机消息通知
前言原创文章，转载引用请务必注明链接，水平有限，如有疏漏，欢迎指正交流。本文目的在于交流，其中原创内容禁止一切非授权商业行为。文章如有更新请访问DFRobot社区或者cnb......
56python文字转语音
首先安装依赖库pyttsx3pipinstallpyttsx3再来看具体的实例importpyttsx3engine=pyttsx3.init()engine.say("Helloworld!")engine.runAndWait()执行上述脚......
Python语音识别
Python语音识别需求：用代码将录音转成文字，常规普通话，不是播音员那种标准发音。结论：无论在线或是离线，用代码调用的效果都不太理想。1、离线模式参考：https://blog.csdn.n......
openai-chatgpt申请及使用
收短信1.登录短信平台并注册账户https://sms-activate.org/rent2.充值支付方式选支付宝一般充1元人民币，充值的时候只能充美元，所以按照汇率算一下也就是0.1474美元，再加......
Nvidia在机器学习方面的CUDA垄断是如何打破的-OpenAI Triton和PyTorch 2.0？
Nvidia在机器学习方面的CUDA垄断是如何打破的-OpenAITriton和PyTorch2.0？在过去十年中，机器学习软件开发的格局发生了重大变化。许多框架来来往往，但大多数都严重依赖于利......
语音助手-智能家居
文章结构：项目概述成品预览项目框架文档，代码项目槽点 -项目概述-寝室里，我离门最远，寝室的大学牲小朋友们却总是早早的爬上了床，要我去开门关灯，这很烦！技术......
C#.Net开发chatGPT、openAI
C#/.Net开发chatGPT、openAI最近ChatGPT火爆了，自己使用了一下，确实厉害。但是使用官方网站不支持国内访问，好在国内可以使用API调用，所以自己折腾一番，使用C#来调用API。获取......
闻其声而知雅意,基于Pytorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python
前文回溯，之前一篇：含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入)，利用AI技术将文本合成语音，现在反过来，利用开源库Whisper再将语音转回......
语音通知插件
SoundNotify组件简介消息通知组件。支持文字转语音、音频播报、桌面通知。下载GitHubGitee效果在线体验地址：GitHub示例<!doctypehtml><htmllang="zh">......
人工智能之语音识别技术的重要性
语言是人与人之间沟通的桥梁，语音识别技术涵盖多种学科，包括语音学、计算机学、心理学、声学等。作为人工智能领域最成熟、落地最快的技术，语音识别技术改变了互联网交互方式，......

使用OpenAI的Whisper 模型进行语音识别

Whisper 模型介绍

相关文章

赞助商

阅读排行