首页 > 其他分享 >Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

时间:2023-09-19 09:57:12浏览次数:48  
标签:总结 Whisper NemoASR OpenAI 语音 GPU ChatGPT

引言

2023年,IT领域的焦点无疑是ChatGPT,然而,同属OpenAI的开源产品Whisper似乎鲜少引起足够的注意。

Whisper是一款自动语音识别系统,可以识别来自99种不同语言的语音并将其转录为文字。

如果说ChatGPT为计算机赋予了大脑,那么Whisper则为其赋予了耳朵。

想象一下,在企业应用领域,我们能够利用Whisper将语音转化为文字,然后再借助ChatGPT来进行翻译或总结。

接下来,我们将以实际操作为出发点,逐步向您介绍如何利用AI实现音频、视频的内容总结。

 

前期准备

GPU

首先,我们需要解决硬件方面的问题。

虽然OpenAI提供了HTTP API来调用Whisper,但对于企业而言,将内部内容交给OpenAI始终存在一定的安全风险。

本地运行AI模型则需要大量的计算资源。

如果仅使用CPU进行计算,一个大约10分钟的语音转录任务可能需要花费4倍以上的时间。

因此,我们必须引入GPU进行计算加速。

考虑到Colab在国内无法访问,我们建议在Kaggle上运行演示。

请大家注册Kaggle账户,并完成手机号验证(Kaggle的GPU需要完成手机号验证后才能使用)。

00164f6d0b55250aa2648c3456dad0d

Azure ChatGPT

ChatGPT是我们语音内容总结的核心工具。

我们建议使用Azure OpenAI服务。

您可以参考以下文章来申请:Azure OpenAI Service申请教程

 

kintone

kintone是我们用来存储记录的平台。我们需要创建一个名为“Reports”的应用程序(APP),并定义以下表单字段:

运行

您可以在这里找到演示代码:

https://github.com/kintone-samples/SAMPLE-kintone-narrator-cn

点击“open in kaggle”。

00164f6dc8a7463221b0c1bb9b2d132

请按照以下步骤操作:

1.点击Edit,进入编辑状态

00164f6dd30805db352f635f6511303

2.在右侧的Notebook options中,我们需要将Acceleator选为GPU T4*2

00164f6de1cb8f79ede4e3cedd09de5

00164f6de75531264fadfc118551c7e

注:

  1. 没验证手机的账户不会显示Acceleator选项。

  2. GPU P100不支持当前默认float16运算,选择该显卡的用户请将“语音转录&对齐”中的compute_type设为float32。

  3. TPU尚未测试支持。

     

 

 

3.找到名为“Azure OpanAI ChatGPT 总结”和“将总结内容上传”的代码单元(cell),然后根据您自己的环境设置进行配置。

00164f6e1d975a5e44ae378895cf138

00164f6e294a2cedda5abe87c7d923b

4.点击页面上方的“Run All”按钮以开始运行演示。

00164f6e0f2c6d0a761f9e64df41428

等待程序运行结束即可。

下面我将对会每个代码单元的功能进行简要说明,感兴趣的可以继续往下研究:

点击

标签:总结,Whisper,NemoASR,OpenAI,语音,GPU,ChatGPT
From: https://www.cnblogs.com/cybozu/p/17713810.html

相关文章

  • 使用ChatGPT控制IoT设备
    链接:https://mp.weixin.qq.com/s?__biz=MzI1NTIzMTk0Ng==&mid=2247484882&idx=1&sn=18ca197854a046f7ec8b5a6ba1651c44&chksm=ea385777dd4fde619896affc7e678970418d81d784aa2c00ad999286cf5ec376cc16e7fd5446&mpshare=1&scene=1&srcid=0918IZleT......
  • 亚马逊云科技Amazon CodeWhisperer支持15种变种语言,为代码提供个性化建议
    AmazonCodeWhisperer介绍 AmazonCodeWhisperer是亚马逊云科技出品的一款基于机器学习的通用代码生成器,可实时提供代码建议。类似Cursor和GithubCopilot编码工具。在编写代码时,它会自动根据您现有的代码和注释生成建议。从单行代码建议到完整的函数,它可为您提供各种大小和范围的......
  • 文心一言 VS 讯飞星火 VS chatgpt (94)-- 算法导论9.2 3题
    三、用go语言,给出RANDOMIZED-SELECT的一个基于循环的版本。文心一言:在循环中实现RANDOMIZED-SELECT的一个版本可以如下所示。这个版本使用Go语言编写,利用随机化来选择一个元素,并在循环中不断地调整选择的元素,直到找到目标元素。packagemainimport("fmt""m......
  • 文心一言 VS 讯飞星火 VS chatgpt (94)-- 算法导论9.2 3题
    三、用go语言,给出RANDOMIZED-SELECT的一个基于循环的版本。文心一言:在循环中实现RANDOMIZED-SELECT的一个版本可以如下所示。这个版本使用Go语言编写,利用随机化来选择一个元素,并在循环中不断地调整选择的元素,直到找到目标元素。packagemainimport("fmt""math/......
  • 【译】使用 ChatGPT 和 Azure Cosmos DB 构建智能应用程序
    原文|MarkBrown翻译|郑子铭随着对智能应用程序的需求不断增长,开发人员越来越多地转向人工智能(AI)和机器学习(ML),以增强其应用程序的功能。聊天机器人已经成为提供对话式人工智能的最流行方式之一。ChatGPT是OpenAI开发的大型语言模型(LLM),是构建能够理解自然语言并提供智能响应的聊......
  • ChatGPT的未来
    随着人工智能的快速发展,ChatGPT作为一种自然语言生成模型,在各个领域都展现出了巨大的潜力。它不仅可以用于日常对话、创意助手和知识查询,还可以应用于教育、医疗、商业等各个领域,为人们带来更多便利和创新。在教育领域,ChatGPT可以成为学生的学习伙伴和辅导员。学生可以通过......
  • RTE 领域近期词云统计发布;谷歌开始新一轮「瘦身」计划;使用ChatGPT之后智力提高 50%丨R
    开发者朋友们大家好:这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。不知不觉,我们的日报已经发布了50期,作为RTE领域最垂直的日报栏目,我们的社区编辑团队会整理分享RTE(RealTimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考......
  • 文心一言 VS 讯飞星火 VS chatgpt (92)-- 算法导论8.3 5题
    五、用go语言,在本节给出的第一个卡片排序算法中,为排序d位十进制数,在最坏情况下需要多少轮排序?在最坏情况下,操作员需要记录多少堆卡片?文心一言:你提到的第一个卡片排序算法可能是指的基数排序(RadixSort)。基数排序是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数......
  • 文心一言 VS 讯飞星火 VS chatgpt (92)-- 算法导论8.3 5题
    五、用go语言,在本节给出的第一个卡片排序算法中,为排序d位十进制数,在最坏情况下需要多少轮排序?在最坏情况下,操作员需要记录多少堆卡片?文心一言:你提到的第一个卡片排序算法可能是指的基数排序(RadixSort)。基数排序是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的......
  • whisper/fast-whipser/baidu-aip-AipSpeech对比
    是什么whisperOpeanAI推出的多语言语音识别模型,通过了68万小时的语音数据训练,支持99种语言,英文识别准确率非常惊艳。更重要的是,它开源免费,在电脑上就能离线使用。fast-whisper处理速度更快的whisper,具有完全的whsiper模型参数,且自带VAD加持。它使用了CTranslate2来重......