首页 > 其他分享 >音频处理实用AI工具

音频处理实用AI工具

时间:2023-10-16 14:56:27浏览次数:48  
标签:AI whisper 音频 实用 mp3 使用 工具 model

最近在做音频处理相关的工作,主要有以下几个好用的工具。

 

1. 语音转文字——whisper

这是一款由OpenAI开发的语音转文字工具,项目地址位于:openai/whisper.

这个工具是用来生成字幕的,现在的很多视频编辑软件也有“一键生成字幕”的功能。使用此工具需要提前安装好PyTorch和ffmpeg(做音视频的基本绕不开它),具体的安装过程大家可以参考使用文档,文档里写得比较详细。

在命令行中使用

基本使用方法如下:

whisper audio.mp3 --model medium
  • audio.mp3是待处理的音频文件,whisper支持多种音频格式,例如flac, mp3, wav等。
  • --model指定使用的模型,有tiny, base, small, medium, large五种,如果不指定此参数,则默认为small.

执行完成后你就能在当前目录下找到生成的字幕文件了。第一次使用时会从网上下载模型,需要点时间。

执行以下命令获取更多帮助:

whisper --help

作为Python库使用

使用示例如下:

import whisper  # 导入whisper库


model = whisper.load_model("base")  # 加载模型, 这里加载的是base模型
result = model.transcribe("audio.mp3")  # 处理音频文件audio.mp3
print(result["text"])  # 得到处理后的文本

 

2. 人声与背景声分离——SpeeterGUI

如果一段音频里有人声,还有背景音乐,使用这个工具就可以将人声与背景音乐分离开。项目的地址位于:deezer/spleeter.

不过,更推荐大家使用基于此应用开发的图形界面工具SpeeterGUI:

下载地址位于https://makenweb.com/SpleeterGUI. 环境都帮你配置好了,用起来非常方便。如果使用时报错,可以在这里找到常见问题的解答。

 

3. 传统音频处理工具

在实际使用中,还需要一些传统的音频处理工具,例如librosa. 下面给出使用librosa获取音频文件总时长的例子:

import librosa

n_second = librosa.get_duration(path='C:\\music.mp3')

其它用法还请大家自行查阅文档。

标签:AI,whisper,音频,实用,mp3,使用,工具,model
From: https://www.cnblogs.com/overxus/p/17748115.html

相关文章

  • 阿里云日志服务-Logtail配置
    配置名称:日志路径:/www/wwwroot/yf/yyyy/application/storage//∗∗/指定文件夹下所有符合文件名称的文件都会被监控到(包含所有层次的目录),文件名称可以是完整名,也支持通配符模式匹配,支持使用环境变量,如${install_path}/log。Linux文件路径只支持“/”开头,例:/apsara/......
  • 用友U8 同步许可提示failed 1091,sync license unknown error?
    软件版本:用友U816.5问题:许可管理--导入许可--在线同步许可报错解决办法:服务器上面找到U8的应用服务器,停止所有的U8服务;将软件安装目录/U8SOFT/SoftSeccurity/data中的.temp文件剪切放到其他的文件下做并备份;重新启动U8服务;打开许可管理--导入许可---重新导入许可文件,重新......
  • 【分布式】解决树莓派4B-64位更换清华源问题(GPG error:because the public key is no
    【分布式】解决树莓派4B-64位更换清华源问题(GPGerror:becausethepublickeyisnotavailable)别出BUG求求了于2022-04-3016:15:38发布阅读量3.1k收藏18点赞数7分类专栏:分布式文章标签:debianbash树莓派清华源publickey版权分布式专栏收录该内容18篇文章1......
  • AI厂家
    识渊科技(sailyond.com)https://www.sailyond.com/#/core-tech/automl  ......
  • USACO 2021.12 Platinum Paired Up
    洛谷传送门LOJ传送门如果\(T=1\),可以把重量全部取相反数转化成\(T=2\)。接下来只考虑\(T=2\)的情况。下文的\(m\)代表原题中的\(K\)。设第\(i\)个G牛的位置和重量分别为\(a_{0,i},b_{0,i}\),第\(i\)个H牛的位置和重量分别为\(a_{1,i},b_{1,i}\)......
  • Tailwind CSS 速查
    TailwindCSS提供了大量的实用程序类,这些类名都是使用缩写的方式,以更简洁地表述其含义。以下是一些常用的TailwindCSS缩写及其对应的意义:布局w:widthmax-w:max-widthh:heightmax-h:max-heightm:marginmt:margin-topmb:margin-bottomml:mar......
  • 【前端开发】新版Chrome浏览器接口mock调试技巧,超实用
    给大家分享一个 Chrome117 更新中最实用的一个功能:在Network面板中发送mock请求。修改返回响应数据想要修改接口返回的数据,设置成特定的数据,首先打开 网络(Network) 面板,找到你需要Mock的接口,右键然后选择替换内容(Overridecontent): 这时候浏览器会提示:选择要用来......
  • 别再吹捧什么区块链,元宇宙,Web3了,真正具有颠覆性的估计只有AI
    「感谢你阅读本文!」别再吹捧什么区块链,元宇宙,Web3了,真正具有颠覆性的估计只有AI。我们这个社会有这样一个特性,就是出现一个新事物,新概念,新技术,先不管是否真的现实,是否真的了解,第一件事首先要做的就是先圈一波钱,不过繁华终将逝去,经得起推荐者才能长存。区块链自从2008年比特币......
  • 部署项目 Failure obtaining db row lock: Table ‘XXX.qrtz_LOCKS‘ doesn‘t exist
    系统环境centos7MySQL5.7原因:mysql对表大小写有要求,但是当时创建表的时候都是小写,所以说就查不到qrtz_LOCKS这张表,所以就报错了解决办法:找到mysql的配置文件my.cnf路径在etc/my.cnfcdetcvimmy.cnf此时点击A键触发编辑命令然后找到位置输入lower_case_table_names......
  • [Ubuntu 20.04] 修复‘systemd-shutdown[1]: waiting for process: crond’需等待1分
    由于在2020-2021年期间下载过Linux版本的FreeDownloadManager(简称FDM,一款免费但不开源的跨平台下载工具),而该软件的官网被挂了木马,因此在此期间下载安装过FDM的Linux用户,其定时任务crond中都被挂上了木马。具体现象为,关机时需要等待1分30秒,系统显示‘systemd-shutdown[1]:waiti......