1. 语音转文字——whisper

这是一款由OpenAI开发的语音转文字工具，项目地址位于：openai/whisper.

这个工具是用来生成字幕的，现在的很多视频编辑软件也有“一键生成字幕”的功能。使用此工具需要提前安装好PyTorch和ffmpeg（做音视频的基本绕不开它），具体的安装过程大家可以参考使用文档，文档里写得比较详细。

在命令行中使用

基本使用方法如下：

whisper audio.mp3 --model medium

audio.mp3是待处理的音频文件，whisper支持多种音频格式，例如flac, mp3, wav等。
--model指定使用的模型，有tiny, base, small, medium, large五种，如果不指定此参数，则默认为small.

执行完成后你就能在当前目录下找到生成的字幕文件了。第一次使用时会从网上下载模型，需要点时间。

执行以下命令获取更多帮助：

whisper --help

作为Python库使用

使用示例如下：

import whisper  # 导入whisper库


model = whisper.load_model("base")  # 加载模型, 这里加载的是base模型
result = model.transcribe("audio.mp3")  # 处理音频文件audio.mp3
print(result["text"])  # 得到处理后的文本

2. 人声与背景声分离——SpeeterGUI

如果一段音频里有人声，还有背景音乐，使用这个工具就可以将人声与背景音乐分离开。项目的地址位于：deezer/spleeter.

不过，更推荐大家使用基于此应用开发的图形界面工具SpeeterGUI：

下载地址位于https://makenweb.com/SpleeterGUI. 环境都帮你配置好了，用起来非常方便。如果使用时报错，可以在这里找到常见问题的解答。

3. 传统音频处理工具

在实际使用中，还需要一些传统的音频处理工具，例如librosa. 下面给出使用librosa获取音频文件总时长的例子：

import librosa

n_second = librosa.get_duration(path='C:\\music.mp3')

其它用法还请大家自行查阅文档。

标签：AI,whisper,音频,实用,mp3,使用,工具,model
From： https://www.cnblogs.com/overxus/p/17748115.html

阿里云日志服务-Logtail配置
配置名称：日志路径：/www/wwwroot/yf/yyyy/application/storage//∗∗/指定文件夹下所有符合文件名称的文件都会被监控到（包含所有层次的目录），文件名称可以是完整名，也支持通配符模式匹配，支持使用环境变量，如${install_path}/log。Linux文件路径只支持“/”开头，例：/apsara/......
用友U8 同步许可提示failed 1091,sync license unknown error?
软件版本：用友U816.5问题：许可管理--导入许可--在线同步许可报错解决办法：服务器上面找到U8的应用服务器，停止所有的U8服务；将软件安装目录/U8SOFT/SoftSeccurity/data中的.temp文件剪切放到其他的文件下做并备份；重新启动U8服务；打开许可管理--导入许可---重新导入许可文件，重新......
【分布式】解决树莓派4B-64位更换清华源问题(GPG error:because the public key is no
【分布式】解决树莓派4B-64位更换清华源问题(GPGerror:becausethepublickeyisnotavailable)别出BUG求求了于2022-04-3016:15:38发布阅读量3.1k收藏18点赞数7分类专栏：分布式文章标签：debianbash树莓派清华源publickey版权分布式专栏收录该内容18篇文章1......
AI厂家
识渊科技(sailyond.com)https://www.sailyond.com/#/core-tech/automl ......
USACO 2021.12 Platinum Paired Up
洛谷传送门LOJ传送门如果$T=1$，可以把重量全部取相反数转化成$T=2$。接下来只考虑$T=2$的情况。下文的$m$代表原题中的$K$。设第$i$个G牛的位置和重量分别为$a_{0,i},b_{0,i}$，第$i$个H牛的位置和重量分别为$a_{1,i},b_{1,i}$......
Tailwind CSS 速查
TailwindCSS提供了大量的实用程序类，这些类名都是使用缩写的方式，以更简洁地表述其含义。以下是一些常用的TailwindCSS缩写及其对应的意义：布局w:widthmax-w:max-widthh:heightmax-h:max-heightm:marginmt:margin-topmb:margin-bottomml:mar......
【前端开发】新版Chrome浏览器接口mock调试技巧，超实用
给大家分享一个 Chrome117 更新中最实用的一个功能：在Network面板中发送mock请求。修改返回响应数据想要修改接口返回的数据，设置成特定的数据，首先打开网络(Network) 面板，找到你需要Mock的接口，右键然后选择替换内容(Overridecontent)：这时候浏览器会提示：选择要用来......
别再吹捧什么区块链，元宇宙，Web3了，真正具有颠覆性的估计只有AI
「感谢你阅读本文！」别再吹捧什么区块链，元宇宙，Web3了，真正具有颠覆性的估计只有AI。我们这个社会有这样一个特性，就是出现一个新事物，新概念，新技术，先不管是否真的现实，是否真的了解，第一件事首先要做的就是先圈一波钱，不过繁华终将逝去，经得起推荐者才能长存。区块链自从2008年比特币......
部署项目 Failure obtaining db row lock: Table ‘XXX.qrtz_LOCKS‘ doesn‘t exist
系统环境centos7MySQL5.7原因：mysql对表大小写有要求，但是当时创建表的时候都是小写，所以说就查不到qrtz_LOCKS这张表，所以就报错了解决办法：找到mysql的配置文件my.cnf路径在etc/my.cnfcdetcvimmy.cnf此时点击A键触发编辑命令然后找到位置输入lower_case_table_names......
[Ubuntu 20.04] 修复‘systemd-shutdown[1]: waiting for process: crond’需等待1分
由于在2020-2021年期间下载过Linux版本的FreeDownloadManager（简称FDM，一款免费但不开源的跨平台下载工具），而该软件的官网被挂了木马，因此在此期间下载安装过FDM的Linux用户，其定时任务crond中都被挂上了木马。具体现象为，关机时需要等待1分30秒，系统显示‘systemd-shutdown[1]:waiti......

音频处理实用AI工具

1. 语音转文字——whisper

在命令行中使用

作为Python库使用

2. 人声与背景声分离——SpeeterGUI

3. 传统音频处理工具

相关文章

赞助商

阅读排行