首页 > 其他分享 >火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔

时间:2024-09-20 18:25:48浏览次数:11  
标签:ASR 语音 开源 点击 SoVITS 模块 GPT

AI正在悄然编织一个日益魔幻的世界!

马斯克跨界献舞,在线空间掀起科幻风潮!

AI 恶搞《黑神话:悟空》博主,一天轻松揽获百万播放,十几万点赞!

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆

.......

在AI快速发展的今天,你是不是也已经洞察到各种商机,却因为不懂技术而裹足不前?

比如《黑神话:悟空》恶搞视频,小编都知道是通过AI克隆声音来实现的,既让人听起来和原声几乎一模一样,还好玩。大家都爱看,看完还愿意点赞、分享。

广泛应用的AI声音克隆,在过去往往意味着需要大量的语音样本和繁琐的操作流程才能实现。但现在,第二代GPT-SoVITS的到来,将彻底改变这一局面。它不仅简化了操作流程,还能以极少量的声音样本快速克隆出逼真的声音。即使是没有技术背景的小白用户,也能在短短一分钟内掌握其使用技巧,轻松实现个性化的声音克隆。

第二代GPT-SoVITS简介

第二代GPT-SoVITS,是由RVC变声器创始人“花儿不哭”与AI音色转换技术Sovits开发者Rcell,联合开发的先进声音克隆与语音合成工具。

这款工具在第一代的基础上进行了多项创新和改进,支持中英日韩粤等多种语言的声音合成,仅需一分钟的音频样本即可训练出高质量的语音模型。

核心优势

· 高质量声音克隆:第二代GPT-SoVITS在处理低质量音频时,能够生成更自然、更流畅的声音。

· 多语言支持:支持中英日韩粤等多种语言的跨语种多情感合成。

· 零样本TTS和Few-shot TTS:底模训练集扩充至5000小时,显著提升了零样本性能,音色更逼真,所需数据集更少。

· 集成工具:集成了UVR5等工具,包括人声伴奏分离、语音切分、降噪、中文ASR和文本标注等功能,简化了训练数据集和模型的创建过程。

· 优化的文本前端:第二代中英文加入多音字优化,提升了文本处理的准确性。

应用场景

· 个性化语音助手:为智能助手或聊天机器人创建个性化的声音,提升用户体验。

· 虚拟角色配音:在游戏、动画或虚拟现实中为虚拟角色提供逼真的语音。

· 有声读物制作:将文本内容转换为语音,制作高质量的有声书籍。

· 无障碍服务:为视障人士或阅读障碍者提供文本到语音的服务,帮助他们更好地获取信息。

· 语音娱乐:制作恶搞音频、模仿明星声音等,提供丰富的娱乐体验。

· 语音隐私保护:改变语音的音色,保护用户的隐私。

· 语音辅助:为听力受损者提供语音辅助,帮助他们更好地识别和理解语音。

Windows本地部署一键整合包

无需复杂的环境配置即可快速上手。

· 一键运行,免安装:下载解压后即可使用,无需复杂的环境配置。

· 无限制使用:不限次数、不限时间、不限设备,无需网络即可使用。

· 极速合成体验:快速生成高质量音频。

· 服务保障:详细的图文视频教程7*12小时一对一在线服务,确保用户快速掌握使用技巧。

保姆级教程

小编提供了详细的视频教程和图文教程资料,确保即使是技术小白,也能在几分钟内熟练上手。

第一步:程序下载及启动

1、下载第二代GPT-SoVITS整合包(下载地址请移步评论区),下载解压之后,可以看到四个文件,如下图:

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_02

2、启动程序:双击【GPT-SoVITS.exe】文件,稍等片刻,小编可以看到程序开始运行(出现程序控制界面),如下图:

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_开源声音克隆_03

请注意:使用工具期间,请勿关闭此窗口(可以最小化)。

当控制界面中【启动进度】达到100%,浏览器会已经自动开启操作界面,如下图:

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_开源声音克隆_04

特别注意:如果没有打开如上界面,可能是因为浏览器兼容问题,这个时候,需要动动你的小手指,将http://localhost:9874/这个地址,复制到你的谷歌浏览器地址栏,按回车键即可。

第二步:素材准备及预处理

1、素材准备

小编提供了学习素材,如下图:

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_AI声音复刻_05

2、前置数据获取工具

· 选择【0-前置数据集获取工具】,点击【开启UVR5-WebUI】按钮,会跳出以下界面(如果没看到这个界面,可能是浏览器兼容问题),并根据以下步骤进行操作:

· 选择模型:选择【onnx_dereverb_By_FoxJoy】模型;

· 输入文件路径:输入文件夹路径(系统自带文件夹路径,按提示输入即可);

· 选择文件格式:选择【wav】无损音质文件格式;

· 点击【转换】:点击转换,开始处理;

· 处理完成:处理完成后,在【输出信息】模块返回“Success”信息,即代表处理成功。

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_06

3、0b-语音切分工具:回到【0-前置数据获取工具】界面,来到【0b-语音切分工具】模块,并进行以下操作:

· 点击【关闭UVR5-WebUI】;

· 输入文件路径:文件路径为上一流程返回的【uvr5_opt】文件夹地址(D:\GPT-SoVITS\output\uvr5_opt);

· 点击【开启语音切割】

· 处理完成:稍等片刻,处理完成后,【语音切割进程输出信息】模块返回“切割结束”信息,即代表处理成功。

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_AI声音复刻_07

4、0bb-语音降噪工具

来到语音降噪工具,文件路径及其他参数设置默认即可:

  • 点击【开启语音降噪】按钮此时【开启语音降噪】的按钮呈半透明状态,说明正在降噪中。
  • 处理完成:稍等片刻,处理完成后,【语音降噪进程输出信息】模块返回“语音降噪任务完成”信息,即代表处理成功。

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_08

50c-中文批量离线ASR工具:

  • 点击【开启离线批量ASR】按钮。
  • 处理完成:稍等片刻,处理完成后,【ASR进程输出信息】模块返回“ASR任务完成 ”信息,即代表处理成功。

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_AI声音复刻_09

特别提示:GPT-SoVITS提供了“达摩ASR(中文)”和“Faster Whisper(多语种)”两种模型选择。如果是克隆中文语音,建议用阿里的达摩ASR,ASR模型尺寸根据显卡来,好卡选择large,识别更精准速度更快。如果是英文或者日韩,ASR模型这里用Faster Whisper,ASR模型尺寸同样根据显卡来,好卡选择large-V3,识别更精准速度更快。

第三步:模型训练及推理

首先回到主界面顶部,小编可以看到【1-GPT-SoVITS-TTS】模块,同时,在该模块下有【1A-训练集格式化工具】、【1B-微调训练】、【1C-推理】三个子模块。下面,我为大家详细讲解:

1、1A训练集格式化

  • 选择【1-GPT-SoVITS-TTS】模块;
  • 输入【模型名】,如“demo1”;
  • 选择【V2】版本;
  • 选择【1A-训练集格式化工具】,其他参数默认;
  • 点击【开启一键三连】;
  • 等待片刻,【一键三连进程输出信息】模块会显示“一键三连进程结束”,即代表任务完成。

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_10

2、1B微调格式化

  • 回到主界面顶部,在【1-GPT-SoVITS-TTS】模块下,选择【IB-微调训练】模块;
  • 点击【开启SoVITS训练】,其他参数及选项默认;
  • 等待片刻,【SoVITS训练进程输出信息】显示“SoVITS训练完成“;
  • 点击【开启GPT训练】按钮,其他参数及选项默认;
  • 等待片刻,【GPT训练进程输出信息】显示“GPT训练完成”。

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_开源声音克隆_11

3、1C-推理/语音合成

  • 回到主界面顶部,在【1-GPT-SoVITS-TTS】模块下,选择【IC-推理】模块;
  • 勾选【启用并行推理版本(推理速度更快)】,点击【开启TTS推理WebUI】

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_12

  • 稍等片刻,浏览器会自动打开一个新的操作界面,如下图:

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_开源声音克隆_13

特别提示:如果系统自动打开的网页,没有显示该界面,可能是浏览器兼容问题。

4、接下来正式开始推理,也就是语音合成的流程:

  • 点击【刷新模型路径】,从GPT模型列表中选择名称“-e15.ckpt”结尾的模型;
  • 从SoVITS模型列表中选择名称“_e8_s120.pth”结尾的模型;
  • 上传参考音频:将【slicer_opt】文件夹中选择一条你认为效果不错的音频上传或拖拽到【请上传并填写参考信息】模块下,文件位置如下图:

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_14

· 选择参考音频语种,根据音频选择对应语种即可;

· 勾选无参考文本模式;

· 输入需要合成的文本:在【需要合成的文本】模块下输入文本;

· 选择合成文本对应的语种;

· 选择切分方式为“按中文句号。切”;

· 点击【合成语音】按钮;

以上操作完成后,在【输出的语音】模块中点击右上角【⬇】按钮,直接保存。也可以在【output】文件夹中以日期命名的文件夹中,找到合成好的音频文件。

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_15

这样,小编就成功克隆了想要的声音模型,并合成自己需要的音频了。

怕麻烦的同学,可以按照以下完整的图文教程进行操作。

火爆开源声音克隆工具:第二代GPT-SoVITS 让你的声音自由飞翔_开源声音克隆_16

是不是很简单?心动了吧?那就马上移步评论区获取吧~

提示及说明

  • 小编分享的仅为AI产品的安装和使用教程,不对其产品的稳定性及可用性负责。
  • 在使用相关技术时,请了解并遵守法律及道德准则。

标签:ASR,语音,开源,点击,SoVITS,模块,GPT
From: https://blog.51cto.com/u_16903227/12067319

相关文章

  • 【9月持续更新】国内ChatGPT-4中文镜像网站整理
      一、国内大模型与ChatGPT的区别国内大模型:主要应用于国内市场,支持本土企业和用户,适用于中文语境下的各类应用,如客服、教育、内容生成等。ChatGPT:具有更广泛的国际适用性,但在中文语境下的应用可能没有国内大模型那样深入和本土化。可以看看实际的对比。可以看到同一个......
  • 【第二代GPT-SoVITS教程】效果确实又好又快,小白也能轻松克隆任何声音!
    AI正编织出一个日益奇幻的世界!马斯克的跨界舞蹈、在线空间的科幻风潮,无不展现出AI技术的魔力。特别是《黑神话:悟空》恶搞视频,通过AI克隆声音,不仅听起来与原声几乎一致,而且趣味十足,赢得了百万播放量和数万点赞。.......在过去,实现高质量的声音克隆往往需要大量的语音样本和复杂的操......
  • 八个 C++ 开源项目,帮助初学者进阶成长
    通过参与或阅读开源项目的源代码,可以帮助你深入理解C++的各种概念和技术。ThreadPool一个简单的C++11线程池实现,只有一个头文件,代码加起来不到100行。GitHub地址:https://github.com/progschj/ThreadPoolsudokuC++实现的命令行数独游戏。600余行代码,初学者也可以轻松学习。......
  • ChatGPT提示词(Prompt)框架
    ChatGPT提示词(Prompt)框架    构建有效的ChatGPT提示词(Prompt)框架的指南,我们提供了几个不同的框架示例,每个框架都旨在帮助用户更精确地指导ChatGPT以完成特定的任务:详细解读:ChatGPT提示词框架解锁ChatGPT的全部潜力R-T-F(Role-Task-Format)PromptExample(示例提示):角色(Role):......
  • Android 他人开源库自定义imageview实现图片圆角,操作简单
    Android他人开源库自定义imageview实现图片圆角,操作简单效果图:1.导入依赖dependencies{implementation'io.github.FlyJingFish:ShapeImageView:1.5.6'}2.ShapeImageView示例<com.flyjingfish.shapeimageviewlib.ShapeImageViewandroid:id="@+id/i......
  • 10个最佳开源智能家居系统(SHS)
    智能家居系统(SHS)是指利用物联网(IoT)、云计算、人工智能等技术,将家中的各种设备(如照明、家电、监控、温控器等)相互连接起来,实现自动化和远程控制的家居管理系统。通过智能手机、平板电脑、语音助手等设备,用户可以随时随地对家中的设备进行监控和操作,提升生活的便利性、安全性和舒适......
  • 文心一言 VS 讯飞星火 VS chatgpt (351)-- 算法导论24.1 2题
    二、证明推论24.3。推论24.3的内容是设是一带权重的源结点为的有向图,其权重函数为。假定图不包含从源结点可以到达的权重为负值的环路,则对于所有结点,存在一条从源结点到结点的路径当且仅当BELLMAN-FORD算法终止时有。如果要写代码,请用go语言。文心一言:为了证明推论24.3并用Go......
  • Kyutai 开源对话模型 Moshi;李飞飞空间智能公司已筹集超过 2.3 亿美元丨 RTE 开发者日
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。 我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个......
  • 还在自己实现责任链?我建议你造轮子之前先看看这个开源项目
    1.前言设计模式在软件开发中被广泛使用。通过使用设计模式,开发人员可以更加高效地开发出高质量的软件系统,提高代码的可读性、可维护性和可扩展性。责任链模式是一种常用的行为型设计模式,它将请求沿着处理链进行发送,直到其中一个处理者对请求进行处理为止。在责任链模式中,通常......
  • MyFlash使用示例——美团点评的开源MySQL闪回工具安装及使用示例
    下载及安装我已经将二进制安装包上传至网盘,点击如下链接进行下载——链接:https://pan.baidu.com/s/1RzuHv6nDiAVMP7yk03bdNg?pwd=jtua提取码:jtua将如下两个二进制文件拷贝至Linux系统PATH路径下将mysqlbinlong20160408重命名为mysqlbinlog1.Howtousecdbinary......