火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔

AI正在悄然编织一个日益魔幻的世界！

马斯克跨界献舞，在线空间掀起科幻风潮！

AI 恶搞《黑神话：悟空》博主，一天轻松揽获百万播放，十几万点赞！

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆

.......

在AI快速发展的今天，你是不是也已经洞察到各种商机，却因为不懂技术而裹足不前？

比如《黑神话：悟空》恶搞视频，小编都知道是通过AI克隆声音来实现的，既让人听起来和原声几乎一模一样，还好玩。大家都爱看，看完还愿意点赞、分享。

广泛应用的AI声音克隆，在过去往往意味着需要大量的语音样本和繁琐的操作流程才能实现。但现在，第二代GPT-SoVITS的到来，将彻底改变这一局面。它不仅简化了操作流程，还能以极少量的声音样本快速克隆出逼真的声音。即使是没有技术背景的小白用户，也能在短短一分钟内掌握其使用技巧，轻松实现个性化的声音克隆。

第二代GPT-SoVITS简介

第二代GPT-SoVITS，是由RVC变声器创始人“花儿不哭”与AI音色转换技术Sovits开发者Rcell，联合开发的先进声音克隆与语音合成工具。

这款工具在第一代的基础上进行了多项创新和改进，支持中英日韩粤等多种语言的声音合成，仅需一分钟的音频样本即可训练出高质量的语音模型。

核心优势

· 高质量声音克隆：第二代GPT-SoVITS在处理低质量音频时，能够生成更自然、更流畅的声音。

· 多语言支持：支持中英日韩粤等多种语言的跨语种多情感合成。

· 零样本TTS和Few-shot TTS：底模训练集扩充至5000小时，显著提升了零样本性能，音色更逼真，所需数据集更少。

· 集成工具：集成了UVR5等工具，包括人声伴奏分离、语音切分、降噪、中文ASR和文本标注等功能，简化了训练数据集和模型的创建过程。

· 优化的文本前端：第二代中英文加入多音字优化，提升了文本处理的准确性。

应用场景

· 个性化语音助手：为智能助手或聊天机器人创建个性化的声音，提升用户体验。

· 虚拟角色配音：在游戏、动画或虚拟现实中为虚拟角色提供逼真的语音。

· 有声读物制作：将文本内容转换为语音，制作高质量的有声书籍。

· 无障碍服务：为视障人士或阅读障碍者提供文本到语音的服务，帮助他们更好地获取信息。

· 语音娱乐：制作恶搞音频、模仿明星声音等，提供丰富的娱乐体验。

· 语音隐私保护：改变语音的音色，保护用户的隐私。

· 语音辅助：为听力受损者提供语音辅助，帮助他们更好地识别和理解语音。

Windows本地部署一键整合包

无需复杂的环境配置即可快速上手。

· 一键运行，免安装：下载解压后即可使用，无需复杂的环境配置。

· 无限制使用：不限次数、不限时间、不限设备，无需网络即可使用。

· 极速合成体验：快速生成高质量音频。

· 服务保障：详细的图文和视频教程，7*12小时一对一在线服务，确保用户快速掌握使用技巧。

保姆级教程

小编提供了详细的视频教程和图文教程资料，确保即使是技术小白，也能在几分钟内熟练上手。

第一步：程序下载及启动

1、下载第二代GPT-SoVITS整合包（下载地址请移步评论区），下载解压之后，可以看到四个文件，如下图：

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_02

2、启动程序：双击【GPT-SoVITS.exe】文件，稍等片刻，小编可以看到程序开始运行（出现程序控制界面），如下图：

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_开源声音克隆_03

请注意：使用工具期间，请勿关闭此窗口（可以最小化）。

当控制界面中【启动进度】达到100%，浏览器会已经自动开启操作界面，如下图：

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_开源声音克隆_04

特别注意：如果没有打开如上界面，可能是因为浏览器兼容问题，这个时候，需要动动你的小手指，将http://localhost:9874/这个地址，复制到你的谷歌浏览器地址栏，按回车键即可。

第二步：素材准备及预处理

1、素材准备

小编提供了学习素材，如下图：

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_AI声音复刻_05

2、前置数据获取工具

· 选择【0-前置数据集获取工具】，点击【开启UVR5-WebUI】按钮，会跳出以下界面（如果没看到这个界面，可能是浏览器兼容问题），并根据以下步骤进行操作：

· 选择模型：选择【onnx_dereverb_By_FoxJoy】模型；

· 输入文件路径：输入文件夹路径（系统自带文件夹路径，按提示输入即可）；

· 选择文件格式：选择【wav】无损音质文件格式；

· 点击【转换】：点击转换，开始处理；

· 处理完成：处理完成后，在【输出信息】模块返回“Success”信息，即代表处理成功。

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_06

3、0b-语音切分工具：回到【0-前置数据获取工具】界面，来到【0b-语音切分工具】模块，并进行以下操作：

· 点击【关闭UVR5-WebUI】；

· 输入文件路径：文件路径为上一流程返回的【uvr5_opt】文件夹地址（D:\GPT-SoVITS\output\uvr5_opt）；

· 点击【开启语音切割】；

· 处理完成：稍等片刻，处理完成后，【语音切割进程输出信息】模块返回“切割结束”信息，即代表处理成功。

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_AI声音复刻_07

4、0bb-语音降噪工具

来到语音降噪工具，文件路径及其他参数设置默认即可：

点击【开启语音降噪】按钮：此时【开启语音降噪】的按钮呈半透明状态，说明正在降噪中。
处理完成：稍等片刻，处理完成后，【语音降噪进程输出信息】模块返回“语音降噪任务完成”信息，即代表处理成功。

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_08

5、0c-中文批量离线ASR工具：

点击【开启离线批量ASR】按钮。
处理完成：稍等片刻，处理完成后，【ASR进程输出信息】模块返回“ASR任务完成 ”信息，即代表处理成功。

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_AI声音复刻_09

特别提示：GPT-SoVITS提供了“达摩ASR（中文）”和“Faster Whisper（多语种）”两种模型选择。如果是克隆中文语音，建议用阿里的达摩ASR，ASR模型尺寸根据显卡来，好卡选择large，识别更精准速度更快。如果是英文或者日韩，ASR模型这里用Faster Whisper，ASR模型尺寸同样根据显卡来，好卡选择large-V3，识别更精准速度更快。

第三步：模型训练及推理

首先回到主界面顶部，小编可以看到【1-GPT-SoVITS-TTS】模块，同时，在该模块下有【1A－训练集格式化工具】、【1B－微调训练】、【1C-推理】三个子模块。下面，我为大家详细讲解：

1、1A训练集格式化

选择【1-GPT-SoVITS-TTS】模块；
输入【模型名】，如“demo1”；
选择【V2】版本；
选择【1A－训练集格式化工具】，其他参数默认；
点击【开启一键三连】；
等待片刻，【一键三连进程输出信息】模块会显示“一键三连进程结束”，即代表任务完成。

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_10

2、1B微调格式化

回到主界面顶部，在【1-GPT-SoVITS-TTS】模块下，选择【IB-微调训练】模块；
点击【开启SoVITS训练】，其他参数及选项默认；
等待片刻，【SoVITS训练进程输出信息】显示“SoVITS训练完成“；
点击【开启GPT训练】按钮，其他参数及选项默认；
等待片刻，【GPT训练进程输出信息】显示“GPT训练完成”。

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_开源声音克隆_11

3、1C-推理/语音合成

回到主界面顶部，在【1-GPT-SoVITS-TTS】模块下，选择【IC-推理】模块；
勾选【启用并行推理版本（推理速度更快）】，点击【开启TTS推理WebUI】；

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_12

稍等片刻，浏览器会自动打开一个新的操作界面，如下图：

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_开源声音克隆_13

特别提示：如果系统自动打开的网页，没有显示该界面，可能是浏览器兼容问题。

4、接下来正式开始推理，也就是语音合成的流程：

点击【刷新模型路径】，从GPT模型列表中选择名称“-e15.ckpt”结尾的模型；
从SoVITS模型列表中选择名称“_e8_s120.pth”结尾的模型；
上传参考音频：将【slicer_opt】文件夹中选择一条你认为效果不错的音频上传或拖拽到【请上传并填写参考信息】模块下，文件位置如下图：

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_14

· 选择参考音频语种，根据音频选择对应语种即可；

· 勾选无参考文本模式；

· 输入需要合成的文本：在【需要合成的文本】模块下输入文本；

· 选择合成文本对应的语种；

· 选择切分方式为“按中文句号。切”；

· 点击【合成语音】按钮；

以上操作完成后，在【输出的语音】模块中点击右上角【⬇】按钮，直接保存。也可以在【output】文件夹中以日期命名的文件夹中，找到合成好的音频文件。

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_声音克隆_15

这样，小编就成功克隆了想要的声音模型，并合成自己需要的音频了。

怕麻烦的同学，可以按照以下完整的图文教程进行操作。

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔_开源声音克隆_16

是不是很简单？心动了吧？那就马上移步评论区获取吧~

提示及说明

小编分享的仅为AI产品的安装和使用教程，不对其产品的稳定性及可用性负责。
在使用相关技术时，请了解并遵守法律及道德准则。

标签：ASR,语音,开源,点击,SoVITS,模块,GPT
From： https://blog.51cto.com/u_16903227/12067319

火爆开源声音克隆工具：第二代GPT-SoVITS 让你的声音自由飞翔

相关文章

赞助商

阅读排行