首页 > 其他分享 >GPT-SoVITS V2:深度定制你的专属语音 - 你得不到她,但你可以拥有她的声音!

GPT-SoVITS V2:深度定制你的专属语音 - 你得不到她,但你可以拥有她的声音!

时间:2024-08-23 10:48:54浏览次数:8  
标签:训练 音频 cmd 点击 V2 SoVITS GPT

新版本的GPT-SoVITS V2,带来了声音克隆技术的全新突破,无论是游戏角色还是现实明星,都能轻松实现声音定制。

游戏角色声音克隆

直面天命,最近黑神话悟空刷爆了各大平台,何不试试用GPT-SoVITS克隆悟空的声音?只需几步,你就能重现《大话西游》里那些令人难忘的经典台词!

[https://www.zhisk.com/wp-content/uploads/2024/08/heishenghua.mp3 播放MP3]

现实明星声音克隆
想象一下,每天早上都是你最喜欢的明星叫你起床。你准备好体验了吗?先来听听我的闹钟吧。

[https://www.zhisk.com/wp-content/uploads/2024/08/damimi.mp3 播放MP3]

听出来是谁在叫我起床了吗?没错,有了GPT-SoVITS V2,这一切都变得触手可及!只需提供一段简单的音频样本,再输入你想要她说的话,你也能拥有独一无二的声音体验。

心里是不是已经有了很多有趣的点子?赶快试试GPT-SoVITS V2,让你的创意变成现实吧!

 

 

GPT-SoVITS V2模型新特点(v2模型新特点)

 

(1)SoVITS:对低音质参考音频(尤其是来源于网络的高频严重缺失、听着很闷的音频)合成出来音质更好

SoVITS:提高了低质量参考音频(尤其是来自互联网的高频损失严重、声音低沉的音频)的合成质量。

(2)加大训练集到5k小时,零射击性能更好的音色基础

增加训练数据集:扩充至5k小时,增强零样本性能,使音色更加相似。

(3)增加2个语种,现在可训练5个语种之间相互跨语种合成(跨语种合成,指集、参考音频语种和需要合成的语种不同)

增加两种语言:现在支持五种语言之间的跨语言合成(跨语言合成意味着训练数据集、参考音频语言和要合成的语言都可以不同)。

(4)更好的文本前端:持续迭代更新。v2中英文加入了多音字优化。

改进的文本前端:持续更新。对于 v2,中文和英文已针对多音字符进行了优化。

 

 

获取指南

  • 一键整合包获取:关注公众好 InnoTechX,发送 “gsv” 获取。
  • 一键启动,不用配置复杂环境。
  • 下载不用开会员、取决你的网速

 

前置条件

  • 适用于 Windows 用户(Windows 10 及以上版本),英伟达显卡6G及以上。

使用步骤

  1. 下载解压包并解压到本地目录。
  2. 进入目录后,点击 go-webui.bat 即可启动程序。

注意:程序运行期间,请勿关闭 cmd 命令窗口。

 

 

TTS 推理一条龙

 

一、音频处理(音频有背景音乐的需要处理,如果是干声直接跳过看第二步)

首先要处理音频,保证音频只有人声。有两种方式,使用次数少直接使用第一种方式

①使用在线网站处理 https://vocalremover.org/zh/

 

 

在去人声界面 选择音频文件上传

 

 

等待处理结束后,将音乐拉低,人声拉到最高,保存下载人声,即可进行第二步,无需再使用UVR5处理。这样直接获取比较纯净的人声

 

 

 

②使用GPT-SoVITS自带UVR5处理。(比较麻烦,如果使用次数少直接使用第一种方式)

1.点击 go-webui.bat 启动程序后,会有网页弹出

 

 

 

 

2.点击是否开启UVR5-WebUI,稍等查看cmd输出,没有报错,便会自动打开UVR5-WebUI网页

 

 

 

 

如果cmd窗口没有报错,但是浏览器没有弹出跳转,自己手动输入http://localhost:9873/ 到浏览器跳转

 

3.将自己准备好的音频文件的路径输入到路径输入框,或者直接拖拽到选择框

选择HP2_all_vocals处理,点击转换,等待处理完成

 

 

4.处理完后在输出目录会多两个文件,再次进行onnx_dereverb处理。将vocal开头的文件拖到文件选择框,选择onnx_dereverb处理

 

 

 

 

处理过程中,可能会卡住,比如我使用时在33%进度卡主,需要关掉cmd命令窗口,重新按之前步骤打开UVR5,继续把上面图片标注的文件拖进来重新处理

 

 

 

5.处理完后在输出目录又会多两个文件,再次进行VR-DeEcho-Aggressive处理。将后缀是flac_main_vocal.flac拖到文件选择框,下图已经标注,选择VR-DeEcho-Aggressive处理,导出文件格式 现在需要更改一下,不然等下难得找到,这里选择wav,不再是之前的flac格式

 

 

 

 

 

 

最后得到的这个文件,就是我们要使用的比较纯净的人声音频文件

 

 

UVR5处理有点复杂,还是建议使用步骤①

 

二、语音切分

 

1.U回到之前的界面,也就是 http://localhost:9874/,勾选掉之前的UVR5处理,节省点显存

 

 

2.输入之前的音频文件目录,修改切分后的根目录,建议加入子目录。

 

 

比如我在slicer_opt后面加入damimi子目录

 

 

 

 

这里的其他参数基本可以不做修改,点击 开始语音切割,在设置好的输出目录就可以看到切分好的音频文件。

 

 

 

三、语音打标

 

打标就是给每个音频配上文字,这样才能让AI学习到每个字该怎么读。这里的标指的是标注

 

1.先对声音进行识别,生成对印的文本内容。

 

 

这里的 输入文件夹路径 需要修改成第二步中的语音分段路径,你的要填入你对应的全路径。ASR模型,是中文就选择中文,是其他语言选择Whisper多语种即可。

 

 

点击开启离线批量ASR,可以在cmd查看进度信息。

 

 

显示任务完成,就可以在输出目录 output/asr_opt/ 看到 damimi.list文件

 

 

可以打开浏览,发现都是音频文件对应的文本内容。

 

 

 

 

2.打标注(如果你想快速体验效果,不追求质量,也可以直接跳过)

 

 

这里一般会自动喂饭,不用输入list标注文件路径,没有就自己输入,点击 勾选 是否开启打标WebUI,稍等几秒会弹出一个新的网页。有的时候会抽风,关掉cmd,重新输入list标注文件地址,重新勾选勾选是否开启打标WebUI,等待网页打开即可。

 

 

对于上图的英文翻译,从左到右

跳转页码(Change Index)、保存修改(Submit Text)、合并音频(Merge Audio)、删除音频(Delete Audio)、上一页(Previous Index)、下一页(Next Index)、分割音频(Split Audio)、保存文件(Save File)、反向选择(Invert Selection)。

 

3.校对标注

这个页面看起来按钮比较多,但是常用的也就那几个。我们需要检查Text文本和音频内容是否相同,如果有错误的地方,就需要人工修改。部分音频太短的,没有参考价值可以直接删除。不建议使用合并功能,有bug。。。

 

 

下面举例如何合并

 

 

 

 

按照上图顺序就可以合并音频。

假设现在你已经完成了校对标注,点击 Save File保存标注文件。回到之前的界面,将打标注界面关掉,节省显存,当然显存大也可以不管

 

 

 

四、训练数据集格式化

 

切换到分栏 1.GPT-SoVITS-TTS进行训练模型

 

 

按照上述步骤操作设置,设置完毕,滑动到网页最底部,点击 开启一键三连

 

 

查看cmd进程,软件本身有一些bug,有时可能会卡主不动。

 

 

比如我这里cmd长时间停止在这个界面,肯定是不对的,关闭cmd窗口,按照上文说的重新启动go-webui.bat,再次进入这一步即可。

类似这种输出代表执行成功

 

 

也可以到logs目录中,成功执行里面有三个文件夹和两个文件,三个文件夹里面有文件基本代表执行成功,如下图标注所示

 

 

如果重试依然执行失败,请更换声音素材重新尝试

 

五、训练模型

1.开启SoVITS训练

依然是在分栏 1.GPT-SoVITS-TTS进行处理,他下面还有个微调训练,也就是叫做训练模型。

 

 

 

图上所示参数基本可以默认。除了batch_size和总训练轮数简单设置一下

batch_size:6g设置1 8g设置212设置5 16g设置8 22g设置12 24设置14

这个当然要看你显卡体质,你可以观察任务管理器,跑满了就降低一点,剩余多,就停止掉训练调高一点,这里没有什么是固定的说法。

总训练轮数:长一点的音频素材可以设置15,短一点的推荐默认的8即可。

 

先开启SoVITS训练,完成后再 开启GPT训练,这里我们点击开始SoVITS训练

 

查看cmd非常必要,我执行时,cmd界面又卡住,一样的,关掉cmd窗口,重启软件,界面这样才是正常的,软件本身有一堆bug

 

 

正常执行界面,也可以切出任务管理器,查看GPU显存占用有没有波动,cmd没有输出,GPU显存一定时间没有波动,那就是要重新启动了,因为程序卡主了。

 

 

 

cmd输出窗口可以看到执行的批次,划线处

 

 

 

我设置的批次是8,完成后的cmd窗口输出和软件界面提示一并放出。

 

 

 

 

 

 

我的声音素材时长大概3分钟,可以重新调整总训练轮数为15重新训练。具体看你要求,一般总训练轮数15基本已经满足使用了。

 

2.开启GPT训练

 

 

batch_size和总训练轮数和1中所述的一样设置即可,开始GPT训练

点击后cmd一段时间没输出就关掉重开,不得不说bug是真多

正常界面应该是这样的

 

 

处理完成的界面显示

 

 

 

SoVITS 和 GPT训练都完成后,就可以在模型目录查看到这两个模型

 

 

 

 

 

 

你训练好的模型也可以发送给别人,别人复制到相同目录下,就可以实现根据模型克隆语音。

 

 

 

六、克隆声音

这也是最后一个环节了,用之前训练好的模型克隆声音。

先切换分栏到推理界面,然后点击刷新模型

 

 

在GPT模型列表和SoVITS模型列表选择之前训练的模型即可,一般选择训练轮数最大的,和步数最多的,e代表轮数,s代表步数

 

 

 

 

再勾选下面箭头指向处,会自动打开新的网页

 

 

 

 

可以在之前的音频切分找到需要使用的素材

 

 

拖拽进去

 

 

找到之前的打标文件,找到对应的文本复制

 

 

 

 

如下图按照顺序,在序号③中填入你想要让他说的话,第④个序号中,怎么切一般选择按中文句号切

 

 

 

 

最后点击合成语音即可

 

 

 

 

好的,教程到此结束,谢谢大家的观看,有问题可以通过公众好加入星球联系提供支持。

标签:训练,音频,cmd,点击,V2,SoVITS,GPT
From: https://www.cnblogs.com/zhikes/p/18375522

相关文章

  • Python3测试mysql插入数据代码(chatgpt生成)
      实现的功能:先连接mysql数据库,然后读取某个目录所有以txt文件命名后缀的json内容文件,解析出对应的key和value,然后插入数据到mysql数据库,最后关闭数据库连接 importosimportjsonimportpymysqlimportre"""尝试插入json文件到MySQL数据库。dbInfo:MySQL数据库......
  • .NET应用UI框架DevExpress XAF v24.1 - 可用性进一步增强
    DevExpressXAF是一款强大的现代应用程序框架,允许同时开发ASP.NET和WinForms。DevExpressXAF采用模块化设计,开发人员可以选择内建模块,也可以自行创建,从而以更快的速度和比开发人员当前更强有力的方式创建应用程序。在DevExpressXAF v24.1新版中全新升级了支持CRUD操作、进一步......
  • Towards Mitigating ChatGPT’s Negative Impact on Education: Optimizing Question
    文章目录题目摘要引言概述实验结果结论和未来工作题目减轻ChatGPT对教育的负面影响:通过布鲁姆分类法优化问题设计论文地址:https://ieeexplore.ieee.org/document/10223662摘要    生成文本AI工具在回答问题方面的流行引发了人们对其可能对学生学业成......
  • Can Autograding of Student-Generated Questions Quality by ChatGPT Match Human Ex
    文章目录题目摘要引言相关工作方法讨论与启示结论题目ChatGPT对学生生成问题质量的自动评分能否与人类专家媲美?论文地址:https://ieeexplore.ieee.org/document/10510637摘要    学生生成问题(SGQ)策略是一种有效的教学策略,可培养学生的高阶认知和批判......
  • 声音克隆GPT-SoVITS 2.0软件和详细的使用教程!
    天命人,请允许我先蹭个热点!  原始声音:播放克隆声音:播放 文章写了一半,被《黑神话悟空》刷屏了。突发奇想,用里面的声音来做个素材试试看。B站捞了一点声音素材,随便剪一剪,训练一把过,没有调优,就直接拿来用了。情绪还差点意思,音色克隆的还不错。......
  • 我一直在X上试用Grok-2——它确实是ChatGPT和Gemini的有力竞争对手
    Grok-2是一个内置于X平台并通过其内容训练的人工智能聊天机器人,现在已经进入了beta版,这是其前身的巨大进步,使其跻身于领先的AI聊天工具之列,与ChatGPT、Claude和GoogleGemini等齐名。在发布后不久,Grok-2进入了LMSys聊天机器人竞技场排行榜的前五名。这些是对领先LLMs的人工评......
  • pve(‌Proxmox Virtual Environment)-GPT4回答的关于CT容器的一些问题
    文章目录前言一、pve中的ct虚拟机是干嘛用的?**CT(容器)与VM(虚拟机)的区别****在PVE中使用CT的优点**二、怎么使用呢,比如我要启动一个nginx容器?1.**创建一个LXC容器**2.**启动并进入容器**3.**在容器中安装Nginx**4.**访问Nginx**5.**管理容器**三、创建一......
  • 刚推出SearchGPT结果被曝亏损50亿美元,OpenAI寿命只剩一年了?
    OpenAI前几天宣布了一项令人惊讶的消息——推出人工智能搜索引擎原型SearchGPT,直接挑战谷歌在在线搜索市场的主导地位。这一大胆举动预示着人工智能搜索大战将大幅升级,并可能重塑用户在网络上查找信息和与信息互动的方式。01.SearchGPT带来新变化SearchGPT是一个新的人......
  • Blazor开发框架Known-V2.0.9
    V2.0.9Known是基于Blazor的企业级快速开发框架,低代码,跨平台,开箱即用,一处代码,多处运行。本次版本主要是修复一些BUG和表格页面功能增强。官网:http://known.pumantech.comGitee:https://gitee.com/known/KnownGithub:https://github.com/known/Known概述基于C#和Blazor的快......
  • 写论文找不到灵感?ChatGPT能提供的一些帮助
    学境思源,一键生成论文初稿:AcademicIdeas-学境思源AI论文写作在学术写作过程中,许多读者常常会面临一个问题——找不到灵感。面对庞大的文献和复杂的研究方向,往往感到无从下手。随着人工智能技术的发展,像ChatGPT这样的智能助手逐渐成为解决这一难题的有力工具。今天的分享将......