前言
昨晚玩剑网3突发奇想,把团长声音克隆下来,利用语音喵制作成语音DBM。
这样不管团长开不开团,打团也能有团长声音听了诶嘿嘿。
于是当场关闭游戏声音录了打本的素材,本文就边做边记录。
下载
在B站找到了这个教程:
【你的声音,现在是我的了!】https://www.bilibili.com/video/BV1P541117yn
粗略看一遍感觉思路清晰,步骤明确。开始尝试。
打开项目页面 https://github.com/RVC-Boss/GPT-SoVITS
Release打开下载页面,下载v2版本,解压
解压好慢,可以先把录制的声音从视频分离出来
电脑上刚好有剪映,视频文件拖进去,右键分离音频,导出音频,wav格式
启动
解压后打开 go-webui.bat
官方中文教程:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e
官方中文教程提供了在线使用的网址:https://gsv.acgnai.top/ ,里面有训练好的模型可以直接拿来用,配合F12可以下载自定义的语音文件,暂时没有发现有数量限制
UVR5人声伴奏分离&去混响去延迟
因为录制的音频是游戏内语音,加上团长用的麦不是很好,所以需要处理一下混响和噪声
开启 UVR5人声伴奏分离&去混响去延迟工具,等待一会后出现 UVR5 WebUI
选择 onnx_dereverb_by_FoxJoy模型 去混响,去延迟,
贴入wav文件文件夹路径,默认选择flac格式音频,直接转换
转换进度可以在bat窗口查看。5分钟才转换10%,预计要50分钟,可以看一下官方中文教程 睡一觉
睡了一觉发现转换好了,输出在程序的 output\uvr5_opt 文件夹里,确实把混响杂音去掉了一些
再用 DeEcho-Aggressive模型,对刚才用 onnx_dereverb_by_FoxJoy模型 处理过的flac文件重新处理一下
处理完成的文件名开头应该是 vocal,结尾是 main_vocal
语音切分&降噪&ASR
关闭 UVR5 WebUI,打开 GPT-SoVITS WebUI,进行语音切分、降噪、ASR
语音文本校对标注
校对文字,本页校对完成后点击 Submit Text 保存,Next Index下一页
有不需要的音频片段,右边 yes 打钩,上方 Delete Audio