书接上回,4.0版本的配置:https://www.cnblogs.com/strawberryPudding/p/17280672.html
近日,sovits4.1更新了,更新了一个浅扩散模型,来研究一下。
一、环境配置
1,项目拉取
项目地址:https://github.com/svc-develop-team/so-vits-svc
2,依赖安装
删除配置文件中的torch选项,抽出来单独安装。显卡驱动和torch可以参考之前的4.0版本
使用cd命令打开项目路径,清华换源然后安装依赖:
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install -r requirements.txt
(注:如果换源后出现什么故障,需要换回原来的可以pip config set global.index-url https://pypi.Python.org/simple/)
这里我直接一遍过,并无报错,可能是之前装过4.0,大部分依赖已经有了,出现报错可以参考之前的文章。
3,模型文件
底模文件还是放在logs/44k下面。扩散模型的底模(model_0.pt)放在logs/44k/diffusion下面
和之前不同的是,编码器和nsf模型(浅层扩散要用)全都放入pretrain中
整合资源还是和之前放在一起:
链接:https://pan.baidu.com/s/1_Cx19msrqCoK62TeX_TdRA
提取码:p6dd
二、模型训练
和4.0一样,运行所有代码之前,RDNA2架构的显卡需要先在命令行输入export HSA_OVERRIDE_GFX_VERSION=10.3.0
如果是RDNA架构,则是export HSA_OVERRIDE_GFX_VERSION=10.1.0
1,数据集处理
python resample.py
python preprocess_flist_config.py --speech_encoder vec768l12
python preprocess_hubert_f0.py --f0_predictor dio(默认dio,可选crepe,dio,pm,harvest)
如果使用浅层扩散:python preprocess_hubert_f0.py --f0_predictor dio --use_diff
需要注意的是,此处的编码器默认是768l12,而4.0版本默认是256l9,所以如果需要使用老模型,需要在配置文件加入:
"model": {
.........
"ssl_dim": 256,
"n_speakers": 200,
"speech_encoder":"vec256l9"
}
2,模型训练
主模型训练:python train.py -c configs/config.json -m 44k
浅层扩散模型训练:python train_diff.py -c configs/diffusion.yaml
但是默认的参数可能并不适合,需要手动调整,我这里是12G显存,你们自行随机应变,爆显存可能会自动关机。
主模型默认batch6,lr0.0001,我调成了12,0.0002。这里learning rate一般要同比例缩放
浅扩散默认是batch48,lr0.0002,我调成了24,0.0001。(不知道是否需要继续下调,我跑了4000步之后还是自动关机了)
三、模型推理:
模型推理用之前的命令也可以运行,建议直接使用webUI
python webUI.py
此处仅用于演示,实际使用中最好把模型训练到10000步左右
标签:sovits4.1,Ubuntu20.04,4.0,python,步骤,模型,py,默认,https From: https://www.cnblogs.com/strawberryPudding/p/17473944.html