首页 > 其他分享 >三秒语音就能克隆自己的声音 VALL-E-X 使用教程

三秒语音就能克隆自己的声音 VALL-E-X 使用教程

时间:2024-06-23 14:59:19浏览次数:3  
标签:github 克隆 VALL 三秒 https 显卡 com

仓库部署

仓库地址:https://github.com/Plachtaa/VALL-E-X

安装命令(python3.10.0)

git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt

启动命令

python -X utf-8 launch-ui.py

运行后会自动下载模型文件

2024-06-23T02:35:35.png

这里可能需要科x上w,不然下载会报错。也可以根据readme的提示手动下载checkpoint文件

启动后的界面

2024-06-23T05:19:54.png

克隆声音

序号1上传自己录制的音频,序号2起一个名称,点击make开始克隆

2024-06-23T05:22:16.png

克隆完成后,按下图操作,输入朗读文本,点击生成

2024-06-23T05:24:50.png

显卡加速

默认是用cpu,建议开启显卡加速使用gpu提升速度

先卸载原来的torch

pip uninstall torch torchvision torchaudio

重新安装,cu120表示cuda的版本

pip install torch torchvision torchaudio index-url https://download.pytorch.org/whl/cu121

windows查看cuda版本命令:nvcc --version

重新运行

python -X utf-8 launch-ui.py

现在就可以使用显卡加速了

声音处理

推荐几个声音处理工具

背景音分离:https://github.com/Anjok07/ultimatevocalremovergui
windows下载https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_v5.6.0_setup.exe

2024-06-23T05:48:47.png

声音切片工具:https://github.com/flutydeer/audio-slicer
windows下载https://github.com/flutydeer/audio-slicer/releases

2024-06-23T05:48:23.png

参考

  • https://www.cnblogs.com/wuliytTaotao/p/11453265.html#%E6%9F%A5%E7%9C%8B-cuda-%E7%89%88%E6%9C%AC-1
  • https://www.youtube.com/watch?v=D8tFRIF92WY

欢迎关注破晓一代公众号,获取最新ai开源工具使用教程
破晓一代公众号

原文博客:https://blog.abyssdawn.com/archives/236.html

标签:github,克隆,VALL,三秒,https,显卡,com
From: https://blog.csdn.net/m0_74252714/article/details/139900115

相关文章

  • 全球最大的音乐公司正在帮助音乐家制作自己的人工智能语音克隆
    近年来,人工智能技术在各个领域的应用不断拓展,音乐行业也不例外。全球最大的音乐公司之一,环球音乐集团(UniversalMusicGroup,简称UMG),正在积极探索人工智能技术在音乐创作和制作中的应用。最近,UMG宣布了一项创新计划,旨在帮助音乐家制作自己的人工智能语音克隆。这一举措引发了广泛的......
  • C# 对象克隆(深拷贝,不引用对象源的内存地址)
    对象克隆拓展方法:///<summary>///深度克隆对象///</summary>///<typeparamname="T">要克隆的类型</typeparam>///<paramname="obj">要克隆的实体</param>///<returns>返回克隆到的实体</returns>publicstaticTClone<......
  • git-jenkins阶段02 git标签, github使用, gitlab安装, 配置, 使用, 开发推送和克隆代
    1.Git的标签-a指定标签的名字-m指定说明信息[root@gitgit_data]#gitlog--oneline7d9c037modifyccc.txt13f8051ecommitmodifyoldboy.txtc22a40fmodifytest#把某一次的提交作为一次标签[root@gitgit_data]#gittag-av2.07d9c037-m"te......
  • kvm链接克隆虚拟机迁移到openstack机器的实验
     总结如果是完整克隆的那种虚拟机,是可以直接在openstack使用的,如果镜像格式没问题的话。 因为kvm虚拟机大部分都是链接克隆出来的镜像,不可用直接复制使用,所以需要创建新的镜像文件 创建空盘:qemu-imgcreate-fqcow2mcwlink1-new.qcow250G将链接克隆镜像数据导入到空......
  • 基于函数计算部署GPT-Sovits语音生成模型实现AI克隆声音
    GPT-Sovits是一个热门的文本生成语音的大模型,只需要少量样本的声音数据源,就可以实现高度相似的仿真效果。通过函数计算部署GPT-Sovits模型,您无需关心GPU服务器维护和环境配置,即可快速部署和体验模型,同时,可以充分利用函数计算按量付费,弹性伸缩等优势,高效地为用户提供基于GPT-Sovits......
  • AI数字人直播克隆系统源码部署,哪些品牌资历深?
    随着人工智能技术的不断发展成熟,AI数字人的应用场景日益广泛。在此背景下,AI数字人直播也持续上涨,并隐隐有了成为流行的趋势。在此背景下,AI数字人直播克隆系统源码部署也成为了行业中一大热门板块。就目前的市场情况而言,AI数字人直播克隆系统源码部署这一板块中的竞争十分激烈......
  • VALL-EX下载介绍:只需3秒录音,即可克隆你的声音
    VALL-EX是一个强大和创新的多语言文本转语音模型,支持对中文、英文和日语的语音进行合成和克隆,使用者只需上传一段3-10秒的录音,就可以生成高质量的目标音频,同时保留了说话人的声音、情感和声学环境VALL-EX的应用范围非常广泛,可以用于跨语言文本到语音、语音合成和语音到语音翻译......
  • VALL-EX下载介绍:只需3秒录音,即可克隆你的声音
    VALL-EX是一个强大和创新的多语言文本转语音模型,支持对中文、英文和日语的语音进行合成和克隆,使用者只需上传一段3-10秒的录音,就可以生成高质量的目标音频,同时保留了说话人的声音、情感和声学环境VALL-EX的应用范围非常广泛,可以用于跨语言文本到语音、语音合成和语音到语音翻......
  • GPT-SOVITS:声音克隆大师,一键重塑,精准复制任何角色语音与语调“
    语音技术在人工智能的驱动下,正在以前所未有的速度推进。GPT-SoVITS-WebUI正是这一变革的先驱它利用少量的声音源,可以快速地训练出一个语音合成(Text-to-Speech,简称TTS)模型。这个强大的Web界面工具不仅提供了零次学习和少量次学习的文本到语音(TTS)功能,还支持跨语言的语音转换,为语......
  • GPT-SoVITS音频AI工具只需几秒完美克隆声音
    GPT-SoVITS音频AI工具只需几秒完美克隆声音兄弟们难道你还在使用一个月几十刀收费配音吗还有这种视频配音甚至是这种的视频配音轻松的能获得巨大的流量然后你只要掌握GPT-SoVITSAI音频工具也能做这种高流量视频接下来下来一步一步教大家安装网盘链接:https://downlo......