首页 > 其他分享 >SVC推理参数说明

SVC推理参数说明

时间:2024-06-07 15:46:24浏览次数:14  
标签:模型 SVC 声线 切片 参数 聚类 扩散 推理

  1. WebUI参数说明

  1. 选择主模型文件
  2. 主模型配套的配置文件
  3. 主模型配套的扩散模型
  4. 扩散模型配套的配置文件
  5. 聚类模型或特征检索。(可选)

        聚类模型:需单独训练聚类模型,其可以减小音色泄露,使得音色更接近于原声(效果不是很明显)。单纯的完全使用聚类模型,会导致出现口齿不清,降低咬字的情况。因此,需要设置好混合比例。

        特征检索:同样可以减小音色泄露,但会增加推理时间,咬字比聚类稍好。同样需要设置混合比例。

    以上两种模型,若需要择一加载即可。

  1. 选择推理设备,建议使用GPU(速度快一些)
  2. NSF-HIFIGAN增强在训练集较少时建议开启,有明显增强作用

      全扩散推理开启后将不会使用主模型,而是只使用扩散模型推理

  1. 1和2选择完毕,3、4、5可选。点击按钮即可加载模型。加载结束后,信息会显示在下面的Output Message中
  2. 模型加载完毕后,训练时指定的说话人名单会在此处罗列出来。选择说话人,即选择用谁的训练集来推理。
  3.  f0预测器,最好是与模型训练时使用的预测器一致。目前推荐的是rmvpe
  4.  变调:-24~+24,通常男变女用+12,女变男用-12。此处,值越大声调越高,值越低声调越低沉。注意:声调高低始终有个范围,若过高容易出现静音、破音等情况,过低同理。
  5.  聚类模型/特征检索混合比例,范围0~1,若启用建议0.5
  6.  切片阈值:推理时,会根据该阈值对输入音频进行切片。同训练集切片时用的阈值作用相同。
  7.  noise_scale:建议不动
  8.  浅扩散步数:即扩散推理时的步数,完整的高斯扩散共1000步。步数越多越接近扩散结果,主模型的推理结果则会被抑制。若只是想去掉噪音、电音,建议30-50步即可。
  9. pad:开头结尾自动填静音的时间。官方给的解释是,未知原因导致开头结尾会有异响,所以直接填一段静音即可解决
  10.  音频自动切片:即切片长度,单位s。0为不切片。切片的好处是,可以将多个片段同时进行推理,再融合。减少推理时间,但相应的也会增加资源占用,尤其是显存。
  11.  音频切片的交叉淡入长度,单位为s。如果切片后人声不连续,可调整该值。可以理解为前切片的片尾与后切片的片头重叠一部分(即交叉),然后做淡入处理。
  12.  切片需要舍弃的片尾比例,即为18中交叉长度的保留比例。范围0~1,左开右闭。
  13.  增强器基础音域,单位半音。+1表示升高一个半音,-1表示降低一个半音。
  14.  F0过滤阈值,使用crepe预测器时,该值才有效。目前推荐使用rmvpe,所以该参数基本无用。
  15.  输入源响度与输出响度占比,1为完全使用输出响度。输出响度则取决于训练时的响度嵌入等操作。
  16.  二次编码:官方未详细解释,建议不开。

      动态声线融合:该选项无法使用。默认关闭。声线融合主要是将输入源中(模型声线、输入音频声线)所有声线融合到一起,生成一个不存在的声线。

  1.  添加待推理的人声,并点击音频转换,即可开始推理

标签:模型,SVC,声线,切片,参数,聚类,扩散,推理
From: https://www.cnblogs.com/Eban/p/18237294

相关文章

  • SVC数据集准备及预处理
      此文档主要为SVC数据集预处理的详细步骤。音源准备时长要求:训练音源需准备至少20min以上,最好是1-2小时的数据。注:由于歌曲中歌手并不会整首歌都在演唱,因此这里的时长说的是歌手实际演唱的时长,不包括前奏、间奏等无歌声的部分。质量要求:训练音源尽量使用高保真及以上品......
  • Curl 命令参数解析
    Curl参数:详细解析与示例curl是一个功能强大的命令行工具,用于传输数据。它支持多种协议,如HTTP、HTTPS、FTP、SFTP等。curl提供了丰富的参数,以满足各种传输需求。本文将详细解析curl参数,并通过代码示例说明其用法。1.参数概述curl参数分为两大类:通用参数和协议相关......
  • [中文参数] AGFA027R31C2I3V、AGFA027R31C2I3E、AGFA027R31C2E3E、AGFA027R31C2E4X面
    Agilex™FPGA产品组合包含一系列产品,可充分满足每一个技术领域(从边缘到嵌入式系统,再到通信和数据中心)的众多可编辑逻辑需求。在所有这些领域中,数据爆炸导致新产品需求激增,以便移动、处理和存储数据并从中获得可执行的深度分析。这些产品的开发人员需要硬件灵活性来应对不断变化......
  • python系列:FASTAPI系列 04-GET请求 params参数
    FASTAPI系列04-GET请求params参数FASTAPI系列04-GET请求params参数前言一、查询参数二、参数的默认值三、多路径查询参数四、查询参数为必填项总结FASTAPI系列04-GET请求params参数前言get请求的参数在url后面携带,通常称做queryparams一、查询参数在......
  • mysql 简单参数配置
    showglobalvariableslike'%timeout%';showglobalvariableslike'%buffer%'; innodb_buffer_pool_size=60Gwait_timeout=2400 showglobalvariableslike'%wait_timeout%';showglobalvariableslike'%innodb......
  • 【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
    ​​​​​​​目录一、引言二、模型简介2.1GLM4-9B 模型概述2.2GLM4-9B 模型架构三、模型推理3.1GLM4-9B-Chat语言模型3.1.1 model.generate 3.1.2 model.chat3.2GLM-4V-9B多模态模型3.2.1多模态模型概述3.2.2 多模态模型实践四、总结 一、引言......
  • C++缺省参数函数重载
    缺省参数大家知道什么是备胎吗?C++中函数的参数也可以配备胎。3.1缺省参数概念缺省参数是声明或定义函数时为函数的参数指定一个默认值。在调用该函数时,如果没有指定实参则采用该默认值,否则使用指定的实参。voidTestFunc(inta=0){cout<<a<<endl;}intmain(......
  • OPA197IDBVR精密运算放大器芯片中文资料PDF数据手册引脚图产品参数特性
    OPA197的说明OPAx197系列(OPA197、OPA2197和OPA4197)是新一代36V运算放大器。这些器件具有出色的直流精度和交流性能,包括轨至轨输入/输出、低偏移(典型值为±25µV)、低温漂(典型值为±0.25µV/°C)和10MHz带宽。OPAx196拥有拥有诸多独一无二的特性,例如电源轨的差分输......
  • OPA1679QRUMRQ1音频运算放大器中文资料PDF数据手册引脚图产品参数特性
    OPA1679-Q1的说明双通道OPA1678-Q1和四通道OPA1679-Q1(OPA167x-Q1)运算放大器提供更高的系统级性能在音频电路中常用的传统运算放大器上。OPA167x-Q1放大器实现了低噪声密度为4.5nV/√Hz,0kHz时失真低至0001.1%,其中提高音频信号保真度。这些器件还提供轨到轨输出摆......
  • 基于修改iOS内核绕过iOS 基于svc 0x80的ptrace反调试
    yuzhouheike62天 看到一个帖子:[原创]绕过iOS基于svc0x80的ptrace反调试24.跟着操作了下.这篇文章的核心思想来源于[原创]iOS内核修改之过某音等PT_DENY_ATTACH反动态ptrace调试我的设备是:iphone7iOS14.1,DarwinKernelVersion20.0.0:WedSep3003:24:41......