首页 > 其他分享 >突破开源天花板!最强文本转语音工具ChatTTS:对话式高可控的语音合成模型

突破开源天花板!最强文本转语音工具ChatTTS:对话式高可控的语音合成模型

时间:2024-06-06 20:30:31浏览次数:14  
标签:ChatTTS 音频 开源 对话 语音 模型

ChatTTS 一夜爆火, 极速出圈, 3 天就斩获 9k 的 Star 量, 截止 2024.06.04, 已经 19.3k 的 star, 极速接近 GPT-soVITs 当天的 26.2k 的 star 数。

什么是ChatTTS?

TTS全称:Text To Speech(也就是文本转语音模型)。ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。

现在ChatTTS正式上线了官网,所有用户都可以直接在线体验了。

相关链接

ChatTTS中文官网:https://chattts.com/zh

GitHub项目地址:https://github.com/2noise/ChatTTS

Hugging Face模型地址:https://huggingface.co/2Noise/ChatTTS

使用页面

ChatTTS Web_UI链接:https://github.com/jianchang512/ChatTTS-ui

  • text:指的是需要转换成语音的文字内容。

  • Refine text:选择是否自动对输入的文本进行优化处理。

  • 随机度:一个控制输出随机性的参数,数值越大,生成的语音随机性越高,这可能导致生成的语音质量有时更好,有时更差。

  • 声音选择:默认值为2222,这是一个数字参数,用于选择声音的类型。可选的数字有2222、7869、6653、4099、5099,可以任选其一,或者输入其他数字以随机选择声音。

  • 定制声音:这是一个正整数参数,用于定制声音的音调和音色。如果设置了此值,将优先使用,而忽略声音选择参数。

  • 提示设置:用于添加笑声、停顿等效果。例如,可以设置为[oral_2][laugh_0][break_6]。

ChatTTS介绍

什么是ChatTTS?

TTS全称:Text To Speech(也就是文本转语音模型)

而ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。

ChatTTS亮点

  • 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。

  • 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。

  • 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。

计划路线

  • 开源4w小时基础模型和spk_stats文件

  • 开源VQ encoder和Lora 训练代码

  • 在非refine text情况下, 流式生成音频

  • 开源多情感可控的4w小时版本

  • ChatTTS.cpp

使用建议

对于30s的音频, 至少需要4G的显存. 对于4090, 1s生成约7个字所对应的音频. RTF约0.3.

模型稳定性不够好, 会出现其他说话人或音质很差的现象是由于自回归模型,说话人可能会在中间变化, 可能会采样到音质非常差的结果, 这通常难以避免。可以多采样几次来找到合适的结果。

除了笑声还能控制什么吗? 还能控制其他情感吗? 在现在放出的模型版本中, 只有[laugh]和[uv_break], [lbreak]作为字级别的控制单元. 在未来的版本中我们可能会开源其他情感控制的版本.

免责声明

此repo仅用于学术目的。它旨在用于教育和研究用途,不得用于任何商业或法律目的。作者不保证信息的准确性、完整性或可靠性。此 repo 中使用的信息和数据仅用于学术和研究目的。数据来自公开来源,作者不对数据主张任何所有权或版权。

ChatTTS 是一款功能强大的文本转语音系统。然而,负责任且合乎道德地使用这项技术非常重要。为了限制 ChatTTS 的使用,我们在 40,000 小时模型的训练过程中添加了少量高频噪音,并使用 MP3 格式尽可能压缩音频质量,以防止恶意行为者将其用于犯罪目的。同时,我们内部训练了一个检测模型,并计划在未来将其开源。

标签:ChatTTS,音频,开源,对话,语音,模型
From: https://blog.csdn.net/xs1997/article/details/139456047

相关文章

  • 开源低代码平台技术为数字化转型赋能!
    实现数字化转型升级是很多企业未来的发展趋势,也是企业获得更多发展商机的途径。如何进行数字化转型?如何实现流程化办公?这些都是摆在客户面前的实际问题,借助于开源低代码平台技术的优势特点,可以轻松助力企业降低开发成本、提高开发效率,获得高效快速发展。了解低代码技术平台的客户......
  • 星海算力云:【ChatTTS】 无需部署,一键云启动
    镜像介绍ChatTTS:革新对话式文本转语音技术ChatTTS是由2noise团队开发的一款专为对话场景设计的文本转语音(TTS)模型。它不仅支持英文和中文两种语言,而且经过了超过10万小时的中英文数据训练,表现出色。ChatTTS的亮点在于其对话式TTS的优化,它能够生成自然流畅的语音并支持多......
  • [操作系统] MenuetOS :最轻量的、非Linux的、开源操作系统
    1MenuetOS概述1.1简介MenuetOS是一款由英国软件工程师VilleMikaelTurjanmaa和MadisKalme开发的、开放源码的32/64位操作系统。该系统完全由x86汇编语言在2000年编写完成。MenuetOS的设计目标是去除操作系统编程中的复杂化和错误部分,具有轻量级、高性能和强大的功能等......
  • Sz-Admin | SpringBoot3 JDK21 Vue3开源后台RBAC管理系统 | 2024年好用的开源RBAC管理
    简介接触了很多优秀的开源和闭源项目,在使用过程中也发现一些问题,不甘满足的我遂产生了想法:于是利用休息时间编写了一套后台管理系统,它灵活、简洁、高效,拥抱最新的技术,因此Sz-Admin便诞生了,也意为升职Admin,升职加薪节节高。SzAdmin,一个基于SpringBoot3、Vue3和El......
  • C#开源实用的工具类库,集成超过1000多种扩展方法
    https://www.cnblogs.com/Can-daydayup/p/18230586今天大姚给大家分享一个C#开源(MITLicense)、免费、实用且强大的工具类库,集成超过1000多种扩展方法增强.NETFramework和.NETCore的使用效率:Z.ExtensionMethods。直接项目引入类库使用在你的对应项目中NuGet包管理器中搜索......
  • SwiftUI 热门开源库推荐第1期 - 凡人程序猿 - iOS开发
    大家好,周末给大家分享几个我在用已久的GitHub开源库,这些开源库使用简单,功能强大,使用好它们能够为我们节省大量的开发时间。话不多说,直接上库。1、PopupViewgithub项目地址:https://github.com/exyte/PopupView这个开源库在GitHub上有3.2K个赞。它是一款功能全面且好用......
  • 如何用前端实现麦克风语音唤醒
    <!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,initial-scale=1.0"><title>我的简单网页</title>......
  • 4.7K+ Star!一款开源工作流开发平台!
    大家好,我是Java陈序员。今天,给大家介绍一个开源的工作流平台,适用于OA办公!关注微信公众号:【Java陈序员】,获取开源项目分享、AI副业分享、超200本经典计算机电子书籍等。项目介绍RuoYi-activiti——基于若依、Activiti6.0,集流程设计、流程部署、流程执行、任务办理、流......
  • GLM-4已经“低调”开源了
    GLM-4-9B是智谱AI推出的最新一代预训练模型GLM-4系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B及其人类偏好对齐的版本GLM-4-9B-Chat均表现出较高的性能。除了能进行多轮对话,GLM-4-9B-Chat还具备网页浏览、代码执行、自定义......
  • C#开源实用的工具类库,集成超过1000多种扩展方法
    前言今天大姚给大家分享一个C#开源(MITLicense)、免费、实用且强大的工具类库,集成超过1000多种扩展方法增强.NETFramework和.NETCore的使用效率:Z.ExtensionMethods。直接项目引入类库使用在你的对应项目中NuGet包管理器中搜索:Z.ExtensionMethods安装即可使用。支持.NE......