首页 > 其他分享 >喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现

喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现

时间:2023-06-13 11:32:24浏览次数:45  
标签:多音字 TTS 音色 贺雯迪 语音 合成 端到


喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现_ide

Photo by Nicholas Githiri from Pexels

现如今,随着TTS技术不断发展,用户对于语音合成的音质质量、流畅度等拥有更高追求。语音合成中的风格控制、音色转换、歌声合成等技术是目前业界的难点和共同追求的方向。本次采访邀请到了喜马拉雅的音频算法工程师贺雯迪,她将从语音合成领域、TTS技术的发展状况和应用场景等方向与大家一同探讨。

文 / 贺雯迪

策划 / LiveVideoStack

LiveVideoStack:贺雯迪,你好,感谢你接受LiveVideoStack的采访,作为本次大会AI与多媒体内容生产创作专场的讲师,请先和大家介绍一下你目前负责的工作方向和演讲内容。

贺雯迪:我目前在喜马拉雅担任音频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、多音字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,音色克隆、神经声码器的优化等方向)。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的:语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。

LiveVideoStack:在一般情况下TTS并不会受到广泛关注,但实际上,TTS对于整个AI语音交互的体验触发起到了决定性的作用,也直接影响到AI在用户心中的“三次元化”形象。从你的角度来看,TTS技术目前的发展状况如何?攻坚方向主要有哪些?

贺雯迪:目前行业内TTS技术在保持了比较好的MOS值情况下,应该大部分基于深度学习框架,沿用了端到端声学模型 + 神经声码器的结构来支撑线上业务或者开放平台。TTS攻坚的方向依然在于模型结构的优化、高质量数据集的获取、精准的评测机制等,工程上还同时需要考虑算力、合成的实时性、数据的吞吐量,机器资源占比等时间和空间成本问题。如何让语音合成的各个衍生模块(跨语言、跨风格、多情感、跨媒体、低资源)从研究走向落地,做成规模化产品提供稳定的效果和服务给用户使用,也是我们目前所正在解决的事情。

LiveVideoStack:样本的获取在机器学习领域都是很大的问题,更有情感表现力和精准韵律的声音,一定是通过庞大精准的语料库直接拼接产生的。喜马拉雅是如何解决样本问题的呢?

贺雯迪:喜马拉雅有自己的主播团队,我们会定时定期筛选所需要风格、音色的主播来进行数据集录制,现成的语料库在主站数据及主播获得授权的情况下可直接用我们自研的算法进行识别、清洗、去噪来进行使用。另外我们也有自己的标注团队,目前标注的层级在语法分词、韵律分词、多音字、音素等。

LiveVideoStack:TTS即“从文本到语音”,算法通过系统对输入的文本进行分析,在这过程中如何对段落中的多音字、词性、韵律进行区分,获得合成语音的基本单元信息?

贺雯迪:在端到端的语音合成中,由于自然语言本身是开放的,语言语义信息也非常重要。前端部分涉及NLP领域,会对输入的文本进行处理,处理的流程大致是:对文本进行非标准词的正则、对正则文本进行韵律分词预测、根据分词结果将文本转音素,解决拼音中多音字问题(多音字用模型来判断它的读音,目前比如基于条件随机场、注意力机制的端到端模型、Bert等,都能在不同程度上解决这个问题,而现有的文本转音素开源工具里,大部分多音字的错误率并不是特别高,我们可以针对于几个常见的易错多音字来进行优化)。

LiveVideoStack:如果要实现明星甚至普通人的声音都可以在终端设备中体现,这在之前需要大量语料的录入和拼接。如何让机器低成本地学习用户的声音,也就是你在演讲中将会提到的音色克隆,这项语音合成技术是如何做到通过少量的语料模仿不同声音的呢?

贺雯迪:少样本以至于单样本、零样本学习在深度学习领域都是很重要的。初期fine-tune在语音合成中的运用,用于在一个训练好的多说话人模型上进行小样本训练,由于之前的模型已经学习到了多说话人的声学特征,只需要在模型参数上输入新的小数据集就能让现有的模型参数进行迁移学习和精调,已适用于现有的新数据集。比如,如果我们提前有一个20个说话人的多说话人模型,这其中训练数据里每一位说话人的样本可能需要几个小时时长,新的说话人只需要估计10分钟左右时长的音频数据,就能通过短时间训练,做到音色克隆。

现在,大体量的数据集我们可以更轻易地收集音色的多样性,比如开源作者@CorentinJ 在他的repo:Real-Time-VC中就尝试过,用一个能生成代表说话人音色向量的编码器,以及计算一种新增加的损失函数,将编码器、合成器+声码器的部分分开训练,训练数据集量级至少大于300小时、含有的说话人最好在1000个以上。通过训练好的声学模型,用户只需要输入一条几秒钟的个人语音,就能克隆出该用户的声音(通俗来说可以理解为embedded speaker里与该用户最相似的声音,最大程度去还原)。当然还有更多的少样本、零样本音色克隆的研究趋势,其发展和落地依然处于行业内不断探索的过程。

LiveVideoStack:从大环境来看,TTS的应用场景非常丰富,手机、音响等智能设备在目前是比较被普及应用的场景,除此之外还有哪些比较小范围应用TTS的应用场景,在未来还将有哪些场景将会用到TTS?

贺雯迪:TTS的现有的应用场景主要分为人机交互、语音播报。前者包括智能客服、智能家居等;语音播报的场景更加广泛,比如残障人士设备、公共交通设备、GPS 导航、有声小说、音视频新闻播报等已经开始普及了。并且随着8090后群体中二次元文化、网络文化等发展,游戏、虚拟偶像、虚拟主播、音色克隆等更多个性化场景也将运用到语音合成技术。其实TTS的场景应用应该非常具有想象力,对于人工智能来说,语音语义相当于人工智能的语言表达,在不违背道德风险,合理合法的前提下,它应该像说话、发声一样日常适用于我们的生活,提供更多种可能的表达。


标签:多音字,TTS,音色,贺雯迪,语音,合成,端到
From: https://blog.51cto.com/u_13530535/6468542

相关文章

  • 饶派杯 XCTF 车联网挑战赛 mqttsvr 复现
    前言IDA和Ghidra对mips64架构的识别貌似不是很友好,赛场上由于反编译实在难看,所以很难静下心来去逆,于是赛后在期末考试前稍微花点时间做了一下复现。准备checksec一下,发现是mips64大端,没开CanaryRELRO,可以溢出,可以覆写got表,这里开了NX和PIE,NX对mips64这种异架构来说好像并不会......
  • 使用XTTS增量进行HP Unix到Soalris Sparc的数据库迁移
    11G–ReduceTransportableTablespaceDowntimeusingCrossPlatformIncrementalBackup(文档ID1389592.1) 明确提到目标端环境必须是Linux,这里该文档中的一段原话:Thesourcesystemmaybeanyplatformprovidedtheprerequisitesreferencedandlistedbelowforbo......
  • tts-autolabel
    安装pipinstalltts-autolabel-fhttps://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstall"modelscope[audio]"-fhttps://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html-i......
  • Zoom 妥协!对免费用户开放端到端加密服务
    By超神经内容概要:2020年伊始,世界范围内多国爆发新冠疫情,企业在家办公情加速了视频会议软件的发展,Zoom无疑是其中发展势头最猛,也最具争议性的一个。关键词:Zoom  端到端加密  隐私保护Zoom周三表示,将在7月份的测试版中,为所有用户提供视频通话的端到端加密服务,允许管理员......
  • 从桌面端到移动端,.NET MAUI为什么对WPF开发人员更简单?
    .NET多平台应用程序UI(.NETMAUI)的市场吸引力与日俱增,这是微软最新的开发平台,允许开发者使用单个代码库创建跨平台应用程序。尽管很多WPF开发人员还没有跟上.NETMAUI的潮流,但我们将在这篇文章中为大家展示他的潜力,具体来说想描述一下WPF和.NETMAUI之前的共性。PS:DevExpressWP......
  • 部署前端到(NG)常用指令
    1.构建压缩#bash#构建pnpmrunbuild#压缩产物tar-czvfdist.tar.gzdist/2.登录并上传资源到服务#shell#上传静态资源。xxx替换为实际服务地址,根据实际路径定义。scpdist.tar.gzroot@xx.xxx.xxx.xxx:/data/web/tmp#提示输入服务密码,输入即可。3.登录服务......
  • 树莓派语音合成-pyttsx3
     安装pyttsx3库pip install pyttsx3pipinstallespeakpyttsx3库应用importpyttsx3engine=pyttsx3.init()#初始化语音引擎rate=engine.getProperty('rate')print(f'语速:{rate}')volume=engine.getProperty('volume')  print(f......
  • m基于matlab的AODV,leach自组网网络平台仿真,对比吞吐量,端到端时延,丢包率,剩余节点
    1.算法仿真效果matlab2022a仿真结果如下:     2.算法涉及理论知识概要       AODV是一种应用于无线网状网络的路由协议。它源节点需要发送数据时才进行路由发现。当没有数据发送请求时并不执行。在路由发现过程中首先检查路由表中是否存在从源节点到目的......
  • NPDP产品经理小知识:端到端的流程建设与跨职能团队管理
    端到端是IT从业者们在讨论流程时经常会随口抛出来的一个名词,感觉说出来就有一种高大上的感觉。但究竟什么是端到端?端到端的流程建设与跨职能的团队管理有着怎样的关系,通过端到端的跨职能团队假设又能解决什么问题呢?今天我们就来聊一聊端到端的跨职能团队的建设与管理。【如何理......
  • 【opentts】win11问题记录
    1.File"\lib\asyncio\events.py",line553,inadd_signal_handlerraiseNotImplementedError参考issue,windows不支持signal,添加代码禁用#_LOOP.add_signal_handler(signal.SIGTERM,_signal_handler)try:_LOOP.add_signal_handler(signal.SIGTERM,_signal......