首页 > 其他分享 >分享6款文字语音生成驱动虚拟数字人说话的开源项目

分享6款文字语音生成驱动虚拟数字人说话的开源项目

时间:2023-07-02 12:11:06浏览次数:137  
标签:动画 github 视频 数据 音频 开源 虚拟 语音 com

一、FACEGOOD的Audio2Face

github地址:github.com/FACEGOOD/FA…

FACEGOOD 对输入和输出数据做了相应的调整,声音数据对应的标签不再是模型动画的点云数据而是模型动画的 blendshape 权重。

FACEGOOD 主要完成 Audio2Face 部分,ASR、TTS 由思必驰智能机器人完成。如果你想用自己的声音,或第三方的,ASR、TTS 可以自行进行替换。当然,FACEGOOD Audio2face 部分也可根据自己的喜好进行重新训练,比如你想用自己的声音或其它类型的声音,或者不同于 FACEGOOD 使用的模型绑定作为驱动数据,都可以根据下面提到的流程完成自己专属的动画驱动算法模型训练。那么 Audio2Face 这一步的框架是什么样呢?又如何制作自己的训练数据呢?

常规的神经网络模型训练大致可以分为三个阶段:数据采集制作、数据预处理和数据模型训练。第一阶段,数据采集制作。这里主要包含两种数据,分别是声音数据和声音对应的动画数据。声音数据主要是录制中文字母表的发音,以及一些特殊的爆破音,包含尽可能多中发音的文本。而动画数据就是,在 maya 中导入录制的声音数据后,根据自己的绑定做出符合模型面部特征的对应发音的动画;第二阶段,主要是通过 LPC 对声音数据做处理,将声音数据分割成与动画对应的帧数据,及 maya 动画帧数据的导出。第三阶段就是将处理之后的数据作为神经网络的输入,然后进行训练直到 loss 函数收敛即可。

二、Write-a-Speaker

github地址:github.com/FuxiVirtual…

Write-a-Speaker综合了高保真的面部表情和头部运动,并与文本情感、语音节奏和停顿相一致。具体来说,我们的框架包括一个独立于说话人的阶段和一个特定于说话人的阶段。在与说话人无关的阶段,我们设计了三个并行网络,分别从文本中生成嘴巴、上脸和头部的动画参数。在特定说话人阶段,我们提出了一个3D人脸模型引导的注意网络来合成针对不同个体的视频。它将动画参数作为输入,并利用注意遮罩操纵输入个体的面部表情变化。此外,为了更好地在视觉运动(即面部表情变化和头部移动)和音频之间建立真实的对应关系,我们利用高精度的运动帽数据集,而不是依赖特定个体的长视频。在获得视觉和音频通信后,我们可以以端到端的方式有效地训练我们的网络。对定性和定量结果的大量实验表明,我们的算法实现了高质量的照片真实感对话头部视频,包括根据语音节奏进行的各种面部表情和头部运动,并超过了最先进的水平。

三、AI-generated-characters

github地址:github.com/mitmedialab…

麻省理工学院媒体实验室(MIT Media Lab)的研究人员开源了一个虚拟角色生成工具。该工具结合了面部、手势、语音和动作领域的人工智能模型,可用于创建各种音频和视频输出,一举登上《Nature Machine Intelligence》。该项目主要用于音频或视频驱动视频,暂不支持文本驱动视频。主要用于医疗视频或其他视频通话时保护个人隐私视频驱动视频,使著名的历史或现代人栩栩如生。

四、Audio2Head

github地址:github.com/wangsuzhen/…

Audio2Head是基于一张参考照片,和说话音频,生成口播视频 one-shot talking head

兼顾生成的韵律和外表的相似,除了面部,考虑到了头部的动作,虑了背景区域的artifact

五、Omniverse Audio2Face

地址:www.nvidia.cn/omniverse/a…

Omniverse Audio2Face可以借助 NVIDIA 深度学习 AI 技术,仅需一个音频来源即可快速轻松生成表情丰富的面部动画。

六、LiveSpeechPortraits

github: github.com/YuanxunLu/L…

video: yuanxunlu.github.io/projects/Li…

LiveSpeechPortraits仅由超过 30 fps 的音频信号驱动,生成个性化的逼真语音头动画。我们的系统包含三个阶段。第一阶段是深度神经网络,它提取深度音频特征以及流形投影,以将这些特征投影到目标人的语音空间。在第二阶段,我们从投影的音频特征中学习面部动态和动作。预测的运动包括头部姿势和上半身运动,其中前者由自回归概率模型生成,该模型模拟目标人的头部姿势分布。上半身运动是从头部姿势推断出来的。在最后阶段,我们从先前的预测中生成条件特征图,并将其与候选图像一起发送到图像到图像转换网络,以合成逼真的渲染。我们的方法可以很好地推广到野生音频,并成功合成高保真个性化的面部细节,例如皱纹、牙齿。我们的方法还允许显式控制头部姿势。广泛的定性和定量评估以及用户研究证明了我们的方法优于最先进的技术。

转载:blog.bfw.wiki/user12305/1…

一个开源项目:gitee.com/guiji-ai/du…

百度开源:cloud.baidu.com/product/bai…

百度AR:ar.baidu.com/#/ability

百度AR-SDK:github.com/baidu/ar-sd…

通过飞浆开源本地:github.com/JiehangXie/…

一个在线demo:demo.deepscience.cn/chatGPT/#/


作者:couoc
链接:https://juejin.cn/post/7199809805363789882
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

标签:动画,github,视频,数据,音频,开源,虚拟,语音,com
From: https://www.cnblogs.com/Im-Victor/p/17520585.html

相关文章

  • Python潮流周刊#9:如何在本地部署开源大语言模型?
    你好,我是猫哥。这里每周分享优质的Python及通用技术内容,部分为英文,已在小标题注明。(标题取自其中一则分享,不代表全部内容都是该主题,特此声明。)首发于我的博客:https://pythoncat.top/posts/2023-07-01-weekly周刊的投稿通道已开放,请在Github项目中提交issue:https://github.c......
  • Taurus .Net Core 微服务开源框架:Admin 插件【4-3】 - 配置管理-Mvc【Plugin-MicroSer
    前言:继上篇:Taurus.NetCore微服务开源框架:Admin插件【4-2】-配置管理-Mvc【含请求日志打印】本篇继续介绍下一个内容:1、系统配置节点:Mvc- Plugin- MicroService 配置界面:注册中心 界面如下:简要说明:该菜单下,显示该微服务类型的菜单,可能为服务端、或客户端、或两......
  • [OSPP开源之夏-2023] 结合NWR实现Flexible Raft
    FeatureName:ImplementingFlexibleRaftwithNWRAuthor:[email protected]:2023-06-28IssueLink:https://github.com/sofastack/sofa-jraft/issues/1003Summary我们希望在原始RAFT算法的基础上,让Leader选举和日志复制除了能需要获得多数派确认模型的支持之......
  • Ubuntu虚拟机教程
    1.下载ubuntu镜像可以去中科大镜像站下载(本次下载20.04版本,不同版本操作会有差异,建议保持一致)https://mirrors.ustc.edu.cn/点击如图所示的按钮下载2.vmware配置安装虚拟机选择自定义,选择典型有几率会开不开机,且安装缓慢选择稍后安装,不然跟选择典型没有什么区别选择不使......
  • 隐私计算开源项目
    隐私计算开源项目 项目名称开源时间机构技术路径PySyft2017.7OpenMined开源社区多方安全计算、联邦学习TF-Encrypted2018.3DropoutLabs,Openmined阿里巴巴多方安全计算EzPC2018年4月微软多方安全计算Asylo2018年5月谷歌可信执行环境MesaTEE......
  • 机械臂开源项目汇总
    pick/place/pourhttps://github.com/iamrajee/ws_moveit这个ROSmelodic工作区是在Ubuntu18.04上创建的。在这里,我已经在几个moveit相关的项目,如挑选,放置,浇注任务为多机械手系统使用moveit任务构造器(MTC)。ROS教程https://github.com/ros-industrial/industrial_training......
  • aws 开源的微前端发现实现 frontend-discovery
    实际上此协议已经开放一段时间了(一年左右),里边一些实践还是很不错的,对于微前端实现的同学可以参考学习同时官方也提供了一个基于aws服务的参考实践,作者的一些演讲也是值得学习的参考格式如下图,可以看到包含了一些不错的设计,以及对于实际的部署维护,包含了元数据,多版本,fallback,......
  • kubeskoop 阿里开源的k8s 网络分析工具
    kubeskoop是阿里开源的k8s网络分析工具,提供了一个完整的k8s网络分析工具集,可以快速帮助我们分析容器网络问题,支持不少cni插件参考图 说明kubeskoop技术上利用了ebpf,功能还是很强大的,同时提供了可视化ui工具,是一个很不错的k8s网络分析工具,很值得使用下参考资料https:......
  • kvm虚拟机相关
    一、虚拟机与宿主机鼠标不同步问题:先关闭虚拟机,想要修改鼠标和宿主机界面同步方法如下:cd/etc/libvirt/qemu;vi修改相应的xml文件;在标签下添加这行语句:inputtype=’tablet’bus=’usb’/;格式同上最后再virshdefine/etc/libvirt/qemu/**.xml(相应的xml文件);即可解决问题......
  • 开源通用高性能的分布式id序列组件
    原文地址:https://ntopic.cn/p/2023062101/Gitee源代码仓库:https://gitee.com/obullxl/sequence-jdbcGitHub源代码仓库:https://github.com/obullxl/sequence-jdbc分布式id序列说明业务数据的存储,少不了数据记录的id序列。id序列(或称序列)的生成方式有很多种,比如当前时间戳、......