首页 > 其他分享 >一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)

时间:2024-09-19 11:25:00浏览次数:3  
标签:Hallo 数字 动画 面部 EchoMimic 访问 开源 表情


一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)。

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)_数字人

近日,AI领域迎来了一个重磅消息——百度联合复旦大学、苏黎世联邦理工学院和南京大学共同推出一个开源项目,名为"Hallo"。它能够通过上传图片并输入语音,生成与人物嘴唇同步、表情变化和姿态变化相匹配的动画。

官网:https://fudan-generative-vision.github.io/hallo/#/

01核心技术

Hallo的核心技术革新在于其引入的“交叉注意力机制”,该技术巧妙地在音频输入与视觉输出之间建立了精密的联动。

通过这种机制,Hallo能够实时地让声音与嘴唇运动、面部表情以及头部动作实现高度同步,从而呈现出流畅而自然的动画效果。

相较于传统技术,Hallo无需繁琐的中间处理步骤,即可直接生成高清逼真的动画视频,为用户带来前所未有的沉浸式体验。

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)_数字人_02

Hallo的研究团队在技术创新上更进一步,引入“时间对齐技术”,这一技术确保了生成视频在时序上的连贯性和一致性。

通过精确的时间对齐,每一帧之间的动作过渡都显得流畅而自然,为用户带来更加逼真的视觉体验。

此外,研究团队还巧妙地结合了扩散生成模型和基于UNet的去噪器,这些技术的融合使得生成的动画不仅在视觉上保持了高度的保真度,还呈现出丰富细腻的细节。

02应用场景

经典电影致敬:通过动画技术向经典电影致敬。

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)_数字人_03

虚拟角色:创建虚拟角色,用于游戏、电影或其他媒体。

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)_数字人_04


真实人物:将真实人物的动作和表情转化为动画。

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)_音视频_05


动作控制:精确控制角色的姿态、表情和嘴唇动作。

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)_音视频_06


歌唱动画:生成与歌唱同步的动画。

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)_开源_07


跨演员表现:实现不同演员之间的表现转换。

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)_音视频_08

03一键启动

步骤一
打开链接:https://pan.quark.cn/s/c0dde37654e0

步骤二
下载安装包至本地后双击即可一键启动,自动打开一个简单的用户界面

输入视频/音频

调整各种参数

就可以等待生成数字人啦

电脑配置如下:

Windows 10/11 64位操作系统

12G显存以上英伟达显卡


EchoMimic是蚂蚁集团最新推出的AI数字人开源项目,它能够为静态图像注入生命,赋予它们语音和表情的活力。利用深度学习技术,EchoMimic结合音频和面部特征点,创造出极具真实感的动态视频。这项技术不仅能够独立使用音频或面部特征来生成视频,还能将两者融合,实现更加自然流畅的口型同步效果。EchoMimic支持包括中文和英语在内的多种语言,尤其适合唱歌等多样化场景。其在娱乐、教育、虚拟现实等多个领域的应用,预示着数字人技术迎来了一次革命性的飞跃。

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)_音视频_09


EchoMimic功能特色

音频同步动画

EchoMimic通过分析音频波形,能够精确地生成与语音同步的口型和面部表情,为静态图像带来生动的动态效果。

面部特征融合
利用先进的面部标志点技术,EchoMimic捕捉并模拟眼睛、鼻子、嘴巴等关键部位的运动,大大增强了动画的真实感。

多模态学习
结合音频和视觉数据,EchoMimic采用多模态学习方法,进一步提升了动画的自然度和表现力。

跨语言能力
支持中文普通话和英语等多种语言,EchoMimic能够满足不同语言区域用户的动画制作需求。

风格多样性
EchoMimic能够适应日常对话、歌唱等多种表演风格,为用户提供了广泛的应用场景。

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)_开源_10

安装及使用
1、 下载代码

git clone https://github.com/BadToBest/EchoMimic
  cd EchoMimic

2、 Python 环境设置

系统环境:

Centos 7.2/Ubuntu 22.04,Cuda >= 11.7

GPU:A100(80G)/ RTX4090D(24G)/ V100(16G)

Python 版本:3.8 / 3.10 / 3.11

创建 conda 环境:

conda create -n echomimic python=3.8
  conda activate echomimic

安装软件包pip

pip install -r requirements.txt

3、 下载 ffmpeg-static

下载并解压ffmpeg-static,然后

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

4、下载预训练权重

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights

pretrained_weights的组织结构如下:

./pretrained_weights/
├── denoising_unet.pth
├── reference_unet.pth
├── motion_module.pth
├── face_locator.pth
├── sd-vae-ft-mse
│   └── ...
├── sd-image-variations-diffusers
│   └── ...
└── audio_processor
    └── whisper_tiny.pt

其中denoising_unet.pth / reference_unet.pth / motion_module.pth / face_locator.pth是EchoMimic的主要检查点。

5、 音频驱动算法推理

运行python推理脚本:

python -u infer_audio2vid.py

6、 音频驱动算法推理自己的案例

编辑推理配置文件./configs/prompts/animation.yaml,添加自己的案例:

test_cases:
  "path/to/your/image":
    - "path/to/your/audio"

运行python推理脚本:

python -u infer_audio2vid.py

一件部署安装百度开源数字人项目Hallo!图片视频!效果炸裂!含整合包!开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目:为唱歌和对话提供支持的AI数字人技术(附代码)_免费_11

项目地址
github: https://github.com/BadToBest/EchoMimic

官网:https://badtobest.github.io/echomimic.html

EchoMimic的推出不仅是阿里巴巴在数字人技术领域的一次重大突破,也是对现有技术的一次全面革新。传统肖像动画技术往往依赖单一的音频驱动或面部关键点驱动,各自拥有独特的优势。EchoMimic则巧妙地将这两种驱动方式融合,通过音频和面部关键点的双重训练,创造出更加逼真、自然的动态肖像效果。这一创新不仅提升了动画的表现力,也为数字人技术的发展开辟了新的可能性。


以下是20个免费开源的数字人项目,它们涵盖了虚拟人、数字角色生成、表情动画等多个领域,并分别介绍其主要特点和访问链接:

1. MakeHuman

  • 特点: 一款免费的开源3D人类建模工具,可以生成可定制的数字人模型。提供了对人体各部分的精细控制,适合动画、游戏和CG制作。
  • 访问: MakeHuman

2. Blender MetaHuman Add-on

  • 特点: Blender 社区提供的插件,可以结合 Unreal Engine 的 MetaHuman 生成数字人,并通过 Blender 进行动画处理和自定义。
  • 访问: Blender Add-ons

3. Avatarify

  • 特点: 使用 AI 技术将普通视频转换为实时的虚拟形象,并支持视频通话中的实时虚拟表情同步。
  • 访问: Avatarify

4. DeepFaceLab

  • 特点: 一个广泛使用的深度伪造开源工具,可以创建和修改面部表情及换脸效果,适合数字人物动画。
  • 访问: DeepFaceLab

5. DeepMotion Animate 3D

  • 特点: 基于AI驱动的3D动画工具,提供数字角色的骨骼追踪和动作捕捉功能,适用于动画和游戏开发。
  • 访问: DeepMotion

6. FaceGen

  • 特点: 提供了3D人脸生成的工具,可以根据照片生成虚拟人脸,适合创建可定制的虚拟角色。
  • 访问: FaceGen

7. DeepFace

  • 特点: 用于人脸识别和人脸表情生成的开源工具,适合虚拟人的面部识别、追踪和情感分析。
  • 访问: DeepFace

8. VRoid Studio

  • 特点: 日本开发的虚拟人模型生成工具,特别适合生成动漫风格的虚拟角色,并支持动画和游戏应用。
  • 访问: VRoid Studio

9. OpenPose

  • 特点: 提供实时人体姿势估计和表情捕捉的开源工具,可以将摄像头拍摄的图像转换为骨架追踪数据,适合数字人物动画。
  • 访问: OpenPose

10. OpenFace

  • 特点: 用于实时面部识别和表情捕捉的工具,支持对虚拟人的面部动画进行详细控制。
  • 访问: OpenFace

11. Mano (Hand Model)

  • 特点: 提供人类手部的3D建模工具,用于虚拟角色的手部动画和手势捕捉。
  • 访问: Mano

12. Mixamo

  • 特点: 提供免费的人物动作捕捉和动画生成工具,可以为虚拟角色添加预制的动作。
  • 访问: Mixamo

13. Choregraphe Suite (NAOqi)

  • 特点: 用于开发和控制 Pepper 和 NAO 机器人,这些机器人可以被编程为具有类似人类的行为和面部表情。
  • 访问: NAOqi

14. OpenMMLab

  • 特点: 提供了多种基于深度学习的人体姿势、面部表情追踪和数字人物动画解决方案。
  • 访问: OpenMMLab

15. Godot Engine

  • 特点: 一个开源的2D/3D游戏引擎,支持自定义的数字人动画和表情捕捉。
  • 访问: Godot Engine

16. Unity + Digital Human Toolkit

  • 特点: Unity 提供的虚拟数字人工具包,支持3D虚拟人的动画制作和表情捕捉。
  • 访问: Unity Digital Human

17. Morph Targets Blender

  • 特点: Blender 提供的数字人物面部表情动画插件,可以根据面部表情生成动态表情变化。
  • 访问: Morph Targets Blender

18. Faceshift

  • 特点: 提供实时面部表情捕捉和动画生成,适合游戏和影视制作中的虚拟角色表情动画。
  • 访问: Faceshift

19. Character Creator

  • 特点: 提供3D虚拟人物生成,支持个性化的外貌、服装和动作定制,广泛应用于游戏和影视。
  • 访问: Character Creator

20. Emotiy

  • 特点: 提供基于面部表情的情感分析和虚拟角色情感驱动功能。
  • 访问: Emotiy

这些开源项目和工具提供了数字人物的创建、面部表情捕捉、动画生成和情感分析等功能,广泛应用于游戏、动画、虚拟现实和影视等领域。


标签:Hallo,数字,动画,面部,EchoMimic,访问,开源,表情
From: https://blog.51cto.com/u_12763213/12055170

相关文章

  • 智慧农业:数字化管理与精准农业技术的未来
    在当今社会,科技的迅速发展正在深刻改变各行各业,农业亦不例外。随着全球人口不断攀升,传统农业面临着巨大的挑战:如何在有限的土地和资源上,实现可持续发展,保障粮食安全?答案在于智慧农业的崛起。#什么是智慧农业?智慧农业是运用先进的信息技术与数据分析方法,实现农业生产的智能化......
  • Unity自定义图片数字TextMeshPro
    本文转载自https://www.cnblogs.com/sailJs/p/181689221、首先要有一张包含了图片字的图集,每个图片字一个Spirte 2、然后右键-> 创建创建好的TMP_SpriteAsset 3、编辑SpriteCharacterTable调整顺序,将index和图片数字对上修改下Unicode值(默认都是0xFFFE),比如9的Un......
  • c++1095: 时间间隔(多实例测试) (字符串和字符以及数字的转换)
    问题描述:题目描述从键盘输入两个时间点(24小时制),输出两个时间点之间的时间间隔,时间间隔用“小时:分钟:秒”表示。要求程序定义如下两个函数,并在main()中调用这两个函数实现相应的功能/*三个形参分别为为用于表示一个时间点的时、分、秒,函数返回对应的秒。*/int HmsToS(int......
  • 硬核项目合集!适合外包的 12 个开源后台管理系统,统统拿去做私活
    1.D2admin开源地址:https://github.com/d2-projects/d2-admin文档地址:https://d2.pub/zh/doc/d2-admin/效果预览:https://d2.pub/d2-admin/preview/#/index开源协议:MIT2.vue-element-admin开源地址:https://github.com/PanJiaChen/vue-element-admin文档地址:https://panj......
  • 重庆“1361数字城市”模式,入选国家数据局案例!
    近期,国家数据局发布《国家数字经济创新发展试验区建设案例集》。其中,数字重庆“打造三级数字化城市运行和治理中心 探索城市精准治理新路径”入选。关注“智慧城市指北”公众号,回复关键字“20240911”,获取获得“数字经济创新发展试验区建设案例集”(前20个案例)资料的方式,案例......
  • 数字增加
    importshutilimportos#假设文件在当前目录下source_directory='.'#源文件夹,可以根据需要修改file_prefix='0000'#文件名前缀file_suffix='.jpg'#文件名后缀#遍历1到15foriinrange(1,16):#生成源文件名和目标文件名src_file=os.p......
  • 健身房预约小程序定制搭建,数字化运营管理
    目前,健身已经成为了大众日常生活中不可或缺的一部分,不管是健身跑步、打羽毛球等,都受到了大众的欢迎!随着健身行业的快速发展,为了提高大众的健身体验,健身房预约系统得到了广泛发展。预约系统不仅解决了用户排队预约的问题,也能让健身房管理的更加高效!本文介绍健身房预约系统的功能特点......
  • 55页可编辑PPT | 集团制造企业数字化转型顶层设计方案
    这份PPT文档是一份关于集团制造企业数字化转型的顶层业务设计方案。文档详细介绍了企业在后ERP时代面临的挑战,以及如何通过Oracle解决方案来实现数字化转型。数字化转型的三大要点集中在满足利益相关者的期望,以企业价值为核心引领业务模式的创新,并利用信息技术作为企业运营的神经中......
  • 什么是数据治理?在企业数字化转型过程中有什么用?
    建设背景有效的数据治理不仅能够确保数据的安全和质量,还能为企业提供深入的业务洞察,推动决策制定和创新。数据治理是数字化转型的基础,是数据资源成为数据资产的基础,只有经过了数据治理,相应的数据资源才能产生价值。数据治理的定义与理论体系数据管理:是规划、控制和提供数据及信息资......
  • 构建数字化工厂的智能制造-数字化智能制造(82页PPT下载)
    方案介绍:智能制造是指通过信息技术的应用,将传统制造业转变为基于数据和智能化决策的现代化制造方式。它以数字化技术为基础,实现了生产流程的数字化、信息化和自动化。智能制造不仅提升了生产效率和质量,还促进了资源的有效利用和环境保护,实现了绿色生产的目标。构建数字化工厂的智能......