腾讯开源可控视频生成框架 MimicMotion

来源: 投稿作者: 菠萝的海子 2024-07-16 17:01:19 4

腾讯宣布开源可控视频生成框架 MimicMotion，该框架可以通过提供参考人像及由骨骼序列表示的动作，来产生平滑的高质量人体动作视频。

公告称，大量的实验结果和用户调研表明 MimicMotion 在各种方面都显著优于以往的方法。目前模型及配套代码均已开源。

与以往的方法相比，MimicMotion 具有以下几个亮点：

首先，通过引入了置信度感知的姿态引导信号，大幅提升了帧间一致性，使得产生的视频在时序上能够做到平滑自然。
其次，通过放大置信度感知的区域损失，显著减少了图像失真，使得局部画面如人体手部细节得到了大幅改善。
最后，通过结合扩散过程的渐进式潜在特征融合策略，MimicMotion 能够在有限的算力资源内生成无限长的视频同时保证画面连贯。

主要优势：

生成结果细节更清晰 (尤其是手部细节)；
生成视频时序平滑度更好，无明显闪烁；
能够生成长视频并且无明显跳变。

架构设计

MimicMotion 模型的核心结构是一个带有 U-Net 的隐空间视频扩散模型，用于在隐空间中进行逐步去噪。输入视频帧的 VAE 编码器和相应的解码器用于获取去噪视频帧，这些部分都加载了 Stable Video Diffusion (SVD) 预训练参数并将其冻结。VAE 编码器独立地应用于输入视频的每一帧以及条件参考图像，基于逐帧操作，不考虑时间或跨帧交互。不同的是，VAE 解码器处理经过 U-Net 时空交互的隐特征。为了确保生成流畅的视频，VAE 解码器在空间层外加入了时间层，以镜像 VAE 编码器的架构。

除了输入视频帧之外，参考图像和姿态序列是模型的另外两个输入。参考图像通过两个独立的路径输入到扩散模型中。一个路径是将图像输入到 U-Net 的每个模块中。具体来说，通过类似 CLIP 的视觉编码器，提取图像特征并将其输入到每个 U-Net 模块的交叉注意力中，以最终控制输出结果。另一个路径针对输入的隐特征。与原始视频帧类似，输入的参考图像使用相同的冻结 VAE 编码器进行编码，以在隐空间中获得其表示。然后，单个参考图像的隐特征沿着时间维度复制，以与输入视频帧的特征对齐。复制的隐参考图像与隐视频帧沿通道维度连接在一起，然后一起输入到 U-Net 中进行扩散。

为了引入姿态的指导，PoseNet 被设计为一个可训练的模块，用于提取输入姿态序列的特征，它由多个卷积层实现。不使用 VAE 编码器的原因是姿态序列的像素值分布与 VAE 自编码器训练的普通图像不同。通过 PoseNet 提取姿态特征，然后逐元素地添加到 U-Net 第一个卷积层的输出中。这样，姿态指导的影响可以从去噪的一开始就发挥作用。

MimicMotion 在生成多种形式的人体动作视频上均具有良好的结果，包括半身动作、全身动作以及谈话动作视频。相比现有的开源方案如 MagicPose、Moore-AnimateAnyone 等；

MimicMotion 具有以下几点优势：

1. 生成结果细节更加丰富且清晰，包括人体手部细节；

2. 帧间连续性更加优秀，画面无明显跳变；

3. 支持平滑的长视频生成。

在量化指标评估实验中，MimicMotion 相比现有开源方案 MagicPose、Moore-AnimateAnyone 以及 MuseV，在 FID-VID 及 FVD 测试指标上均取得了领先。

考虑生成结果对于用户的直观感受，在由 36 位人员参与的用户调研中，MimicMotion 获得了 75.5% 以上的优胜率。

官方网站：https://tencent.github.io/MimicMotion
代码仓库：https://github.com/Tencent/MimicMotion
论文地址：https://arxiv.org/abs/2406.19680

标签：视频,MimicMotion,图像,VAE,开源,腾讯,生成,输入
From： https://www.cnblogs.com/sexintercourse/p/18312038

【开源分享】2024PHP在线客服系统源码(全新UI+终身使用+安装教程)
PHP在线客服系统核心功能用户留言协同工作：留言后，用户能够享受在线咨询、订单查询等服务；登录状态也用于权限控制，确保不同用户访问合适的资源。咨询处理作用：提供实时或异步的客服咨询功能，允许用户向客服发送问题并接收回复。重要性：是客服系统的核心功能，直接影响用户体验和满意......
分享 6 款用于管理Docker容器的免费开源工具
Docker是一个开源平台，可自动执行应用程序的部署、扩展和管理。它使用容器化技术将应用程序及其依赖项打包到软件开发的标准化单元中。这使得使用容器创建、部署和运行应用程序变得更加容易，容器允许开发人员将应用程序及其所需的所有部分（例如库和其他依赖项）打包在一起，并将其全......
开源 C++ 框架 Ocean：用于计算机视觉和增强现实
Facebook开源了其内部用于计算机视觉(CV)和增强现实(AR) 应用程序的框架Ocean，用于执行各种任务，包括计算机视觉、几何、媒体处理、网络和渲染。Ocean主要使用C++编写，且不依赖于特定平台：Ocean是一个独立于平台的框架，支持所有主要操作系统，包括iOS、Android、Quest......
【开源库】libodb库编译及使用
前言本文介绍windows平台下libodb库的编译及使用。文末提供libodb-2.4.0编译好的msvc2019_64版本，可直接跳转自取libodb库libodb是一个开源、跨平台、跨数据库的对象关系映射（ORM）系统，可以持久化C++对象到关系数据库，而不必处理表、列或者SQL，无需手动编写任何映射代码。ODB......
【LLM大模型】《开源大模型食用指南》全网发布，轻松助你速通llm大模型！
前言《开源大模型食用指南》是一个围绕开源大模型、针对国内初学者、基于AutoDL平台的中国宝宝专属大模型教程，针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导，简化开源大模型的部署、使用和应用流程，让更多的普通学生、研究者更好地使用......
支持语音电话、短信、企业微信、钉钉、APP、第三方接口、音柱等多种告警通知方式的智
AI视频监控平台简介AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。用户只需在界面上进行简单的操作，就可以实......
支持多路多算法实时监控与AI计算的智慧能源开源了。
简介AI视频监控平台,是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，减少企业级应用约95%的开发成本，用户仅需在界面上简单操作，即可实现全视频的接入及布控。 v：159......
MiniRHex：一种开源的六足机器人 by DYNAMIXEL Robotis
原文链接：https://www.youtube.com/watch?v=ldLXVDNCCzc At#IROS 2023,weranintotheCarnegieMellonUniversity RobomechanicsLab.TheyhadsomereallycoolrobotstherethatwerePoweredby#DYNAMIXEL XLseriesmotors.Oneoftherobotstheyhadfeat......
使用高德/百度/腾讯SDK，不购买地图商用授权APP无法上架？
随着国内三大图商联合针对地图位置服务收取5万/年的商业授权费，许多使用三大图商地图或定位sdk的应用开发企业遇到了两难：没有地图商业授权，无法上架！其实大家信息了解有误区，并非都无法上线。目前国内主流的上架商城：华为商城、小米商城、应用宝、vivo、oppo等。上架华为商城通常......
【开源库学习】libodb库学习（二）
使用持久对象前面的章节为我们提供了ODB的高级概述，并展示了如何使用它在数据库中存储C++对象。在本章中，我们将更详细地研究ODB对象持久性模型以及核心数据库API。我们将从第1节和第3节中的基本概念和术语开始，并继续讨论第4节中的odb:：数据库类、第5节中的事务和第6节中的连......

腾讯开源可控视频生成框架 MimicMotion

腾讯开源可控视频生成框架 MimicMotion

主要优势：

架构设计

相关文章

赞助商

阅读排行