首页 > 其他分享 >Adobe与MIT推出自回归实时视频生成技术CausVid。AI可以边生成视频边实时播放!

Adobe与MIT推出自回归实时视频生成技术CausVid。AI可以边生成视频边实时播放!

时间:2025-01-14 21:58:10浏览次数:3  
标签:视频 蒸馏 CausVid 模型 实时 生成 双向

传统的双向扩散模型(顶部)可提供高质量的输出,但存在显著的延迟,需要 219 秒才能生成 128 帧的视频。用户必须等待整个序列完成才能查看任何结果。相比之下CausVid将双向扩散模型提炼为几步自回归生成器(底部),大大降低了计算开销。CausVid的初始延迟仅为1.3秒,之后以大约 9.4 FPS 的速度以流式方式连续生成帧,从而促进了视频内容创建的交互式工作流程。

就像从下载整部电影到直接观看流媒体的转变,在模型生成首帧画面后,视频便可以即时播放,后续内容则动态生成并无缝衔接。AI生成视频,边生成边实时播放,终于不用等了!

相关链接

  • 论文地址:https://arxiv.org/abs/2412.07772

  • 项目链接:https://causvid.github.io/

论文介绍

当前的视频扩散模型实现了令人印象深刻的生成质量,但由于双向注意力依赖性,在交互式应用中表现不佳。生成单个帧需要模型处理整个序列,包括未来。我们通过将预训练的双向扩散变压器调整为可即时生成帧的自回归变压器来解决这一限制。为了进一步减少延迟,我们将分布匹配蒸馏 (DMD) 扩展到视频,将 50 步扩散模型蒸馏为 4 步生成器。为了实现稳定和高质量的蒸馏,我们引入了基于教师 ODE 轨迹的学生初始化方案,以及监督具有双向教师的因果学生模型的非对称蒸馏策略。这种方法有效地减轻了自回归生成中的错误积累,尽管在短片段上进行训练,但仍允许长时间的视频合成。我们的模型在 VBench-Long 基准上获得了 84.27 的总分,超越了所有以前的视频生成模型。得益于 KV 缓存,它能够在单 GPU 上以 9.4 FPS 的速度快速流式生成高质量视频。我们的方法还能够以零样本方式实现流式视频到视频的转换、图像到视频和动态提示。我们将在未来基于开源模型发布代码。

CausVid 方法概述

我们的方法将多步双向视频传播模型的数据提炼为4步因果生成器G ϕ。训练过程包括两个阶段:(1)学生初始化:我们通过在由双向教师生成的一小组 ODE 解对上对其进行预训练来初始化因果学生。此步骤有助于稳定后续的蒸馏训练。(2)非对称蒸馏:使用双向教师模型,我们 通过分布匹配蒸馏损失 来训练因果学生生成器。

一流的文本转视频生成质量

我们的模型在 VBench 上获得了 84.27 的总分(参见 VBench 排行榜),在所有经过验证的提交中排名第一,并以 9.4 FPS 的速度在单个 GPU 上实现了快速流式推理。雷达图直观地展示了我们的方法在几个关键指标上的综合性能优势,包括动态程度、美学质量、成像质量、对象类别、多个对象和人类动作。此外,根据我们的人工评估,我们的快速模型超越了竞争方法(例如 CogVideoX、PyramidFlow、MovieGen 和我们的双向教师),所有这些方法的速度都明显慢了几个数量级。

交互式用户界面

我们展示了一个交互式用户界面 (UI),其特点是文本到 10 秒的视频生成、通过滑动窗口推理的无限长视频生成以及图像到视频的生成功能。

效果展示

我们的方法支持多种视频生成任务。该模型可以从单个文本提示(顶行)或附加图像输入(第二行)生成视频。我们的模型还支持交互式应用程序,其中生成结果以低延迟响应用户输入。例如,它可以为基本游戏引擎渲染的输出添加逼真的纹理和灯光,该引擎可以动态响应用户输入(第三行)。此外,它还支持动态提示(第四行),允许用户在视频中的任何位置输入新提示,以构建具有不断发展的动作和环境的扩展叙述。

CausVid 表明自回归视频扩散可以有效地扩展到一般的文本到视频任务, 实现与双向扩散模型相当的质量。此外,当与蒸馏技术结合使用时,它可以提供多个数量级的加速。

CausVid 专门针对文本到视频生成进行训练,由于其自回归设计,可以零样本应用于图像到视频任务。在所示的示例中,第一列表示输入图像,而后续帧表示生成的输出。

标签:视频,蒸馏,CausVid,模型,实时,生成,双向
From: https://blog.csdn.net/xs1997/article/details/145148479

相关文章

  • python语言A站视频爬虫程序代码QZQ1
    importrequestsimportosimportsubprocess#https://ali-safety-video.acfun.cn/mediacloud/acfun/acfun_video/3fd2d78e1ebba085-529617cf38bbad5860227fbdf3a41546-hls_720p_2.00003.ts?pkey=ABC_F8k9Ed6OSnAdir8rrRmbYfeU39b5CvYeJQ3ttw8ZLQzlfk1NZNLJOlmwW-9ENIIuNL......
  • 用于与多个数据库聊天的智能 SQL 代理问答和 RAG 系统(4) —— 利用大型语言模型(LLM)生成
    实现一个与旅行相关的SQL数据库交互的工具,利用大型语言模型(LLM)生成和执行SQL查询,并通过语言模型处理查询结果生成最终答案。完整代码:fromlangchain_core.toolsimporttoolfromlangchain_community.utilitiesimportSQLDatabasefromlangchain.chainsimportcreate_......
  • 江科大STM32入门——读写备份寄存器(BKP)&实时时钟(RTC)笔记整理
    wx:嵌入式工程师成长日记https://mp.weixin.qq.com/s/hDk7QaXP8yfYIj1gUhtMrw?token=1051786482&lang=zh_CNhttps://mp.weixin.qq.com/s/hDk7QaXP8yfYIj1gUhtMrw?token=1051786482&lang=zh_CNRTC是一个独立的定时器,BKP并不能完全掉电不丢失,其可以完成一些主电源掉电时,保存少......
  • AIGC从入门到实战:进阶:魔法打败魔法,让 AI 自动生成提示词
    AIGC,提示词生成,自然语言处理,深度学习,Transformer,预训练模型,算法原理,实践应用1.背景介绍近年来,人工智能生成内容(AIGC)技术蓬勃发展,以其强大的文本生成能力,在创作、翻译、摘要等领域展现出巨大的潜力。然而,AIGC的应用离不开高质量的提示词,而手工撰写提示词......
  • 批量生成并打印文档Excel2Word
    Excel2Word是一款利用Excel数据生成Word文档的工具。 使用过程主要分为两部分:Word模板制作批量生成Word(生成、保存、打印可选) 其中Word模板制作,是在Word模板中插入书签,并且与Excel标题行的列名关联。批量生成Word,是在Excel中选中多行,然后点击生成即可。 以下结......
  • C:\Users\Administrator\Local Settings\temp 是 Windows 操作系统中的一个临时文
    C:\Users\Administrator\LocalSettings\temp是Windows操作系统中的一个临时文件夹,通常用于存储操作系统和应用程序在运行时生成的临时数据。具体来说,temp文件夹用于存放临时文件,例如:安装文件:一些程序在安装过程中会将临时文件放在这里。缓存文件:一些程序可能会将数据缓存......
  • 随机生成20以内加减法运算题目
    <?phpfunctiongenerateMathProblem(){//随机选择加法或减法$operation=rand(0,1)?'+':'-';//生成两个0到20之间的随机数$num1=rand(0,20);$num2=rand(0,20);//计算结果,注意处理减法可能导致负数的情况if($operation=......
  • 服务器FTP账号无法生成指定文件夹,如何解决?
    当您使用FTP账号无法生成指定文件夹时,这可能是由于权限设置不当或FTP客户端配置错误引起的。为了帮助您解决问题,我们可以从以下几个方面进行排查和处理:检查FTP账号权限确认您的FTP账号是否具有足够的权限来创建文件夹。您可以登录FTP服务器管理界面,检查该账号的权限设置,确保它......
  • 网站视频播放功能无法正常使用的原因及解决方法
    当您发现网站上的视频无法正常播放时,可能是由多种因素引起的。为了快速定位并解决问题,您可以按照以下步骤进行排查和修复:检查MIME类型配置:MIME类型是浏览器用来识别文件类型的机制。如果服务器未正确配置MIME类型,浏览器可能无法正确解析视频文件。确保服务器配置了正确的MIME......
  • 应用场景——教育培训类二、学习路径规划助手开发实战(根据学生画像生成学习规划)
    通过大模型实现个性化学习路径规划与自适应教育在现代教育中,个性化学习正在逐步成为一种趋势。每个学生都有不同的学习需求、兴趣偏好和学习节奏。传统的“一刀切”教学模式很难满足每个学生的个性化需求。因此,如何为学生提供个性化的学习路径规划,帮助他们以最合适的方式进......