中科大提出了一种新的视频流制作动画解决方案RAIN,能够使用单个RTX 4090 GPU 实时低延迟地为无限视频流制作动画。RAIN 的核心思想是有效地计算不同噪声水平和长时间间隔的帧标记注意力,同时对比以前基于流的方法多得多的帧标记进行去噪。这种设计允许 RAIN 生成具有更短延迟和更快速度的视频帧,同时保持对扩展视频流的远程注意力,从而增强连续性和一致性。
下面展示跨领域人脸变形生成结果。实现了动漫人物的实时动画。真人表情
可以成功移植到动漫人物上,且生成稳定、一致、无限长。
RAIN可以在客户级设备上制作实时动画。
相关链接
-
论文:http://arxiv.org/abs/2412.19489v1
-
主页:https://pscgylotti.github.io/pages/RAIN
论文介绍
RAIN:无限视频流的实时动画
实时动画因增强在线参与度而广受欢迎,但使用扩散模型实现高质量、实时和稳定的动画仍然具有挑战性,尤其是在消费级 GPU 上。现有方法难以有效地生成长而一致的视频流,通常受到延迟问题和长时间内视觉质量下降的限制。
在本文中,我们介绍了 RAIN,这是一种管道解决方案,能够使用单个 RTX 4090 GPU 实时低延迟地为无限视频流制作动画。RAIN 的核心思想是有效地计算不同噪声水平和长时间间隔的帧标记注意力,同时对比以前基于流的方法多得多的帧标记进行去噪。这种设计允许 RAIN 生成具有更短延迟和更快速度的视频帧,同时保持对扩展视频流的远程注意力,从而增强连续性和一致性。因此,使用 RAIN 在短短几个时期内进行微调的稳定扩散模型可以实时、低延迟地生成视频流,而不会在质量或一致性方面做出太大妥协,最长可达无限长。尽管 RAIN 拥有先进的功能,但它仅引入了一些额外的 1D 注意力模块,因此额外负担很小。在基准数据集中进行的实验和生成的超长视频表明,RAIN 可以实时为角色制作动画,并且质量、准确性和一致性远高于竞争对手,同时延迟更低。所有代码和模型都将公开发布。
框架
RAIN采用流水线式设计,用于流式视频推理。潜在状态由阶梯式噪声水平的帧填充。每次对一组帧进行去噪处理。因此RAIN支持生成无限长的视频。
为了加速,RAIN采用了多种加速方法。我们对 UNet 模型进行 LCM Distillation,并采用TAESDV作为 VAE 解码器。在 TensorRT 加速下,RAIN在单个 RTX 4090 上以 18 fps 的速度运行,延迟约为 1.5 秒,分辨率为 512x512,使用 DWPose 作为特征提取器。
全身动画
来自 UBC-Fashion 数据集的测试示例,该模型仅在训练数据集中的 500 个视频片段上进行训练。
跨域人脸变形
脸部变形示例,真实脸部的表情和头部位置被映射到动漫脸部中。
未来
RAIN提供了一种使用 AI 渲染实时动画的可能方式。期待未来可以将 AI 与 CG 结合起来渲染游戏、直播和虚拟现实。可以充分利用 AI 的泛化能力来渲染无数新场景和对象,并提供一种更具互动性的方式来参与合成的世界。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习
标签:动画,中科大,AI,视频流,RAIN,实时,延迟 From: https://blog.csdn.net/xs1997/article/details/145148324