腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！

时间：2024-09-04 11:24:47浏览次数：14

腾讯联合浙大提出了一种定制化视频生成框架-CustomCrafter，它能够基于文本提示和参考图像生成自定义视频，同时保留运动生成和概念组合的能力。通过设计一系列灵活的模块，使得模型实现了无需额外视频，通过少量图像学习，就能生成高质量的个性化视频。

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！_图像生成

上图为 CustomCrafter 可视化结果。CustomCrafter允许自定义主体身份和运动模式通过保留运动生成和概念组合能力来生成带有文本提示的所需视频。

论文阅读

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！_人工智能_02

CustomCrafter：具有保留动作和概念合成功能的定制视频生成

摘要

定制视频生成旨在通过文本提示和主体参考图像生成高质量的视频。然而，由于它只在静态图像上进行训练，主体学习的微调过程会破坏视频扩散模型 (VDM) 组合概念和生成运动的能力。为了恢复这些能力，一些方法使用类似于提示的额外视频来微调或引导模型。这需要在生成不同运动时频繁更改引导视频甚至重新调整模型，这对用户来说非常不方便。

在本文中，我们提出了 CustomCrafter，这是一个新颖的框架，它保留了模型的运动生成和概念组合能力，而无需额外的视频和微调来恢复。为了保留概念组合能力，我们设计了一个即插即用模块来更新 VDM 中的一些参数，增强了模型捕捉外观细节的能力和对新主体的概念组合能力。对于运动生成，我们观察到 VDM 倾向于在去噪的早期阶段恢复视频的运动，而在后期阶段专注于恢复主体细节。因此我们提出动态加权视频采样策略，利用主体学习模块的可插拔性，在去噪前期降低该模块对运动生成的影响，保留VDM的生成运动的能力；在去噪后期恢复该模块，修复指定主体的外观细节，从而保证主体外观的逼真度。实验结果表明，我们的方法相比之前的方法有明显的提升。

方法

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！_AIGC_03

CustomCrafter 整体回顾。对于主题学习，我们采用 LoRA 构建空间主题学习模块，该模块更新所有 Spatial Transformer 模型中注意力层的 Query、Key 和 Value 参数。在生成视频的过程中，我们将去噪过程分为两个阶段：运动布局修复过程和主题外观修复过程。通过在运动布局修复过程中降低空间主题学习模块的影响，并在主题外观修复过程中恢复它来修复主题的细节。

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！_AIGC_04

与以前的工作相比，CustomCrafter 方法的特点是可以更好地学习主体的外观，同时保留概念组合能力和运动生成能力，只需要一个阶段的训练，而无需额外的视频。DWV 采样策略是我们的动态加权视频采样策略。

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！_人工智能_05

视频去噪过程的可视化。运动在去噪过程的早期阶段形成，主体的外观在后期阶段显现。

效果

与 SOTA 的比较

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！_人工智能_06

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！_图像生成_07

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！_图像生成_08

对包含主题和动作的定制视频生成进行定性比较。在没有其他视频指导的情况下，我们的方法在概念组合方面表现明显优于其他方法。

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！_计算机视觉_09

对包含主题和动作的定制视频生成进行定性比较。在没有其他视频指导的情况下，我们的方法在概念组合方面表现明显优于其他方法。

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！_stable diffusion_10

用户研究。CustomCrafter与其他比较方法的比较做到最好人类偏好。

结论

在本文中，我们介绍了 CustomCrafter，一种用于定制视频生成的新框架。这种方法不需要额外的视频来修复运动生成能力。我们首先设计了一个空间主题学习模块，它更新了空间注意力以完成对主题外观特征的学习。同时，我们提出了一种动态加权视频生成，它改进了模型的推理过程以恢复 VDM 的运动生成能力。通过定性和定量实验，我们证明了我们的方法比现有方法更好，保留了 VDM 结合概念和生成运动的能力。

标签：视频,生成,CustomCrafter,模块,运动,VDM
From： https://blog.51cto.com/u_16658015/11917082

媲美Flux pro! Ideogram 发布了 2.0 图像生成模型, 照片级真实感和高质量文本渲染！
Ideogram发布了2.0模型,图像生成质量大幅提高，产品易用性改善，文字生成能力也提升许多。Ideogram2.0在图像快速对齐、照片级真实感和文本渲染质量方面取得了显著进步。人工评估一致认为Ideogram2.0比FluxPro和DALL·E3有了显著改进。尽管我们在图像质量方面有所改进，但......
基于SSM二手车交易管理系统的设计与实现（含源码+sql+视频导入教程+论文+PPT）
......
字节开源 FLUX Dev 的 Haper SD Lora,只需要 8 步或者 16 步就可以用 FLUX 生成图片!
2024年8月26日,字节开源了FLUXDev的HaperSDLora。只需要8步或者16步就可以用FLUX生成图片，大幅减少FLUX的生成时间。建议LoRA比例约为0.125，该比例可适应训练和指导，比例可保持在3.5。较低步骤的LoRA即将推出。大家可以点击下面文章链接，文章包含模型下载链......
基于SSM的汽车租赁管理系统（含源码+sql+视频导入教程）
......
基于SSM的汽车租赁管理系统（含源码+sql+视频导入教程+文档）
......
基于java ssm jsp mysql微格教学视频标注系统毕业设计项目实战
前言......
视频ai智能分析边缘计算盒
视频ai智能分析边缘计算盒可以配备为在施工工地现场监测到违规事件时开启即时警报，视频ai智能分析边缘计算盒并伴随時间的变化收集数据，将其展示为历史时间数据图表、图形或热点图。视频ai智能分析边缘计算盒与传统的的视频监管方式对比，传统式的视频监管方式通常必须手动式分析很多......
ai视频监控分析软件
ai视频监控分析软件助力生产安全是建筑行业遵循道德底线的重要保障。ai视频监控分析软件是根据人工智能化机器视觉科研开发的，合理地监控了人们的不正常个人行为和监控视频照片中的所有目标的行为跟状态，并传出了报警信息。ai视频监控分析软件连接音频输出设备可以在前面传出语音警......
视频监控智能图像识别
视频监控智能图像识别技术实际上是一种，它为建筑工程施工品质和安全工作给予了优秀的方式方法。施工人员的安全隐患因为欠缺高度重视或因为缺少较好的监管方式，导致安全事故的次数较高。视频监控智能图像识别根据在施工工地安装的各种各样不限品牌的监控设备，可以有效的填补传统式监......
视频监控系统智能识别分析
视频监控系统智能识别分析可以合理处理因为监控点太多，工作人员没办法监控考虑到全部监控情景。传统监控是“处于被动监控”通常只有在“事件”发生后根据启用视频回看查找线索。视频监控系统智能识别分析主要特点是应用机器视觉，在几乎不用人工干涉的情形下，根据海康或者大华或者宇......

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！

相关链接

论文阅读

摘要

方法

效果

与 SOTA 的比较

结论

相关文章

赞助商

阅读排行