这里,我们汇总前面完成的工作(图像生成方面的研究),总结近两年来突出的视频生成算法/模型,并展望未来的工作计划(视频生成)。
文章目录
前情提要——图像生成
此前,我们深入钻研图像生成领域,对一系列关键模型展开系统性研究。从广泛应用且不断拓展的Stable Diffusion及其各类微调版本,到Open AI创意新颖的DALL·E系列,再到国产自主创新特色的CogView系列。
- Stable Diffusion:https://blog.csdn.net/haopinglianlian/category_12834919.html
- DALL·E系列:https://blog.csdn.net/haopinglianlian/category_12861695.html
- CogView系列:https://blog.csdn.net/haopinglianlian/category_12872391.html
在研究过程中,我们还对涉及多模态技术的相关论文进行了详细解读,力求精准把握图像生成与多模态融合的前沿技术脉络 。
后续介绍——视频生成
在接下来的这段时间,我们将持续深入探究 AIGC 在视觉领域的蓬勃发展,聚焦于视频生成这一极具魅力与潜力的方向。
本系列内容主要围绕近两年涌现的各类模型展开,并且以 2024 年初(确切地说,是以 Sora 的出现)作为关键分水岭,将整个内容划分为两个鲜明的部分,以便更清晰、更有条理地为您呈现视频生成领域的前沿动态与技术演进。
2023年进展
2024年(Sora)之前的AIGC视频生成模型/论文时间线如下所示:
图源:https://twitter.com/venturetwins/status/1741147864498397328
这里我们不会详细介绍每一个模型,会选择性挑选部分有代表性和创新性研究的模型/论文进行研究。例如:
- Runway的Gen系列
- Meta的Emu Video和Emu Edit
- 字节跳动的PixelDance【于23年11月发布论文】和 Seaweed【论文未发布】。
- Pika1.0]
- SVD
其中,可能会涉及到一些多模态论文,我们也会进行详细的解读,例如:
ViViT: A Video Vision Transformer
VDT: General-purpose Video Diffusion Transformers via Mask Modeling
Temporally Consistent Transformers for Video Generation
Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
2024年进展
在2024年,Sora的爆火,将视频生成带入了高潮,这一年,整个AI领域都在高速发展,2024年(Sora)之后的AI模型如下:
图源:https://huggingface.co/spaces/reach-vb/2024-ai-timeline
其中在视频领域的模型有:
以下是按照月份梳理出的视频生成相关内容:
二月
- OpenAI宣布推出可制作长达一分钟视频的Sora模型,该模型当时尚未向公众发布。
五月
- Google发布视频创作模型Veo,同时还宣布推出具有多模式功能,用于实时音频和视频接收的Astra模型 。
六月
- Runway推出用于视频生成的新型AI模型Gen3 Alpha。
八月
- Luma推出用于视频创作的Dream Machine 1.5型号。
九月
- 视频生成模型KLING 1.5发布。
十月
- Meta推出Movie Gen,这是一种根据文本输入生成视频、图像和音频的新型AI模型。
- Pika推出视频模型1.5以及“Pika效果”。
- Adobe宣布其视频创作模型Firefly Video。
十二月
- 亚马逊推出名为NOVA的新系列模型,专为文本、图像和视频处理而设计。
- OpenAI发布视频生成模型SORA,以及面向高级订阅者的O1和O1 Pro完整版,还推出GPT4o的直播视频模式。
- 谷歌推出测试版视频生成模型Veo 2,能够生成长达两分钟的4K视频。
- Pika Labs发布其人工智能视频生成器的最新版本2.0。
- Meta推出Apollo,这是一种有三种不同尺寸的视频生成模型。
- 视频生成模型Kling 1.6发布,性能显著提升。
2024年的视频生成模型/论文,我们根据上面的综述中,我们除了会详细介绍Sora,以及之前已介绍过的系列模型的最新迭代/进展,还会挑一部分有特点的模型进行解读。
标签:视频,模型,AIGC,生成,2024,算法,Sora,https From: https://blog.csdn.net/haopinglianlian/article/details/145160226