首页 > 编程语言 >AIGC视频生成算法/模型总结

AIGC视频生成算法/模型总结

时间:2025-01-15 18:05:04浏览次数:3  
标签:视频 模型 AIGC 生成 2024 算法 Sora https

这里,我们汇总前面完成的工作(图像生成方面的研究),总结近两年来突出的视频生成算法/模型,并展望未来的工作计划(视频生成)。

在这里插入图片描述

文章目录

前情提要——图像生成

此前,我们深入钻研图像生成领域,对一系列关键模型展开系统性研究。从广泛应用且不断拓展的Stable Diffusion及其各类微调版本,到Open AI创意新颖的DALL·E系列,再到国产自主创新特色的CogView系列。

  1. Stable Diffusion:https://blog.csdn.net/haopinglianlian/category_12834919.html
  2. DALL·E系列:https://blog.csdn.net/haopinglianlian/category_12861695.html
  3. CogView系列:https://blog.csdn.net/haopinglianlian/category_12872391.html

在研究过程中,我们还对涉及多模态技术的相关论文进行了详细解读,力求精准把握图像生成与多模态融合的前沿技术脉络 。

后续介绍——视频生成

在接下来的这段时间,我们将持续深入探究 AIGC 在视觉领域的蓬勃发展,聚焦于视频生成这一极具魅力与潜力的方向。

本系列内容主要围绕近两年涌现的各类模型展开,并且以 2024 年初(确切地说,是以 Sora 的出现)作为关键分水岭,将整个内容划分为两个鲜明的部分,以便更清晰、更有条理地为您呈现视频生成领域的前沿动态与技术演进。

2023年进展

2024年(Sora)之前的AIGC视频生成模型/论文时间线如下所示:
在这里插入图片描述

图源:https://twitter.com/venturetwins/status/1741147864498397328

这里我们不会详细介绍每一个模型,会选择性挑选部分有代表性和创新性研究的模型/论文进行研究。例如:

  1. Runway的Gen系列
  2. Meta的Emu Video和Emu Edit
  3. 字节跳动的PixelDance【于23年11月发布论文】和 Seaweed【论文未发布】。
  4. Pika1.0]
  5. SVD

其中,可能会涉及到一些多模态论文,我们也会进行详细的解读,例如:

ViViT: A Video Vision Transformer

VDT: General-purpose Video Diffusion Transformers via Mask Modeling

Temporally Consistent Transformers for Video Generation

Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

2024年进展

在2024年,Sora的爆火,将视频生成带入了高潮,这一年,整个AI领域都在高速发展,2024年(Sora)之后的AI模型如下:
在这里插入图片描述

图源:https://huggingface.co/spaces/reach-vb/2024-ai-timeline

其中在视频领域的模型有:

以下是按照月份梳理出的视频生成相关内容:

二月

  • OpenAI宣布推出可制作长达一分钟视频的Sora模型,该模型当时尚未向公众发布。

五月

  • Google发布视频创作模型Veo,同时还宣布推出具有多模式功能,用于实时音频和视频接收的Astra模型 。

六月

  • Runway推出用于视频生成的新型AI模型Gen3 Alpha。

八月

  • Luma推出用于视频创作的Dream Machine 1.5型号。

九月

  • 视频生成模型KLING 1.5发布。

十月

  • Meta推出Movie Gen,这是一种根据文本输入生成视频、图像和音频的新型AI模型。
  • Pika推出视频模型1.5以及“Pika效果”。
  • Adobe宣布其视频创作模型Firefly Video。

十二月

  • 亚马逊推出名为NOVA的新系列模型,专为文本、图像和视频处理而设计。
  • OpenAI发布视频生成模型SORA,以及面向高级订阅者的O1和O1 Pro完整版,还推出GPT4o的直播视频模式。
  • 谷歌推出测试版视频生成模型Veo 2,能够生成长达两分钟的4K视频。
  • Pika Labs发布其人工智能视频生成器的最新版本2.0。
  • Meta推出Apollo,这是一种有三种不同尺寸的视频生成模型。
  • 视频生成模型Kling 1.6发布,性能显著提升。

2024年的视频生成模型/论文,我们根据上面的综述中,我们除了会详细介绍Sora,以及之前已介绍过的系列模型的最新迭代/进展,还会挑一部分有特点的模型进行解读。

标签:视频,模型,AIGC,生成,2024,算法,Sora,https
From: https://blog.csdn.net/haopinglianlian/article/details/145160226

相关文章

  • 算法题(36):合并区间
    审题:需要把区间兼容的区间合并起来,并存入二维数组中返回思路:由于数据是乱序的,我们直接进行判断会很麻烦,所以我们先对区间的左边界进行升序排序,这样子可以保证数据被分成一个个连续区间,只需要按顺序遍历判断即可。判断逻辑:answer二维数组作为返回数组。首先我们把第一个......
  • 代码随想录算法训练营第二十天 | 235. 二叉搜索树的最近公共祖先、701. 二叉搜索树中
    235.二叉搜索树的最近公共祖先题目链接:https://leetcode.cn/problems/lowest-common-ancestor-of-a-binary-search-tree/description/文档讲解:https://programmercarl.com/0235.%E4%BA%8C%E5%8F%89%E6%90%9C%E7%B4%A2%E6%A0%91%E7%9A%84%E6%9C%80%E8%BF%91%E5%85%AC%E5%......
  • 算法随笔_6: 下一个排列
    上一篇:算法随笔_5:接雨水-CSDN博客题目描述如下:整数数组的一个 排列 就是将其所有成员以序列或线性顺序排列。例如,arr=[1,2,3] ,以下这些都可以视作 arr 的排列:[1,2,3]、[1,3,2]、[3,1,2]、[2,3,1] 。整数数组的 下一个排列 是指其整数的下一个字典序更大的排......
  • 【前端】自学基础算法 -- 25.动态规划-01背包问题
    动态规划-01背包问题简介动态规划(DynamicProgramming,简称DP)是一种解决复杂问题的方法,它将问题分解为更小、更简单的子问题,并存储这些子问题的解,以避免重复计算。动态规划通常用于优化问题,如求最大值、最小值或计数问题。动态规划的基本思想是将大问题分解为小问题,并从......
  • 2025-1-15-十大经典排序算法 C++与python
    文章目录十大经典排序算法比较排序1.冒泡排序2.选择排序3.插入排序4.希尔排序5.归并排序6.快速排序7.堆排序非比较排序8.计数排序9.桶排序10.基数排序十大经典排序算法十大经典排序算法可以分为比较排序和非比较排序:前者包括冒泡排序、选择排序、插......
  • 模式识别课程设计报告-Iris鸢尾花样本集多种分类算法实现
     课程实验报告,从前人的总结分享中学习借鉴了很多,上传记录,或许能帮到有需要的人。任务一:(1)从sklean中导入iris数据集(2)从CSV文件中导入iris数据集任务二:(1)利用sklearn中的model_selection.train_split()函数将样本集划分为训练集和测试集(2)定义一个函数plot_points(),该函数的功能......
  • 字符串匹配(BP&KMP算法)
    BP&KMP算法字符串匹配前言BP算法(基础)引文KMP算法(进阶)伪代码描述next数组递归求解思路算法思路详解KMP算法实现及测试(先做在看!)字符串匹配前言本文是基于懒猫老师的课程----BP&KMP所写,在观看本文之前最好配合视频或者PPT食用更佳,地址我附在下面:https://www.bilibi......
  • NFC碰一碰发视频源码搭建,支持OEM
    在移动互联网技术迅速发展的当下,NFC(NearFieldCommunication)技术凭借其便捷、快速的交互特性,为诸多应用场景带来了创新机遇。其中,NFC碰一碰发视频功能以其独特的交互体验,在营销推广、内容分享等领域展现出巨大潜力。本文将深入探讨NFC碰一碰发视频的源码搭建技术,助力开发者......
  • 矩阵碰一碰发视频之视频剪辑功能开发全解析,支持OEM
    在短视频风靡的当下,矩阵碰一碰发视频结合视频剪辑功能,为内容创作与传播带来了全新的活力。本文将深入探讨这一创新功能的源码搭建过程,助力开发者打造出功能强大且用户体验良好的视频处理系统。一、技术选型前端技术框架:选用React作为前端开发框架,其高效的虚拟DOM机制......
  • ISP基本框架及算法介绍
    ISP(ImageSignalProcessor),即图像处理,主要作用是对前端图像传感器输出的信号做后期处理,主要功能有线性纠正、噪声去除、坏点去除、内插、白平衡、自动曝光控制等,依赖于ISP才能在不同的光学条件下都能较好的还原现场细节,ISP技术在很大程度上决定了摄像机的成像质量。它可以分......