首页 > 其他分享 >市场主流 AI 视频生成技术的迭代路径

市场主流 AI 视频生成技术的迭代路径

时间:2024-08-04 22:24:42浏览次数:9  
标签:视频 Transformer 迭代 AI 模型 生成 GAN 扩散

     AI视频生成技术的迭代路径经历了从GAN+VAE、Transformer、Diffusion Model到Sora采用的DiT架构(Transformer+Diffusion)等多个阶段,每个阶段的技术升级都在视频处理质量上带来了飞跃性的提升。这些技术进步不仅推动了AI视频生成领域的快速发展,也为未来的应用场景提供了更多的可能性和灵活性。

1 GAN+VAE 阶段 (2016-2021)

    GAN 用于视频生成在 2016 年至 2021 年较为火热,代表模型如 Temporal Generative Adversarial Nets (TGAN) 和 MoCoGAN,它们通过不同的网络架构和训练方法来改进 GAN 在视频生成上的性能。此外,Dual Video Discriminator GAN (DVD-GAN) 通过使用空间和时间判别器的分解来提高视频生成的复杂性和保真度。

GAN 生成对抗网络运作原理

  • GAN (生成对抗网络): 这是最早用于视频生成的模型之一,其核心思想是训练一个生成器和一个判别器,通过对抗训练生成逼真的视频。
  • VAE (变分自编码器): VAE 是一种自编码器,可以将输入数据压缩成低维的潜在空间表示,并从潜在空间中解码生成新的数据。
  • GAN+VAE 融合: 将 GAN 和 VAE 结合,利用 GAN 生成高质量的图像,并利用 VAE 将图像解码成视频。

2 Transformer 阶段 (2018-2023)

Transformer 模型是一种基于注意力机制的深度学习模型,它在处理序列数据方面表现出色,尤其在自然语言处理领域取得了显著的成果。它完全基于注意力机制,不依赖于传统的循环神经网络(RNN)或卷积神经网络(CNN)。

2.1 优点

  • 并行处理序列中的所有元素:与传统的循环神经网络(RNN)相比,Transformer 模型能够并行处理序列中的所有元素,这大大提高了计算效率。RNN 模型需要按照序列的顺序进行计算,每个时间步的处理依赖于前一个时间步的输出,这限制了并行计算的可能性。
  • 可扩展性:Transformer 模型能够通过堆叠多个注意力层来增加模型的复杂度和容量,从而适应不同任务的需求。这种堆叠方式使得模型能够处理更长的序列,并学习更复杂的模式。
  • 泛化能力:Transformer 模型除了在语言任务中表现出色,还可以泛化到其他类型的序列建模任务,如图像处理、视频分析等。这种泛化能力使得模型能够应用于更广泛的领域,具有更高的实用性。
  • 预训练和微调:Transformer 模型通常先在大量数据上进行预训练,再针对特定任务进行微调,这使得模型能够快速适应新任务。预训练可以使得模型学习到通用的语言特征,微调则可以针对特定任务进行优化。
  • 适应长序列数据:Transformer 模型在处理诸如语音信号、长时间序列数据等任务时具有优势,因为它能够避免传统模型存在的梯度消失或梯度爆炸问题。这种特性使得模型能够处理更长的序列,并学习更复杂的模式。

2.2 缺点

  • 参数效率相对较低: 参数数量随输入序列长度的增加而增加,增加了训练时间和成本。
  • 对输入数据的敏感性较高: 模型依赖于输入数据的全局信息进行建模,在处理复杂任务时,对输入数据的细微变化可能会对模型的输出结果产生较大影响。
  • 难以处理时空动态变化: 模型基于自注意力机制的静态模型,无法捕捉到时空动态变化的信息,因此在处理视频、时空数据等具有动态变化特性的任务时,需要结合其他技术来提高模型的性能。

2.3 在视频生成中的应用

  • VideoGPT: 使用 VQ-VAE 和 Transformer 架构生成视频,能够适应动作条件,生成高保真度的视频。
  • NUWA 女娲: 采用 3D 变换器编码器-解码器框架,并使用 VQ-GAN 视觉标记 3D tokens,生成图像、视频以及视频预测。
  • CogVideo: 采用多帧率层次化训练策略和双通道注意力机制,生成高分辨率、高帧率、高一致性的视频。
  • Phenaki: 使用因果注意力机制生成可变长度视频,并使用预训练的 T5X 生成文本嵌入,生成视频。

3 扩散模型阶段 (2018-2023)

扩散模型是一种生成模型,它通过逐步添加噪声来破坏训练数据,然后通过逆向过程去噪来生成与训练数据相似的新数据。扩散模型可以分为三大类型:去噪扩散概率模型(DDPM)、基于噪声条件评分的生成模型(SGM)和随机微分方程(SDE)。尽管它们在数学框架上略有不同,但它们的核心思想是一致的,即通过添加和去除噪声来生成新的数据。

3.1 优点

  • 无需大量标注数据: 扩散模型可以使用未标记的数据进行训练,这使得它们在处理一些数据量较少的领域时具有优势。
  • 生成高质量的图像: 扩散模型能够生成高质量的图像,甚至能够生成逼真的图像。
  • 可扩展性: 扩散模型可以扩展到其他模态,例如文本、音频和视频。

3.2 缺点

  • 训练时间较长: 扩散模型的训练时间通常较长,因为它们需要添加和去除噪声。
  • 对计算资源要求高: 扩散模型的训练需要大量的计算资源,这使得它们在资源受限的环境中的应用受到限制。
  • 生成结果的多样性有限: 扩散模型生成的结果可能缺乏多样性,因为它们通常偏向于生成与训练数据相似的图像。

3.3 扩散模型在视频生成中的应用

  • Gen-1: 将潜在扩散模型扩展到视频生成,无需额外训练和预处理。
  • Gen-2: 允许使用任意起始帧,通过 I2V 方式生成视频,并支持运动画笔、相机控制等功能。

4 DiT 阶段 (2023-至今)

结合 Transformer 和扩散模型,在潜在空间中使用 Transformer 处理图像数据块,模拟数据的扩散过程以生成高质量的图像。

4.1 优点

  • 高效: DiT 模型在潜在空间而非像素空间中训练扩散模型,这提高了计算效率。
  • 灵活: DiT 模型可以使用不同的 Transformer 块变体来处理条件输入,例如噪声时间步长、类别标签等。
  • 可扩展: DiT 模型的性能随着模型大小和输入 token 数量的增加而提升。
  • 简化架构: DiT 模型证明了在扩散模型中,传统的 U-Net 架构并不是必需的,可以被 Transformer 替代。

4.2 DiT 在视频生成中的应用

  • WALT (Window Attention Latent Transformer): 使用 Transformer 架构,在共享潜在空间中联合压缩图像和视频,实现跨模态生成。
  • Sora: 基于 DiT 架构,生成视频质量高,可进行多种编辑和扩展操作。
  • 可灵: 采用 DiT 架构,生成视频效果优秀,可进行视频续写等操作。

更多内容详见2024生成式AI视频行业发展现状国内外龙头及未来发展方向分析报告

标签:视频,Transformer,迭代,AI,模型,生成,GAN,扩散
From: https://blog.csdn.net/robinfang2019/article/details/140911828

相关文章

  • Airflow vs. Luigi vs. Argo vs. MLFlow vs. KubeFlow
    Airflowvs.Luigivs.Argovs.MLFlowvs.KubeFlowhttps://www.datarevenue.com/en-blog/airflow-vs-luigi-vs-argo-vs-mlflow-vs-kubeflow Airflowisthemostpopularsolution,followedbyLuigi.Therearenewercontenderstoo,andthey’reallgrowingfast......
  • 如何利用AI工具延长摸鱼时间、准点下班?
    你好同学,我是沐爸,欢迎点赞、收藏和关注!个人知乎、公众号"沐爸空间"俗话说,不会摸鱼的程序猿不是好的程序猿。同学,你是不是也在为不能准点下班、每天加班、没有时间提升自己而烦恼?接下来,我们一起来了解下这款AI工具是什么,最重要的是怎么使用,怎么让我们开发效率提升,从而延......
  • 【AI绘画】FLUX:这款新的人工智能图像生成器非常善于创造人手
    FLUX.1是StableDiffusion的公开重量级继承者,可将文本转化为图像。FLUX.1dev生成图像:“Abeautifulqueenoftheuniverseholdingupherhands,faceinthebackground.”。就在7月下旬,人工智能初创公司黑森林实验室(BlackForestLabs)宣布成立公司,并发布了第一......
  • 短视频矩阵获客系统:驾驭数字化营销的强大引擎
    身处数字化风起云涌的当今时代,短视频矩阵获客系统如同一股汹涌的创新洪流,以锐不可当之势重塑着营销的格局,为企业在激烈的市场鏖战中开辟出一条独树一帜的致胜之道。接下来,让我们一同深度剖析这一系统的内涵、显著优势以及行之有效的运用策略。在这里,我们推荐呆头鹅批量剪辑矩......
  • 用Python打造精彩动画与视频, 6.2 使用Manim进行数学和科学可视化
     6.2使用Manim进行数学和科学可视化Manim(MathematicalAnimationEngine)是一款强大的动画制作工具,尤其适用于数学和科学领域的可视化。它由3Blue1Brown的GrantSanderson开发,旨在通过动画演示复杂的数学概念,使其更易于理解。使用Manim,用户可以创建高质量的数学动画,从简单的......
  • 用Python打造精彩动画与视频,5.3 使用Manim创建简单动画
     5.3使用Manim创建简单动画在这一节中,我们将介绍如何使用Manim创建简单的动画。我们将从基本的场景构建开始,然后演示如何添加动画效果。通过这些示例,你将能够掌握使用Manim创建各种动画的基本技能。5.3.1创建一个简单的场景Manim中的基本单元是场景(Scene)。每个场景都是一......
  • 用Python打造精彩动画与视频, 5.2 安装和设置Manim
     5.2安装和设置ManimManim是一个强大的动画库,用于创建高质量的数学动画。它最初由3Blue1Brown的GrantSanderson开发,并被广泛用于教育和展示。以下是安装和设置Manim的详细步骤。5.2.1安装ManimManim需要Python环境和一些依赖库。在安装Manim之前,请确保已经......
  • 用Python打造精彩动画与视频,6.1 复杂动画场景的构建
     第六章:探索Manim的潜力6.1复杂动画场景的构建在本节中,我们将深入探索如何使用Manim构建复杂的动画场景。Manim是一款功能强大的Python库,广泛应用于数学可视化和教育视频制作。通过理解并掌握Manim的高级功能和技巧,你将能够创建出引人入胜且具有高可读性的动画场景。6.1.1......
  • 使用 django 的 EmailMessage 发送波斯语电子邮件时出现问题
    我对django相当陌生,并尝试使用django.core.mail.EmailMessage发送包含波斯语字母的电子邮件。这是我的代码:fromdjango.core.mailimportEmailMessagefromdjango.confimportsettingsdefcustom_sender(subject:str,body:str,recipient_list:list[str],......
  • Continue-AI编程助手本地部署llama3.1+deepseek-coder-v2
    领先的开源人工智能代码助手。您可以连接任何模型和任何上下文,以在IDE内构建自定义自动完成和聊天体验推荐以下开源模型:聊天:llama3.1-8B推理代码:deepseek-coder-v2:16b嵌入模型nomic-embed-text模型默认存储路径:C:\Users\你的用户名\.ollama\models\blobs模型离线下......