CogVideoX：Text-to-Video Diffusion Models with An Expert Transformer

标签：Diffusion 视频 Transformer 训练 Expert 模型生成字幕 CogVideoX

研究背景

背景介绍: 这篇文章的研究背景是文本到视频模型的快速发展，特别是Transformer架构和扩散模型的应用。早期尝试预训练和扩展Transformer生成视频已经显示出巨大潜力，如CogVideo和Phenaki。扩散模型在多模态生成方面也取得了显著进展，包括视频生成。
研究内容: 该问题的研究内容包括如何实现长期一致的视频生成，解决视频数据的高效建模、视频与文本语义的有效对齐以及高质量文本-视频对的构建等挑战。
文献综述: 该问题的相关工作有：CogVideo和Phenaki在文本到视频生成方面的初步探索，Diffusion Transformers (DiTs) 在多模态生成中的应用，以及Sora在文本到视频生成中的突破性展示。

研究方法

这篇论文提出了CogVideoX模型，具体来说：

3D因果VAE: 为了高效处理视频数据，设计并训练了一个3D因果变分自编码器（VAE），它在空间和时间维度上压缩视频。与将视频展开为一维像素序列相比，这种策略显著减少了序列长度和相关计算量。3D VAE有助于防止生成视频中的闪烁，确保帧与帧之间的连续性。
专家Transformer: 为了改善视频和文本之间的对齐，提出了一种带有专家自适应LayerNorm的专家Transformer，以促进两种模态之间的深度融合。为了确保视频生成的时间一致性和捕捉大规模运动，使用了3D全注意力机制，全面建模视频的空间和时间维度。
视频数据处理管道: 由于大多数在线视频数据缺乏准确的文本描述，开发了一个视频字幕生成管道，用于为所有视频数据生成新的文本描述，从而显著增强了CogVideoX的语义理解能力。
渐进训练技术: 采用了混合时长训练和分辨率渐进训练等渐进训练技术，以进一步提高CogVideoX的生成性能和稳定性。此外，提出了显式均匀采样，通过在每个数据并行排名的不同时间步长采样间隔设置，稳定训练损失曲线并加速收敛。

实验设计

数据集: 构建了一个相对高质量的视频剪辑集合，包含文本描述。经过过滤后，大约保留了3500万个单镜头剪辑，每个剪辑平均约6秒。
视频过滤: 使用视频-llama模型训练了多个过滤器，以筛选出低质量视频数据。过滤标准包括编辑、缺乏运动连贯性、低质量、讲座类型、文本主导和噪声屏幕截图。
视频字幕生成: 建立了一个密集视频字幕数据生成管道，首先使用Panda70M模型生成短视频字幕，然后使用CogVLM模型为每个视频帧生成密集图像字幕，最后使用GPT-4总结这些图像字幕生成最终视频字幕。

结果与分析

自动评估: 在多个自动评估指标中，CogVideoX在五个指标上表现最佳，并在其余两个指标上具有竞争力。结果表明，CogVideoX不仅在视频生成质量上表现出色，还在处理各种复杂动态场景方面超越了之前的模型。
人类评估: 通过手动评估比较了CogVideoX和Kling模型，结果显示CogVideoX在所有方面均优于Kling模型。具体来说，CogVideoX在感官质量、指令遵循、物理模拟和覆盖质量方面的得分均高于Kling模型。

结论

这篇论文介绍了CogVideoX，一种最先进的文本到视频扩散模型。它利用3D VAE和专家Transformer架构生成连贯的长时视频，并通过综合数据处理管道和视频重新字幕生成方法显著提高了生成视频的质量和语义对齐。渐进训练技术进一步增强了模型的性能和稳定性。未来的工作将专注于提高模型捕捉复杂动态的能力，并探索视频生成模型的扩展规律，以生成更长、更高质量的视频。

文章翻译

摘要

我们介绍了CogVideoX，这是一种大规模的扩散变压器模型，旨在基于文本提示生成视频。为了高效地建模视频数据，我们提出利用三维变分自编码器（VAE）来压缩视频的空间和时间维度。为了提高文本与视频的对齐性，我们提出了一个专家变压器和专家自适应层归一化，以促进两种模态之间的深度融合。通过采用渐进式训练技术，CogVideoX能够生成具有显著运动的连贯、长时间的视频。此外，我们还开发了一个有效的文本-视频数据处理流程，包括各种数据预处理策略和视频字幕生成方法。它显著提高了CogVideoX的性能，改善了生成质量和语义对齐。结果表明，CogVideoX在多个机器指标和人类评估中均展现出最先进的性能。三维因果VAE和CogVideoX的模型权重可在https://github.com/THUDM/CogVideo公开获取。

1 引言

文本到视频模型的快速发展是惊人的，这得益于Transformer架构（Vaswani等人，2017年）和扩散模型（Ho等人，2020年）。早期尝试使用预训练和扩展的Transformer从文本中生成视频已经显示出巨大的潜力，例如CogVideo（Hong等人，2022年）和Phenaki（Villegas等人，2022年）。同时，扩散模型最近在多模态生成方面取得了令人兴奋的进展，包括视频生成（Singer等人，2022年；Ho等人，2022年）。通过使用Transformer作为扩散模型的骨干，即Diffusion Transformers（DiT）（Peebles & Xie，2023年），文本到视频生成达到了开创性的水平，这一点从令人印象深刻的Sora展示中得到了证明（OpenAI，2024b）。

尽管DiT取得了这些快速进步，但如何实现长期一致的视频生成仍然在技术上尚不清楚。诸如有效建模视频数据、有效地将视频与文本语义对齐以及构建高质量的文本-视频对以供模型训练等挑战，迄今为止大多未被解决。

在这项工作中，我们训练并引入了CogVideoX，这是一组大规模扩散变压器模型，旨在生成长期、时间上一致的视频。我们通过开发一个3D变分自编码器（VAE）、一个专家Transformer和一个视频数据来解决上述挑战。

图1：公开可访问的文本到视频模型在不同方面的性能。

过滤和字幕生成流程，分别。首先，为了高效地消耗视频数据，我们设计和训练了一个三维因果VAE，该VAE沿着空间和时间维度压缩视频。与将视频展开为一维序列在像素空间中相比，这种策略显著减少了序列长度和相关训练计算量。与之前使用二维VAE分别编码每帧的视频模型（Blattmann等人，2023年）不同，三维VAE有助于防止生成的视频中的闪烁，即确保帧之间的连续性。

其次，为了改善视频和文本之间的对齐，我们提出了一个专家变换器，其中包含专家自适应层归一化，以促进两种模态之间的融合。为了确保视频生成的时间一致性和捕捉大规模运动，我们提出使用三维全注意力来全面模拟视频在时间和空间维度上的表现。

第三，由于大多数在线可用的视频数据缺乏准确的文本描述，我们开发了一个能够准确描述视频内容的视频字幕生成流程。这个流程用于为所有视频数据生成新的文本描述，这显著增强了CogVideoX把握精确语义理解的能力。

此外，我们采用了并设计了渐进式训练技术，包括混合时长训练和r解决方案渐进式训练，以进一步提高CogVideoX的生成性能和稳定性。此外，我们提出了显式均匀采样，通过在不同数据并行秩上设置不同的时间步采样间隔来稳定训练损失曲线并加速收敛。

机器和人类评估都表明CogVideoX的表现优于众所周知的公共模型。图1展示了CogVideoX在不同方面的性能。

CogVideoX是推进文本到视频生成的一个持续尝试。为了促进进一步发展，我们开源了CogVideoX的部分模型权重和3D VAE，并计划发布未来更大的模型。现在开源的CogVideoX能够生成每秒八帧、6秒长的720x480视频。它可以从https://github.com/THUDM/CogVideo公开访问。

2 CogVideoX架构

在本节中，我们将介绍CogVideoX模型。图2展示了整体架构。给定一对视频和文本输入，我们设计了一个3D因果VAE来压缩视频到潜在空间，然后将潜在空间进行补丁化并展开成一个长序列，称为zvision。同时，我们使用T5（Raffel等人，2020）将文本输入编码成文本嵌入ztext。随后，

ztext 和 zvision 在序列维度上连接起来。然后，这些连接后的嵌入被送入一系列专家变换器块。最终，模型输出被修补以恢复原始潜在形状，然后使用三维因果VAE解码器进行解码以重建视频。我们详细介绍了三维因果VAE和专家变压器的技术设计。

在这里插入图片描述

图2：CogVideoX的整体架构。

2.1 三维因果变分自编码器（3D VAE）

视频不仅包含空间信息，还包含大量的时间信息，通常比图像的数据量要多几个数量级。为了应对建模视频数据的计算挑战，我们提出实施一个基于三维变分自编码器（3D VAEs）的视频压缩模块（Yu等人，2023）。其思想是结合三维卷积来压缩视频的空间和时间维度。这可以帮助实现更高的压缩比，并且在质量上和视频重建的连续性方面相比于之前的图像VAEs有了显著提升（Rombach等人，2022；Esser等人，2021）。

图3(a)展示了所提出的3D VAE的结构。它包括一个编码器、一个解码器和一个潜在空间正则化器。高斯潜在空间受到Kullback-Leibler（KL）正则化的约束。编码器和解码器由四个对称排列的阶段组成，分别执行通过ResNet块堆叠阶段的交错进行2x下采样和上采样。前两轮的下采样和最后两轮的上采样涉及空间和时间维度，而最后一轮只应用空间采样。这使得3D VAE能够在时间维度实现4x的压缩，在空间维度实现8x8的压缩。总共，从像素到潜在空间实现了4x8x8的压缩。

我们采用了时间因果卷积（Yu等人）（2023），它将所有像素放置在卷积空间的开始，如图3(b)所示。这确保了未来的信息不会影响当前或过去的预测。鉴于使用大量帧处理视频会引入过度的GPU内存使用，我们在时间维度上应用了上下文并行。

在这里插入图片描述

图3：(a) CogVideoX中三维VAE的结构。它包括一个编码器、一个解码器和一个潜在空间正则化器，实现了从像素到潜在空间的4x8x8压缩。(b) 在时间因果卷积上的上下文并行实现。

为了在多个设备之间分配计算，进行三维卷积。如图3(b)所示，由于卷积的因果性质，每个等级简单地发送长度为k-1的片段到下一个等级，其中k表示时间核大小。这导致相对较低的通信开销。

在实际实施过程中，我们首先在较低分辨率和较少帧数上训练三维VAE以节省计算。我们观察到，较大分辨率的编码自然地泛化，而扩展要编码的帧数并不像那样无缝。因此，我们通过首先在短视频上进行训练，然后在长视频上进行上下文并行微调来进行两阶段训练过程。这两个阶段的训练都利用了L2损失、LPIPS（张等人，2018）感知损失和来自三维鉴别器的GAN损失的加权组合。

2.2 专家变换器

我们在CogVideoX中引入了Transformer的设计选择，包括补丁处理、位置嵌入和注意力策略，以有效且高效地处理文本-视频数据。

补丁处理。三维因果VAE编码一个形状为T×H×W×C的视频潜在向量，其中T代表帧数，H和W分别代表每帧的高度和宽度，C代表通道数。视频的潜在空间沿着空间维度进行补丁化，生成长度为T⋅Hp⋅Wp的序列zvision。请注意，我们不沿着时间维度进行补丁化，以便能够联合训练图像和视频。

3D-RoPE。旋转位置嵌入（RoPE）（Su等人，2024年）是一种相对位置编码，已被证明在大型语言模型中有效捕捉词间关系，特别是在建模长序列方面表现出色。为了适应视频数据，我们将原始RoPE扩展到3D-RoPE。视频张量中的每个潜在都可以由一个三维坐标（x,y,t）表示。我们对坐标的每个维度独立应用一维RoPE，每个维度占据隐藏状态通道的3/8、3/8和2/8。然后将得到的编码沿通道维度连接起来，以获得最终的3D-RoPE编码。

我们实证检验了RoPE的使用。图4(a)显示了3D RoPE与正弦绝对位置编码之间的比较。我们可以观察到，使用3D RoPE的损失曲线比使用正弦编码的收敛速度明显更快。我们进一步比较了仅使用3D RoPE与3D RoPE与可学习绝对位置嵌入的组合。图4(b)表明，两种方法的损失曲线几乎一致地收敛。因此，为了简单起见，我们选择仅使用3D RoPE。

在这里插入图片描述

图4：不同消融的训练损失曲线。

专家变压器块。我们在输入阶段将文本和视频的嵌入连接起来，以更好地对齐视觉和语义信息。然而，这两种模态的特征空间差异显著，它们的嵌入甚至可能有不同的数值尺度。为了在同一序列中更好地处理它们，我们采用专家自适应层范数来独立处理每种模态。如图2所示，遵循DiT（Peebles & Xie, 2023）的方法，我们将扩散过程的步长t作为调制模块的输入。然后，视觉专家自适应层范数（Vison Expert AdaLN）和文本专家自适应层范数（Text Expert AdaLN）分别将这种调制机制应用于视觉隐藏状态和文本隐藏状态。这一策略在最小化额外参数的同时促进了两种模态特征空间的对齐。

为了验证专家自适应层范数的采用情况，我们尝试了不同的专家集成方式：专家层范数和MLP，以及仅使用专家层范数。我们的实验发现，添加专家MLP并不能有效加速模型的收敛（参见图4©）。为了减少模型参数，我们只选择使用专家自适应层范数。

3D全注意力。先前的工作（Singer等人，2022；Guo等人，2023）通常采用分离的空间和时间注意力来降低计算复杂度，并促进从文本到图像模型的微调。然而，如图5所示，这种分离注意力方法需要大量的隐式视觉信息传输，显著增加了学习复杂性，并使得保持大动作物体的一致性变得具有挑战性。考虑到长上下文训练在大型语言模型（LLM）中的巨大成功（AI@Meta,2024；Bai等人，2024；Xiong等人，2023）以及FlashAttention的高效性（Dao等人，2022），我们提出了一种三维文本-视频混合注意力机制。这种机制不仅取得了更好的结果，而且还可以轻松适应各种并行加速方法。

在这里插入图片描述

图5：分离的空间和时间注意力使得处理相邻帧之间的大运动变得具有挑战性。在图中，第i+1帧中的人的头部不能直接关注第i帧中的人的头部。相反，视觉信息只能通过其他背景块隐式地传输。这可能导致生成视频中的不一致性问题。

图6：混合时长训练与帧包的示意图。为了充分利用数据并增强模型的泛化能力，我们在同一批次中训练不同时长的视频。

3 训练CogVideoX

在训练过程中，我们混合图像和视频，将每个图像视为单帧视频。此外，我们还采用从分辨率角度的渐进式训练。对于扩散设置，我们采用v-预测（Salimans & Ho, 2022）和零信噪比（Lin等人，2024），遵循LDM（Rombach等人，2022）中使用的噪声计划。在扩散训练中，对于时间步采样，我们还采用显式的均匀时间步采样方法，这有助于训练稳定性。

3.1 帧包

以前的视频训练方法通常涉及固定帧数的图像和视频的联合训练（Singer等人，2022；Blattmann等人，2023）。然而，这种方法通常会导致两个问题：首先，使用双向注意力时两种输入类型之间存在显著差距，图像有一帧而视频有数十帧。我们观察到，以这种方式训练的模型倾向于基于令牌计数分为两种生成模式，并且泛化能力不佳。其次，为了用固定时长进行训练，我们必须丢弃短视频并截断长视频，这阻碍了不同帧数视频的充分利用。

为了解决这些问题，我们选择混合时长训练，这意味着一起训练不同长度的视频。然而，批次内数据形状的不一致性使得训练变得困难。受到Patch’n Pack（Dehghani等人，2024年）的启发，我们将不同长度的视频放入同一个批次中，以确保每个批次内的形状一致，我们称之为帧打包。该过程如图6所示。

3.2 分段式渐进式训练

CogVideoX的训练流程分为三个阶段：低分辨率训练、高分辨率训练和高质量视频微调。与图像类似，互联网上的视频通常包含大量低分辨率的视频。分段式训练可以有效利用各种分辨率的视频。此外，首先在低分辨率下进行训练可以赋予模型粗粒度的建模能力，随后进行高分辨率训练以增强其捕捉细节的能力。与直接的高分辨率训练相比，分段式训练还可以帮助缩短整体训练时间。

在这里插入图片描述

图7：随着RoPE编码分辨率的提高，外推和内插初始生成状态之间的比较。外推倾向于生成多个小、清晰且重复的图像，而内插则生成一个模糊的大图像。

位置码的外推。当将低分辨率的位置编码适应到高分辨率时，我们考虑了两种不同的方法：内插和外推。我们在图7中展示了这两种方法的效果。内插几乎能更有效地保留全局信息，而外推则更好地保留局部细节。鉴于RoPE是一种相对位置编码，我们选择外推来保持像素之间的相对位置。

高质量微调。由于过滤后的预训练数据仍然包含一定比例的脏数据，如字幕、水印和低比特率视频，我们选择了高质量视频数据的一个子集，占总数据集的20%，在最终阶段进行微调。这一步有效地移除了生成的字幕和水印，并略微提高了视觉质量。然而，我们也观察到模型的语义能力略有下降。

3.3 明确均匀采样

Ho等人（2020）定义了扩散的训练目标

在这里插入图片描述

其中t在1到T之间均匀分布。通常的做法是数据并行组中的每个等级都均匀地抽取一个介于1到T之间的值，这在理论上等同于方程1。然而，在实践中，这种随机抽样得到的结果往往不够均匀，由于扩散损失的幅度与时间步长有关，这可能导致损失显著波动。因此，我们提出使用显式均匀抽样将范围从1到T划分为n个区间，其中n是等级的数量。然后每个等级在其各自的区间内均匀抽样。这种方法确保了时间步长的更均匀分布。如图4(d)所示，使用显式均匀抽样的训练损失曲线明显更加稳定。

此外，我们比较了两种方法单独在每个扩散时间步长处的损失，以进行更精确的比较。我们发现，在使用显式均匀抽样后，所有时间步长的损失下降得更快，表明这种方法可以加速损失收敛。

3.4 数据

我们通过视频过滤器和再捕捉模型构建了一系列相对高质量的视频片段及其文本描述。过滤后，大约有3500万个单次剪辑保留下来，每个剪辑平均约6秒。

视频过滤。视频生成模型需要学习世界的动态信息，但未过滤的视频数据分布高度嘈杂，主要由于两个原因：首先，视频是由人类创作的，人工编辑可能会扭曲真实的动态信息；其次，由于拍摄过程中的问题，如摄像机抖动和设备质量差，视频的质量可能会显著下降。

除了视频的内在质量外，我们还考虑了视频数据对模型训练的支持程度。动态信息最少或动态方面缺乏连通性的视频被认为是有害的。因此，我们开发了一套负面标签，包括：

● 编辑：经过明显人工处理（如重新编辑和特效）的视频，导致视觉完整性下降。

● 缺乏运动连通性：在视频中常见于从图像拼接或编辑出来的视频中的图像转换缺乏运动连通性。

● 低质量：拍摄质量差的视频，视觉不清楚或过度摇晃。

● 讲座类型：主要关注一个人持续说话的视频，几乎没有有效运动，例如教育内容、讲座和直播讨论。

● 文本主导：包含大量可见文本的视频或主要关注文本内容的视频。

● 噪音截图：从手机或电脑屏幕录制的噪音视频。

我们抽样了20,000个视频数据样本，并标记它们中是否存在负面标签。通过使用这些注释，我们基于视频-llama（张等人，2023b）训练了几种过滤器来筛选出低质量的视频数据。

此外，我们计算所有训练视频的光流分数和图像美学分数，并在训练过程中动态调整阈值范围，以确保生成视频的流畅性和美学质量。

视频字幕。通常，大多数视频数据没有相应的描述性文本，因此需要将视频数据转换为文本描述，以提供文本到视频模型的基本训练数据。目前有一些视频字幕数据集可用，例如Panda70M（陈等人，2024b）、COCO Caption（林等人，2014）和WebVid Bain等人（2021）。然而，这些数据集中的字幕通常非常短，无法全面描述视频内容。

为了生成高质量的视频字幕数据，我们建立了一个密集的视频字幕数据生成流程，如图8所示。其思想是从图像字幕生成视频字幕。

首先，我们使用Panda70M视频字幕模型（陈等人，2024b）为视频生成简短的字幕。然后，我们采用在Stable Diffusion 3（Esser等人，2024）和CogView3（Zheng等人，2024a）中使用的图像重写模型CogVLM（王等人，2023a），为视频中的每一帧创建密集的图像字幕。随后，我们使用GPT-4对所有图像字幕进行总结，以产生最终的视频字幕。为了加速从图像字幕到视频字幕的生成，我们使用GPT-4生成的总结数据微调了一个Llama2模型（Touvron等人，2023），从而实现了大规模的视频字幕数据生成。关于视频字幕数据生成过程的更多细节可以在附录C中找到。

上述流程生成了用于训练本报告介绍的CogVideoX模型的字幕数据。为了进一步加速视频再捕捉，我们还基于CogVLM2-Video1和Llama3（AI@Meta，2024）使用从前述流程生成的密集字幕数据对端到端视频理解模型CogVLM2-Caption进行了微调。视频字幕

图8：密集视频字幕数据生成流程。在这个流程中，我们使用Panda70M模型生成短视频字幕，提取帧创建密集图像字幕，并使用GPT-4对这些字幕进行总结，生成最终的视频字幕。为了加速这个过程，我们用GPT-4的总结对Llama 2模型进行了微调。

由CogVLM2-Caption生成的数据用于训练CogVideoX的下一代。这个端到端CogVLM2-Caption模型生成的视频字幕示例显示在附录D中。在附录E中，我们还展示了一些视频生成示例，其中视频首先输入CogVLM2-Caption以生成字幕，然后这些字幕被用作CogVideoX的输入来生成新视频，从而实现了视频到视频的生成。

4 实证评估

在本节中，我们通过两种主要方法展示了CogVideoX的性能：自动度量评估和人工评估。我们用不同的参数大小训练了CogVideoX模型。目前我们展示了2B和5B的结果，更大的模型仍在训练中。

为了促进文本到视频生成的发展，我们在https://github.com/THUDM/CogVideo上开源了模型权重。

4.1 自动度量评估

基线。我们选择了公开可获取的顶级表现良好的文本到视频模型作为基线，包括T2V-Turbo（Li等人，2024年）、AnimateDiff（Guo等人，2023年）、VideoCrafter2（Chen等人，2024a年）、OpenSora（Zheng等人，2024b年）、Show-1（Zhang等人，2023a年）、Gen-2（跑道，2023年）、Pika（pik，2023年）和LaVie-2（Wang等人，2023b年）。

评估指标。为了评估文本到视频生成，我们采用了来自VBench（黄等人，2024年）的几个指标：人类动作、场景、动态度、多个对象和外观风格。VBench是一套旨在自动评估生成视频质量的工具。我们从VBench中选择了某些指标，排除了与我们评估需求不符的其他指标。例如，颜色指标旨在衡量生成视频中跨帧对应特定颜色的对象的存在，并通过计算概率来评估模型的质量。然而，这个指标可能会误导那些表现出更大变化的视频生成模型，因此不包括在我们的评估中。

对于生成时间较长的视频，一些模型可能会产生在帧与帧之间变化最小的视频以获得更高的分数，但这些视频缺乏丰富的内容。因此，评估视频动态性的指标变得更加重要。为了解决这个问题，我们使用了两个视频评估工具：Devil的动态质量（廖等人，2024年）和ChronoMagic的GPT4o-MTScore（袁等人，2024年），它们更侧重于视频的动态特性。动态质量是通过将各种质量指标与动态得分集成来定义的，这减轻了视频动态性与视频质量之间的负相关带来的偏差。例如，ChronoMagic，

在这里插入图片描述

表1：评估结果。

介绍了GPT4o-MTScore，这是一个旨在衡量时间延迟视频（如描绘物理、生物和气象变化的视频）的变形幅度指标。该指标使用GPT-4o（OpenAI，2024a）来评分变化程度，提供了对视频动态性的细致评估。

结果。表1提供了CogVideoX和其他模型的性能比较。CogVideoX在七个指标中的五个中取得了最佳性能，并在剩余的两个指标中展示了竞争性结果。这些结果表明，该模型不仅在视频生成质量上表现出色，而且在处理各种复杂的动态场景方面也优于以往的模型。此外，图1呈现了一个雷达图，直观地展示了CogVideoX的性能优势。

4.2 人类评估

除了自动化评分机制外，还进行了Kling（团队，2024）与CogVideoX之间的比较分析，并结合了手动评估。一百个精心制作的提示被用于人类评估者，这些提示的特点是分布广泛、表述清晰以及概念范围明确。我们对视频进行盲评。一组评估者被指导按照从零到一的比例为每个细节分配分数，整体总分为从0到5的比例，其中更高的分数反映了更好的视频质量。为了更好地补充自动化评估，人类评估强调了指令遵循能力：如果生成的视频未能遵循指令，则总分数不得超过2。

表2显示，CogVideoX在所有方面都赢得了人类对Kling的偏好。关于人类评估的更多细节在附录F中展示。

在这里插入图片描述

表2：CogVideoX与Kling之间的人类评估。

结论

在本文中，我们介绍了CogVideoX，这是一个最先进的文本到视频扩散模型。它利用三维VAE和专家变换器架构来生成具有显著运动的连贯长时视频。通过实施一个全面的数据处理流程和一个视频重编码方法，我们显著提高了生成视频的质量和语义对齐。我们的渐进式训练技术，包括混合时长训练和分辨率渐进式训练，进一步增强了模型的性能和稳定性。我们正在不断努力改进CogVideoX捕捉复杂动态的能力，并确保视频生成的更高质量。我们还探索了视频生成模型的扩展规律，并旨在训练更大、更强大的模型来生成更长、更高质量的视频，推动文本到视频生成可实现性的边界。

标签：Diffusion,视频,Transformer,训练,Expert,模型,生成,字幕,CogVideoX
From： https://blog.csdn.net/qq_44537267/article/details/142914143

CogVideoX：Text-to-Video Diffusion Models with An Expert Transformer

研究背景

研究方法

实验设计

结果与分析

结论

文章翻译

摘要

1 引言

2 CogVideoX架构

2.1 三维因果变分自编码器（3D VAE）

2.2 专家变换器

3 训练CogVideoX

3.1 帧包

3.2 分段式渐进式训练

3.3 明确均匀采样

3.4 数据

4 实证评估

4.1 自动度量评估

4.2 人类评估

结论

相关文章

赞助商

阅读排行