首页 > 其他分享 >视频生成-OpenAI Sora

视频生成-OpenAI Sora

时间:2024-02-16 23:12:36浏览次数:28  
标签:视频 训练 模型 生成 OpenAI Sora 视觉

Video generation models as world simulators

我们探索了视频数据生成模型的大规模训练方法。具体来说,在不同时长、分辨率和纵横比的视频和图片数据上联合训练的文本条件的扩散模型。利用transformer架构操作视频的时空块(patches)和图像隐编码(latent codes)。我们最大的模型Sora可以生成一分钟的高保真视频。结果表明扩大视频生成模型的规模是建立通用世界模拟器的一种有前途的路径。

本篇技术报告关注两个方面

  • 将所有类型的视觉数据转化同意表示形式的方法,以便大规模训练生成模型
  • 定性地评估Sora方法的能力与局限

大多数先前的工作研究视频生成模型,涉及的多种不同的方法,有循环网络、生成对抗网络、自回归transformer,和扩散模型。然后这些工作通常关注一小类视觉数据,较短的视频或者固定尺寸的视频。Sora是一个视觉数据通用模型,它可以生成视频或者图片,具有不同时长/分辨率/纵横比,能生成一分钟的高清晰度视频。

将视觉数据转成块

受到大语言模型的启发,其能够通过训练互联网级别的数据获取通用能力。LLM范式的成功部分在于使用token,这种方式优雅地统一不同模态文本,包括不同自然语言、代码和数学。在这项工作中,也考虑如何使得视觉数据生成模型也可以继承这种优点。正如LLM采用文本token那样,类似地Sora采用了视觉patch(块)。Patch概念已经展示出是视觉数据模型的一个有效表示。我们也发现在训练不同类型的视频和图片数据的生成模型,patch也是一种高度可扩展和有效的表示方式。
image

视频压缩网络

我们训练一个网络来压缩视觉数据的维度。这个网络输入的是原始视频数据,输出是隐变量表示,并在时间和空间上都进行了压缩。Sora训练和生成视频都是基于这个压缩后的隐变量空间。同时也训练的一个视觉解码器来讲生成的隐变量值转化到像素空间

时空隐块

给定一个压缩的视频,提取得到时空块序列,这个序列就扮演着transformer tokens的角色,类比LLM。这种方式对图片也是有用的,因为图片是单帧的视频。我们基于块的表示方式,使得Sora可以联合训练具有不同时长、分辨率和纵横比的视频和图片。在推理阶段,通过设置适当尺寸的网格来控制生成视频的尺寸。

为视频生成扩展transformer

Sora是一个扩散模型,给定一个输入噪音或者还可以条件其它信息如文本提示,然后训练其预测出原始无噪音的块patch。重要的是,Sora是一个扩散transformer。Transformer已经展示出显著的扩展能力,横跨不同的域,包括语言建模、计算机视觉和图像生成。

image

通过本项工作,可以发现扩散transformer也可以扩展到视频,下面是一组使用固定随机种子随着训练进行的视频样本比较。可以看出视频样本的质量随着训练计算增加而显著提升。

标签:视频,训练,模型,生成,OpenAI,Sora,视觉
From: https://www.cnblogs.com/wolfling/p/18017466

相关文章