Sora、Pika文生视频模型对比

时间：2024-02-18 14:35:40浏览次数：29

标签：视频 Pika 文生模型生成 Sora Runway

OpenAI 重磅发布文生视频模型 Sora，Sora在视频时长与视觉效果等方面相较于 Pika、Runway 等主流文生视频工具有了极大幅度的提升。具体来看，Sora 生成的视频具有超长时长、世界模型、多镜头切换的三大特性：

1）超长时长

Sora 可生成长达一分钟的高清视频，而此前 Pika、Runway 等模型生成的视频时长仅在 20s 以内，在视频时长大幅提升的同时，视频具有连贯性，即使人物和其他场景元素被暂时遮挡或离开视野，仍能保持一致性

2）世界模型

Sora 不仅能够深入理解用户提示，还学会了物理世界的部分规律，比如一个人吃汉堡后会留下咬痕、火车车窗上会产生逼真的倒影，而 Runway 等模型的拟真程度则相对较弱;

3）多镜头切换

Sora 可在单个视频中设计出多个镜头，并且能在多角度的镜头切换中，实现角色和视觉风格的一致性，而 Runway 等绝大部分模型只能生成单镜头视频。

相较于此前的视频生成模型，Sora 在底层模型和算法上的创新点主要体现在以下三个方面:

1）采用 Transformer 架构的扩散模型

不同于 Runway Gen1、Stable Video Diffusion 等扩散模型主要采用经典的 U-Net 架构，Sora 用 Transformer 架构替换 U-Net 架构，大幅提升模型扩展性;

2）训练视频数据保持原始大小

不同于其他视频生成模型通常预先将视频调整、裁剪或修剪为标准大小，例如裁剪为分辨率为 256×256 的 4s 视频，Sora 在原始大小的数据上进行训练，一方面数据采样更灵活，可以对宽屏 1920×1080p 视频、垂直 1080×1920 视频以及介于两者之间的所有视频进行采样，这使 Sora 可以直接以原始宽高比为不同设备创建内容，另一方面可以改善构图和取景，在经过方形裁剪后的视频上训练的模型有时主体仅部分可见，而 Sora 生成的视频取景得到了明显改善;

3）为训练视频生成详细的文字描述

其他文生视频模型通常在大型文本-视频对数据集上进行训练，而Sora采用了DALL·E3和GPT的研究成果，通过为视频训练数据生成或补充详细的字幕描述，提升训练效果，使模型预测更准确。

目前 Sora 仍存在一定局限性，包括无法模拟复杂场景的物理特性、难以理解特定场景下的因果关系、误解用户提示中的空间细节信息，有待于后续的进一步完善和提升。目前 Sora 模型已向部分专家开放，以评估潜在的风险，同时也正在向部分设计师、电影制作人、视觉艺术家等授予访问权限，以获得使用反馈。

标签：视频,Pika,文生,模型,生成,Sora,Runway
From： https://www.cnblogs.com/binyue/p/18019250

文本转视频生成模型Sora浅析
OpenAI官网Sora介绍：https://openai.com/soraOpenAI官网Sora研究：https://openai.com/research/video-generation-models-as-world-simulators北京时间2024年2月16日凌晨OpenAI正式发布了文本生成视频模型Sora原理浅析：Sora是一种扩散模型。使用Transformer架构。将视频和图......
OpenAI推出生成式视频划时代的模型：Sora惊艳登场，引爆行业变革！这次，它又将颠覆哪些领域？
哈喽，大家好,我是程序视点的小二哥！前言就在今天，一个消息把我给震惊呆了：奥特曼发布OpenAI首个视频生成模型Sora。完美继承DALL·E3的画质和遵循指令能力，能生成长达1分钟的高清视频。就在昨天~就是昨天，我还在和AI的小伙伴讨论说“目前的AI，在文生视频方面，还停留在5、6秒的视频......
视频生成-OpenAI Sora
Videogenerationmodelsasworldsimulators我们探索了视频数据生成模型的大规模训练方法。具体来说，在不同时长、分辨率和纵横比的视频和图片数据上联合训练的文本条件的扩散模型。利用transformer架构操作视频的时空块(patches)和图像隐编码(latentcodes)。我们最大的模型Sor......
Sora技术报告视频生成模型作为世界模拟器笔记
Sora技术报告视频生成模型作为世界模拟器笔记技术报告原题目叫做Videogenerationmodelsasworldsimulators，翻译一下就是视频生成模型作为世界模拟器，地址在这里。我写的时候是翻译和笔记并行，翻译感谢gpt4出色的翻译能力。这篇博客介绍了OpenAI在视频数据上大规模训练生......
告别 GPU 焦虑，玩转极致性价比的 CPU 文生图
作者：壮怀、竹刚AIGC中的StableDiffusion文生图模型是开源流行的跨模态生成模型，用于生成给定文本对应的图像。但由于众所周知的原因，GPU资源出现了一卡难求的现状，如何通过云计算快速提升业务规模，降低文生图的计算成本，以及更好的保护自定义的扩展模型？针对文生图模型特性和规模......
Python三方库：Pika（RabbitMQ基础使用）
Python有多种插件都支持RabbitMQ，本文介绍的是RabbitMQ推荐的Pika插件。使用pip直接安装即可pipinstallpika。一、RabbitMQ简介1.MQ简介MQ（MessageQueue，消息队列），是一个在消息传输过程中保存消息的容器，多用在分布式系统之间进行通信。MQ优势应用解耦：提高系统容错性和可......
Generative AI 新世界 | 文生图领域动手实践：预训练模型的部署和推理
在上期文章，我们探讨了文生图（Text-to-Image）方向的主要论文解读，包括：VAE、DDPM、DDIM、GLIDE、Imagen、UnCLIP、CDM、LDM等主要扩散模型领域的发展状况。本期我们将进入动手实践环节，我会带领大家使用AmazonSageMakerStudio、AmazonSageMakerJumpStart等服务，指导您在云中快速......
Farewell to Pika, Embracing the Arrival of PikiwiDB in 2024
今年(2023年) 3 月份于某接手项目时，OpenAtom 基金会 Pika 项目（ https://github.com/OpenAtomFoundation/pika ）对接人告诉我，OpenAtom 基金会旗下的多个项目都面临了一个共同问题：项目名称被第三方注册为商标。出于合规要求，余三月份重点工作之一就是给项目重新申请一个全新......
LLM增强LLM；通过预测上下文来提高文生图质量；Spikformer V2；同时执行刚性和非刚性编辑的
文章首发于公众号：机器感知LLM增强LLM；通过预测上下文来提高文生图质量；SpikformerV2；同时执行刚性和非刚性编辑的通用图像编辑框架LLMAugmentedLLMs:ExpandingCapabilitiesthroughComposition本文研究了如何高效地组合现有的基础模型以实现新功能的问题，文章提出了CALM（Comp......
Farewell to Pika, Embracing the Arrival of PikiwiDB in 2024
今年(2023年) 3 月份于某接手项目时，OpenAtom 基金会 Pika 项目（https://github.com/OpenAtomFoundation/pika）对接人告诉我，OpenAtom 基金会旗下的多个项目都面临了一个共同问题：项目名称被第三方注册为商标。出于合规要求，余三月份重点工作之一就是给项目重新申请一个全新的......