【译】OpenAI 的 Sora 如何通过涌现能力反噬物理世界

时间：2024-03-27 19:22:57浏览次数：30

原作：Jamie W

引言：当我第一次看到Sora演示视频时，我产生了一个惊人的想法：这个奇迹是否是由UE5和Render的结合驱动的？还有其他什么方式可以如此生动地呈现出咖啡杯海盗船上汹涌澎湃的海洋或者速度飞驰汽车后面翻滚扬尘呢？

/Gemini翻译/

然而，一位视觉算法专家迅速否定了我对Sora依赖像Unreal Engine或Blender等游戏引擎的想法。他澄清说，Sora操作时并不需要明确的物理模拟，就像ChatGPT在英语方面表现出色一样，并不受到语法严格规则的限制。这证明了Sora天生对物理和空间深度的把握。

一名来自a16z的投资者在Twitter上分享了一个流行但有缺陷的对Sora底层机制的分析，将其过程分解为使用CLIP作为基础，将文本转换为3D对象，并将这些对象与游戏引擎中的骨骼和路径进行集成以进行模拟。然后，结果据称被馈送到视频扩散模型中。

然而，任何熟悉 OpenAI Sora 技术报告的人都会看到其中的过度简化。

Sora 团队将他们的创作描述为“涌现能力”的产品——这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面，这是通过扩展训练实现的，由数万个 GPU 提供支持。从本质上讲，他们利用蛮力训练计算来创造奇迹。

Sora 的核心是 Diffusion Transformer，这是一个受大型语言模型 (LLMs) 启发的有远见的模型，旨在处理视觉数据。这涉及将视频数据压缩到时空补丁中，类似于 LLMs 理解的标记，然后对其进行训练并重新组装成新的高清视频序列。这种创新方法不仅简化了复杂的视频数据世界，而且还与 transformers 的处理能力保持一致，标志着从Unreal Engine 5（UE5）的手动精度到 Sora 的直观、数据驱动的见解的重大飞跃。

patches diagram

此外，Sora代表了向统一的视觉数据模型转变的趋势，能够生成图像和视频。这种多功能性扩展到各种功能，从文本、图像甚至其他视频生成视频，到增强和拼接视频。让Sora脱颖而出，真正令我印象深刻的是它在描绘角色、物体和场景方面的无与伦比的一致性，远远超过了诸如Runway和Stable Diffusion或Midjourney等图像生成器的能力。

正如我们在Midjourney等平台上看到的，要实现这种一致性往往需要利用种子、上传图像，甚至借助流行文化中知名人物的形象。然而，Sora毫不费力地超越了这些方法，给现有工具投下了长长的阴影，并有可能重塑设计人员的格局。这反映了这样一种观点：未来设计领域的分歧可能确实存在于那些精通像Sora这样的人工智能技术的人和尚未接受这些技术的人之间，这表明对传统艺术、3D建模和引擎开发角色产生了变革性的影响。

标签：视频,反噬,能力,OpenAI,Sora,图像,物理
From： https://www.cnblogs.com/Leap-abead/p/18099783

OpenAI创始人Sam独家专访！GPT5升级时间确定！揭秘OpenAI内幕
原文链接:OpenAI创始人Sam独家专访！GPT5升级时间确定！揭秘OpenAI内幕3月25日，LexFridman与SamAltman进行了一场深度对话，这次采访持续了近两个小时，可以说是一次全面而深入的交流。在这次对话中，他们几乎触及了当前科技界最为关注的几个热点话题。SamAltman针对GPT-5、Sora......
OpenAI 的下一步：GPT-5 及未来技术展望
近期有消息称，随着Gemini1.5、MistralLarge和Claude3的推出，OpenAI的新一代人工智能语言模型GPT-5预计将在今年夏季亮相。根据《商业内幕》援引知情人士的报道，一些外部公司已经得到了GPT-5的初步演示，尽管该模型目前还在开发阶段，未经最终确定。GPT-5的预期高涨，当前已有不少......
Claude3发布成为大模型之王，Openai是否真的跌落神坛，附试用链接
人不走空 ......
Sora原理深度解析：OpenAI Sora的工作原理全面解读
2月16日，OpenAI出人意料地推出了一款震撼业界的模型——Sora，这是一个能够实现文本到视频生成的创新工具。相比于现有的其他文本生成视频工具如Pika，Sora无疑展现出了超越次元的强大实力。Sora的卓越之处在于，它能够根据文本描述生成长达60秒的连贯流畅视频，而其他工具往往只能生成......
GPT-4引领AI新纪元，Claude3、Gemini、Sora能否跟上步伐？
【最新增加Claude3、Gemini、Sora、GPTs讲解及AI领域中的集中大模型的最新技术】2023年随着OpenAI开发者大会的召开，最重磅更新当属GPTs，多模态API，未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义，不亚于互联网和个人电脑的问世。360创始人周鸿祎认......
Open-Sora 单机部署教程
Open-Sora是GitHub上最近出现的一个开源项目，对标Sora，并且提供了完整的训练、推理的代码和模型权重。我们可以用这个项目的代码来进行文生视频等操作。代码仓库地址：github.com/hpcaitech/O…虽然Open-Sora目前的效果和Sora还有一些差距，生成视频的效果和长度都还有很大改善空......
AI新工具(20240321) 又一个开源的Sora实现；高质量动漫风格图像的文本到图像模型；字节跳
✨1:Mora利用多智能体合作生成视频任务的多智能体框架Mora是一种多智能体框架，专为通用视频生成任务设计。它通过多个视觉智能体的协作，实现了在多种视频生成任务中的高质量输出，旨在复制并扩展OpenAISora的能力。以下是通俗语言总结的Mora功能以及可能的使用情景......
Open Sora 发布！开源的高效复现类 Sora 视频生成方案
不久前OpenAISora的发布可以说是震惊了世界，但是奈何目前OpenAI还未将Sora开放公测，但在昨天，我们却等来了OpenSora1.0的发布，这是Colossal-AI团队的一个完全开源的视频生成项目，致力于高效制作高质量视频，并使所有人都能使用其模型、工具和内容的计划。通......
直播预告｜Sora 会怎样驱动视频编解码领域的突破与革新
在数字化时代，视频内容的传播与消费已成为日常生活的一部分。视频编解码技术是数字媒体领域的一项核心技术，它影响着视频质量，传输速度以及观看体验。与此同时，视频产业正在经历一场由技术驱动的变革，Sora、AIGC等相关技术的兴起正是这场变革的关键推手。本期RTEDevT......
GPT-4与Claude3、Gemini、Sora：AI领域的技术创新与突破
【最新增加Claude3、Gemini、Sora、GPTs讲解及AI领域中的集中大模型的最新技术】2023年随着OpenAI开发者大会的召开，最重磅更新当属GPTs，多模态API，未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义，不亚于互联网和个人电脑的问世。360创始人周鸿祎认......

【译】OpenAI 的 Sora 如何通过涌现能力反噬物理世界

相关文章

赞助商

阅读排行