首页 > 其他分享 >火出圈的Sora到底是什么?5000字长文带你彻底了解Sora!

火出圈的Sora到底是什么?5000字长文带你彻底了解Sora!

时间:2024-03-30 10:30:15浏览次数:26  
标签:视频 5000 AI 模型 生成 文带 OpenAI Sora

基本概念

OpenAI是一家致力于人工智能研究和推广的领先机构,自2015年成立以来,不断在深度学习、自然语言处理等领域取得突破。

通过GPT-4等模型,OpenAI巩固了其在人工智能技术创新和应用开发领域的领导地位,致力于推动AI技术的安全和伦理发展,以造福全人类。

(PS:如果你需要开通ChatGPT-4.0的话,请查看:订阅GPT4保姆级教程

OpenAI的最新成果Sora,一个先进的文生视频大模型,于2024年2月18日发布,标志着OpenAI在视频生成技术方面的重大进步。Sora的发布展现了OpenAI在生成视频质量、分辨率、文本语义还原等方面的卓越能力。

什么是Sora

Sora是OpenAI于2024年2月18日凌晨发布的新的文生视频大模型,名为 “ Sora ”。
从OpenAI在官网展示的Sora生成视频的效果来看,在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好!

特别是可以生成最长1分钟的视频!生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。超过Gen-2、SVD-XT、Pika等主流产品,一出手就是王炸。

Sora引发全球的关注

Sora的横空出世引发了全球的关注,网民纷纷惊叹于人工智能的高速发展,一众大V也发表观点。

360创始人周鸿祎对Sora给予了极高的评价,他认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。

周鸿祎认为,科技竞争最终比拼的是让人才密度和深厚积累,“很多人说Sora的效果吊打Pika和Runway。这很正常,和创业者团队比,OpenAl这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”

他还提到,尽管国内大模型发展水平表面看已经接近GPT-3.5,但实际上跟4.0比还有一年半的差距。OpenAl手里应该还有一些秘密武器,无论是GPT-5,还是机器自我学习自动产生内容,“奥特曼(OpenAI CEO)是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。

Sora发布后数小时,马斯克在社交媒体上回复了“gg humans”,gg为Good Games缩写,代指“打得好,我认输” 。之后马斯克还称,通过AI增强的人类将在未来几年创造出最好的作品。

GPT商店中有Sora GPT吗?

目前没有任何GPT可以使用Sora AI。有些可能使用“Sora”这个关键词来吸引注意,但实际上是不可用的。

Sora的能力

只需在提示框中输入单词、短语或句子,Sora就会根据这些信息自动生成场景。它目前可以达到这些效果:

  • 生成具有多个角色和特定动作的复杂场景。
  • 根据用户提示准确详细描述主题和背景。
  • 理解在生成的场景中请求元素的物理存在。

OpenAI表示,Sora可以生成包含几个角色、特定类型的动作以及详细的主题和背景的复杂场景。模型“不仅理解用户在提示中请求的内容,还理解这些事物在物理世界中是如何存在的”。

OpenAI的Sora有替代品吗?

目前没有。它在视频质量方面超越了其他产品,如Runway、Pika、Stable video。

Sora有多厉害?

根据OpenAI在twitter上发布的初始示例和创作者在社交媒体平台上的建议,Sora能够根据提示准确地创建视频。

但openai也承认,当前的Sora模型存在不足之处。即“它可能在准确模拟复杂场景的物理特性方面存在困难,可能不理解特定的因果关系实例。”

我可以在ChatGPT上使用Sora AI吗?

Sora目前还不能在ChatGPT系统或其他OpenAI产品中使用。由于访问权限仍然限于选定的测试组,因此尚未启用与公共工具如ChatGPT的集成。

Sora的当前限制

  • 在准确模拟复杂物理过程方面存在困难。
  • 有时会误解空间细节和特定事件序列。
  • 在创建合理的运动和准确建模对象与角色之间的交互方面存在问题。

Sora对未来影响几何?哪些人会因此失业

不可否认,技术的变革是把双刃剑,在关注应用前景的同时也有不少人担忧会被AI抢了饭碗。

目前最容易受到影响的或许是影视行业的从业者。例如视频剪辑师、后期制作这类岗位,视频模型Sora能够自动或半自动地生成视频,这可能会导致传统的视频制作和编辑职位的需求下降。后期制作包括剪辑、特效、音效等环节,这些工作也可以通过AI技术进行自动化或半自动化处理。

但是,Sora 的出现让世界看到了人工智能的无限可能。2024年第一块坚实的里程碑落下了,带给人类的依旧是希望大于绝望。因此不一定会造成失业潮。相反,它可能促使视频行业朝着更高端、更创新的方向发展。

如何使用Sora

Sora是否向公众开放,是否免费?

OpenAI表示,目前Sora向“红队成员”开放,即能够评估风险并识别潜在问题(如错误信息、偏见和仇恨内容)的专家。他们将“对抗性”地测试模型。

Sora还将对一些视觉艺术家、设计师和电影制作人开放——根据OpenAI首席执行官Sam Altman的说法,这是“有限数量的创作者”,以获取反馈,以改进平台,使其对创意专业人士更有用。

目前,对这些用户而言,Sora是免费的,他们将获得模型的早期访问权限。

然而,目前尚不清楚一旦Sora向公众开放,OpenAI是否会收取费用。OpenAI已经推出了ChatGPT和其图像创建工具Dall-E的付费模型。

如何获取Sora的访问权限并使用Sora?

您现在还无法登录使用Sora AI。目前还没有请求访问的方式。

Sora的访问权限目前仅限于一小部分测试者。OpenAI已授权给红队研究员、视觉艺术家、设计师和电影制作人,以评估潜在的危害、收集创意反馈,并推进Sora模型的能力。

然而,目前还没有公共API或更广泛的可用性。

OpenAI网站上展示的能力展示了这种文本到视频生成模型的潜力,但实际的手动访问权限仍限于内部测试和某些外部试点组。

OpenAI指出,他们可能会在将来将Sora集成到商业产品中时考虑更广泛的访问权限,但任何公共访问的时间表仍然未定义。

目前,创新的Sora模型仅对OpenAI之外的一小组测试用户启用。更广泛的公共访问可能取决于OpenAI自己的使用政策和风险容忍度,因为这项技术继续发展。

Sora的安全性

Sora是否安全?

就像任何其他AI平台一样,对Sora可以生成的内容存在担忧。OpenAI表示,它正在努力解决这些问题。

除了与红队成员合作外,OpenAI表示,它还在构建工具来帮助检测误导性内容,包括一个可以识别视频是否由Sora生成的“检测分类器”。

OpenAI的文本分类器将“检查并拒绝违反我们使用政策的文本输入提示”,例如当用户请求与极端暴力、色情内容、仇恨图像、名人肖像或他人的知识产权相关的内容时。

OpenAI还表示,它将与全世界的政策制定者、教育工作者和艺术家合作,“了解他们的担忧,并识别这项新技术的积极用例”。

Sora的内容限制

Sora遵循伦理指南和安全协议,限制推广暴力、侵犯版权或被认为有害的内容。它鼓励在一个安全、尊重的框架内创造力。

安全措施

  • 与红队合作评估潜在危害或风险。
  • 开发用于检测误导内容的工具。
  • 应用来自DALL·E 3的现有安全方法,包括文本和图像分类器,以确保遵守使用政策。

Sora API相关

OpenAI Sora API

根据OpenAI介绍Sora的博客文章,Sora模型目前没有公开的API可用。

这意味着目前Sora的访问权限仅限于特定的测试用户,并未向公众开放。这主要是考虑到潜在的风险。

该帖子还提到了将来可能在OpenAI的产品中部署Sora的计划。这表明从长远来看,OpenAI可能会为用户通过商业产品开放Sora的访问权限,但目前还没有公开的API或其他访问渠道。

总之,Sora模型目前没有启用任何形式的公开API,仅限于内部测试和选定用户。OpenAI是否决定开放API访问可能取决于他们的未来商业计划。如果需要对这个英文解释进行任何额外的澄清,请让我知道!

Sora定价及Sora API的定价

Sora AI是否免费使用?我不这么认为,因为生成视频需要GPU。

围绕OpenAI将对公开发布的Sora模型收取多少费用有很多好奇心。在回顾了OpenAI发布的有关Sora能力的研究之后,我预测他们将采取基于输出分辨率等因素的分层定价方法。对于需要最多计算资源的全高清质量视频,价格可能从每分钟生成10 $ 起;更高的价格也不会令人意外。我的感觉是,初始需求将最强烈地来自电影、流媒体节目和游戏开发等娱乐领域,这些领域可以充分利用视频AI助手。但成本将决定除这些行业之外的专业创作者能多广泛地利用Sora。

随着我们等待OpenAI正式的定价公告,围绕这个开创性但昂贵的模型可能对多个领域产生的影响有很多猜测。

Sora和其他工具的比较

Sora VS Diffusion

Sora与以前的扩散模型相比,在长达1分钟的视频中展现出了令人印象深刻的连贯性。DALL-E专注于图像,而Sora展示了将书面提示不

仅转化为独立场景,而且平滑过渡、多视角视频序列的能力。

这代表了从静态图像扩散技术向前的重大飞跃。通过在帧之间保持时间连贯性,Sora解决了其他生成视频方法所面临的核心挑战——在动态上下文中保持身份和物理可能性。

研究团队归功于变压器架构的使用,使得在空间和时间上更好地整合,以及新颖的基于补丁的训练方法,为解锁Sora的强大视频能力打开了大门。

虽然图像质量和保真度继续迅速进步,但Sora在连贯、连续生成视频方面取得了进展,这是其他扩散实现所缺乏的。其运动建模和物理意识显示了对长形式视频应用的独特前景。

展望未来,Sora似乎为进一步探索扩散方法在复制我们周围可见世界的核心原则方面的能力设定了基准。

Sora VS Midjourney

尽管Sora和Midjourney都展示了引人注目的文本到图像/视频生成能力,但他们的方法目前不允许直接比较。

Midjourney专注于使广泛的公众能够访问其图像扩散模型,在此过程中建立了一个强大的艺术社区。

然而,Sora的访问仍然受到严格限制,仅限于内部测试,限制了对其方法论强弱点的可见性。我们还没有观察到Midjourney为每个用户在提示和风格方面赋予的细微控制和定制程度。

而且,视频本身就比单个图像复杂。也就是说,Sora在连贯的长形视频平滑和视角方面的明显专业性似乎与Midjourney的核心竞争力不同。

最终,缺乏公共Sora访问意味着与Midjourney等创意平台的强健基准测试还不可行。

评估Sora的技术在多大程度上可能增强、扩展或取代像Midjourney这样的解决方案,将不得不等到OpenAI开放正式访问或提供更多透明度。

目前,两者都指向AI创造力的未来,但比较输出将需要Sora首先提供更多的公开可用性。

Sora VS DALL·E 3

Sora是OpenAI能够生成长达一分钟的高保真视频的最大模型。它是一个生成模型,经过训练,可以处理不同持续时间、分辨率和宽高比的视频和图像数据,使用基于变换器的架构,操作视频和图像潜在代码的时空补丁。Sora的开发是扩大视频生成模型规模努力的一部分,这被视为构建物理世界通用模拟器的有希望的路径。

Sora和DALL-E 3之间的关系主要在于它们对生成建模的共享方法以及它们在模拟物理世界方面的使用。

DALL-E 3以根据文本描述生成图像而闻名,使用了与Sora类似的方法来利用大规模生成模型。

Sora将这一能力扩展到视频生成,允许创建动态视觉内容。两个模型都展示了使用生成模型创建多样化和复杂的媒体输出的

潜力,为AI驱动的内容创建做出了贡献。

Sora VS Pika, Runway, Stable Video Diffusion

模型发布日期使用便捷性特点价格
OpenAI Sora2024年2月未知强大、多功能尚未开放
Pika2023年1月简单用户友好,多种风格和效果订阅制
Runway2023年困难强大、多功能订阅制
Stable Video Diffusion2023年困难视频稳定和增强自托管/订阅制

不同点

  • OpenAI Sora是最强大的文本到视频生成模型,但它仍在开发中,可能难以使用。
  • Pika是Sora的一个更用户友好的替代品,可用于生成具有多种风格和效果的视频。
  • Runway和Stable Video Diffusion是视频编辑平台,提供创建和编辑视频的多种工具,包括文本到视频生成。

Sora技术相关

Sora最大的技术突破是什么?

目前,文生视频领域因为帧间依赖处理、训练数据、算力资源、过拟合等原因,一直无法生成高质量的长视频。

Sora最大技术突破是,可以在保持质量的前提下,生成1分钟的视频,在业内非常罕见。这也再次展示了OpenAI在大模型领域超强的技术研发能力。

Sora原理概述

此前,openai发布了Sora技术报告,我也为大家准备了一份技术报告的思维导图分析。需要的话请查看:Sora原理?Sora技术报告解读(思维导图版)

Sora是一种扩散模型,主要通过静态噪音的视频开始生成视频,然后再通过多个步骤去除噪音,逐渐转换视频。

Sora与ChatGPT一样采用的是Transformer架构,并使用了DALL-E 3中的重述技术,是一种为视觉训练数据生成高精准描述性的字幕。所以,Sora在生成视频过程中精准还原用户的文本提示语义。

Sora未来发展

未来计划

  • 让红队、视觉艺术家、设计师和电影制作人访问Sora,以获取反馈。
  • 计划在未来部署中加入C2PA元数据。
  • 与全球的政策制定者、教育工作者和艺术家合作,了解潜在的积极用例和关切。

标签:视频,5000,AI,模型,生成,文带,OpenAI,Sora
From: https://blog.csdn.net/Yrongrong/article/details/137166944

相关文章

  • 一文带你搞懂匈牙利算法
    一文带你搞懂匈牙利算法附赠自动驾驶学习资料和量产经验:链接什么是匈牙利算法最近在研究一个比较有意思的应用—车辆追踪算法。传统的车辆追踪算法是基于检测器检出车辆,之后使用卡尔曼滤波和匈牙利算法来进行位置预测与数据级联的。关于卡尔曼滤波,我之前已经写过一篇文章进行......
  • 一文带你搞懂RTK定位
    一文带你搞懂RTK定位附赠自动驾驶学习资料和量产经验:链接说到定位,相信大家一定不会觉得陌生。如今我们所处的信息时代,人人都有手机。每天,我们都会用到与地图和导航有关的APP。这些APP,就是基于定位技术的。说到定位技术呢,大家又肯定会想到GPS、北斗这些名词。是的,这些都属于全......
  • 导演、音乐家、艺术家眼中的Sora第一印象
    自从2月16日Sora发布的那个夜晚以来,多少人都在翘首以盼,期待能真正的用上Sora。但是OpenAI自己也懂,基于模型对齐问题、安全问题、推理算力问题等等,这玩意短期内,基本不可能放出来给大众用。当然了,等以后能够开发给大众使用的时候,鉴于它所需要的算力,一定是远超ChatGPT的,所以肯定会......
  • 【CSS浮动属性】别再纠结布局了!一文带你玩转CSS Float属性
    在网页设计的世界里,CSS浮动属性(float)就像一把双刃剑。它能够让元素脱离文档流,实现灵活的布局,但如果处理不当,也可能引发一系列布局问题。今天,我们就来深入探讨这把“剑”的正确使用方法,让你的页面布局既美观又稳定。一、什么是CSS浮动属性浮动属性是CSS中的一个定位属性,它允许元......
  • 【译】OpenAI 的 Sora 如何通过涌现能力反噬物理世界
    原作:JamieW引言:当我第一次看到Sora演示视频时,我产生了一个惊人的想法:这个奇迹是否是由UE5和Render的结合驱动的?还有其他什么方式可以如此生动地呈现出咖啡杯海盗船上汹涌澎湃的海洋或者速度飞驰汽车后面翻滚扬尘呢?/Gemini翻译/然而,一位视觉算法专家迅速否定了我对Sora依赖像U......
  • 【独立开发前线】Vol.15 一个单页面网站,每月10万访问量,盈利5000美元
    今天给大家分享的网址是:DiskPrices网址是:DiskPrices(US)这是一个单页面网站,看起来非常简陋,但你肯定想不到的是这个网站每月的访问量超过10万;那么这个网站的主要功能是什么呢?它收集了所有亚马逊上的打折硬盘的信息,整理成列表,并通过Affiliate盈利;信息持续更新,并且......
  • 一文带你看懂甘特图,项目进度、资源分配清清楚楚
    带大家看懂一个甘特图,我们打开一个zz-plan的甘特图,左边是任务栏,右边是进度条,上面这个是时间,下面是一个整个项目的一个状态,任务、工时、周期和进度。  这一列颜色灰色的表示是当天,我们从这可以看出现在的进度是57.58%。进度正好在当天,没有超期、也没有延期。像这种像个括号的......
  • Sora原理深度解析:OpenAI Sora的工作原理全面解读
    2月16日,OpenAI出人意料地推出了一款震撼业界的模型——Sora,这是一个能够实现文本到视频生成的创新工具。相比于现有的其他文本生成视频工具如Pika,Sora无疑展现出了超越次元的强大实力。Sora的卓越之处在于,它能够根据文本描述生成长达60秒的连贯流畅视频,而其他工具往往只能生成......
  • GPT-4引领AI新纪元,Claude3、Gemini、Sora能否跟上步伐?
    【最新增加Claude3、Gemini、Sora、GPTs讲解及AI领域中的集中大模型的最新技术】2023年随着OpenAI开发者大会的召开,最重磅更新当属GPTs,多模态API,未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义,不亚于互联网和个人电脑的问世。360创始人周鸿祎认......
  • YOLOv8改进 | 注意力篇 | 一文带你改进GAM、CBAM、CA、ECA等通道注意力机制和多头注意
    一、本文介绍这篇文章给大家带来的改进机制是一个汇总篇,包含一些简单的注意力机制,本来一直不想发这些内容的(网上教程太多了,发出来增加文章数量也没什么意义),但是群内的读者很多都问我这些机制所以单独出一期视频来汇总一些比较简单的注意力机制添加的方法和使用教程,本文的内容......