首页 > 其他分享 >简单介绍一下 Sora

简单介绍一下 Sora

时间:2024-03-13 13:56:21浏览次数:23  
标签:视频 DALL 模型 介绍 生成 Sora 简单 GPT

Sora 三位负责人 Bill Peebles,Tim Brooks,Aditya Ramesh的专访
原视频地址:https://www.youtube.com/watch?v=Srh1lut4Q2A

image

简单解释一下Sora 的工作原理

这几年面世的生成模型很多,包括 GPT 等语言模型,DALL·E 等图像生成模型,而 Sora 是视频生成模型,通过大量的视频数据,学习生成逼真的现实世界和数字世界视频。
Sora 的工作方式,借鉴了类似 DALL·E 的基于扩散的模型,以及类似 GPT 系列的大语言模型,但介于两者之间,像 DALL·E 那样被训练,在架构上更像 GPT 系列。

Sora 是基于什么训练的

基于公开可用的数据以及 OpenAI 已经获得许可的数据。
Sora 在训练方面有一项创新,能在不同时长、宽高比、分辨率的视频上训练。以前训练图像或视频生成模型时,素材的尺寸通常是非常固定的,例如只有一个分辨率。
但我们将所有宽高比、时间长短、高分辨率、低分辨率的图像和视频,全部变成叫作补丁(patch)的小块,然后根据输入的大小,在不同数量补丁(patch)的视频上训练模型。
这样一来,我们的模型非常灵活,既能在更广泛的数据上训练,也能用于生成不同分辨率和大小的内容。

现阶段的 Sora 在创作方面的优点和缺点是什么

Sora 的逼真度,以及 1 分钟的时长,都是巨大的进步,但也有些地方还不够好。
一般来说,手还是一个痛点。另外还有一些物理方面的问题,比如 3D 打印机的例子。
如果要求提得更加具体,像是随时间变化的运动和摄像机轨迹,对 Sora 来说也有困难。

你们怎么判断 Sora 到达一个临界点,你们能够掌控它,知道怎么改进它,也准备好把它分享出来?

我们以博客文章形式发布 Sora(并提供部分访问权限),就是为了获得反馈,了解它对人类有什么用,还需要做哪些工作保证安全,我们也在听取艺术家的意见,看 Sora 怎么在工作流发光发热,从而指引我们的研究路线。
但 Sora 目前不是一个产品,在 ChatGPT 或者其他地方都不可用,我们甚至还没有将其转化为产品的时间表,现在就是一个获取反馈的阶段。
我们肯定会改进它,但应该如何改进它,还是一个等待解答的、开放的问题。

未来有没有这样的可能,Sora 生成一个与普通视频无法区分的视频,就像 DALL·E 制作逼真的图片?

这确实是可能的,当然,当我们快要接近时,必须小心谨慎,确保相关的功能不被用来传播虚假信息。
现在人们刷社交媒体时,已经在担心看到的视频是真的还是假的,是否来自权威的信源。

这很有趣,Sora 模拟现实的能力越强,我们也能够更快地在其基础上构建,将它作为一个工具,解锁新的创造可能。关于 Sora 和 OpenAI,你们还有什么想分享的吗?

让我们兴奋的另一件事是,如何让 AI 从视频数据中学习,发挥更多的作用,而不仅仅是创作视频。
在我们生活的世界,观察事物就像观看视频,很多信息不能用文本表达,虽然像 GPT 这样的模型非常聪明,对世界已经了解很多,但如果它们无法像我们一样以视觉方式看待世界,就会缺失一些信息。
所以我们希望 Sora 和未来在 Sora 基础上构建的其他 AI 模型,从关于世界的视觉数据中学习,更好地理解我们生活的世界和其中的事物,然后更好地帮助人类。

标签:视频,DALL,模型,介绍,生成,Sora,简单,GPT
From: https://www.cnblogs.com/jietang64/p/18070455

相关文章

  • 2024计算机软考基本介绍、考试时间、考试科目等2024年软考新变化政策 证书的作用
    专栏系列文章推荐: 2024高级系统架构设计师备考资料(高频考点&真题&经验)https://blog.csdn.net/seeker1994/category_12593400.html【历年案例分析真题考点汇总】与【专栏文章案例分析高频考点目录】(2024年软考高级系统架构设计师冲刺知识点总结-案例分析篇-先导篇)案例分析篇......
  • LangChain的Agent使用介绍
    LangChain介绍随着各种开源大模型的发布,越来越多的人开始尝试接触和使用大模型。在感叹大模型带来的惊人表现的同时,也发现一些问题,比如没法查询到最新的信息,有时候问一些数学问题时候,会出现错误答案,还有一些专业领域类问题甚至编造回答等等。有没有什么办法能解决这些问题呢?答......
  • 【Paper Reading】7.DiT(VAE+ViT+DDPM) Sora的base论文
    VAEDDPM 分类内容论文题目ScalableDiffusionModelswithTransformers作者WilliamPeebles(UCBerkeley),SainingXie(NewYorkUniversity)发表年份2023摘要介绍了一类新的扩散模型,这些模型利用Transformer架构,专注于图像生成的潜在扩散模型。这些......
  • Python学习笔记-Flask实现简单的投票程序
    1.导入flask包 fromflaskimportFlask,jsonify,abort,make_response,request,render_template2.初始化Flask应用:app=Flask(__name__)3. 定义投票种类data=[{'id':0,'name':'劳动节','num':0},{'id':1,'name&#......
  • JS 监听浏览器各个标签间的切换-visibilitychange事件介绍
    文章目录一、JS监听浏览器各个标签间的切换二、document的可见性属性三、示例:监听标签,控制视频播放与暂停一、JS监听浏览器各个标签间的切换以前看到过一些网页,在标签切换到其它地址时,网页上的标题上会发生变化,一直不知道这个是怎么做的,最近查了一些资料才发现......
  • 【图像超分】论文复现:新手入门!Pytorch实现SRCNN,数据预处理、模型训练、测试、评估全流
    文章目录前言1.准备数据集和数据预处理1.1数据集选择1.2数据预处理1.3评估指标PSNR和SSIM1.3.1PSNR1.3.2SSIM2.定义网络结构3.设置参数并训练模型3.1参数设置3.2模型训练4.测试训练好的模型5.用训练好的SRCNN模型超分自己的图像数据6.其他补充6.1特征图......
  • 7-18 两个数的简单计算器
    本题要求编写一个简单计算器程序,可根据输入的运算符,对2个整数进行加、减、乘、除或求余运算。题目保证输入和输出均不超过整型范围。输入格式:输入在一行中依次输入操作数1、运算符、操作数2,其间以1个空格分隔。操作数的数据类型为整型,且保证除法和求余的分母非零。输出格式:......
  • Flask框架基础介绍
    Flask是一个轻量级的PythonWeb应用框架,它简单而灵活,适用于快速开发Web应用程序。Flask基于WerkzeugWSGI工具箱和Jinja2模板引擎构建,提供了简单易用的方式来构建Web应用程序和RESTfulAPI。以下为Flask框架的基础知识和常用用法。1、安装Flask在开始之前,首......
  • dremio TemporaryFolderManager 简单说明
    dremio对于比较大的处理(聚合函数操作可能会触发spill,同时会方法临时文件中),对于比较频繁的job查询可能会有不少临时文件TemporaryFolderManager核心是为了进行这些临时文件的管理,包括清理,创建,已经对于临时异常执行器节点的文件处理,对于清理处理dremio没有使用自己的开发的那......
  • 设计模式 -- 1:简单工厂模式
    目录代码记录代码部分代码记录设计模式的代码注意要运用到面向对象的思想考虑到紧耦合和松耦合把具体的操作类分开不让其互相影响(注意这点)下面是UML类图代码部分#include<iostream>#include<memory>//引入智能指针的头文件usingnamespacestd;......