前言
北京时间2月16日,OpenAI突然发布首个文生视频模型Sora。
这一模型可以根据用户输入的提示词直接生成长达60秒的高清视频,并且包含高度细致的场景、复杂的多角度镜头,以及生动的角色表情。
平地一声雷,这次依然让人惊呼“又是王炸”,AI视频要变天了。
Sora是什么
Sora 是OpenAI发布的首个文生视频AI模型,可以根据文本指令创建现实且富有想象力的场景,并且可以生成长达一分钟的视频。
总结:
- 60秒高清视频
- 多角度镜头切换
- 世界模型
Sora官网:https://openai.com/sora
技术报告:https://openai.com/research/video-generation-models-as-world-simulators
大佬评价
对于此次OpenAI Sora的发布:
- 马斯克称:gg humans(人类输了),Sora AI官推也回应称:“Sora开始接管。”
360集团创始人、红衣教主周鸿祎说,“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和 TikTok 的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的就不远了,不是10年、20年的问题,可能一两年很快就可以实现。”
效果展示(视频由Sora生成)
来一起看看Sora生成的视频效果吧
AI理解下的中国龙年:龙逢盛世,人潮涌动,有小孩、有老人,还有手机拍照的,热闹非凡。
提示词(Prompt):与中国龙一起庆祝中国农历新年的视频。
提示词(Prompt):一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
提示词(Prompt):几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深。
提示词(Prompt):淘金热期间加利福尼亚州的历史镜头(一镜到底)。
技术方面
-
Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度,关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。
与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。在数据方面,OpenAI将视频和图像表示为patch,类似于GPT中的token。
通过这种统一的数据表示方式,可以在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。 -
Sora 建立在过去对 DALL·E 和 GPT 模型的研究之上。它使用 DALL·E 3 的重述技术,该模型能够更真实的遵循用户的文本指令生成视频。
除了能够根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地让图像内容动起来并关注小细节。 -
Sora 是能够理解和模拟现实世界的模型,相信Sora这一功能将成为实现人工智能(AGI)的重要里程碑。
最后
Sora生成内容不但接近专业,甚至让人感觉生动有趣,这一次短视频、影视、动漫、游戏等行业或许将被彻底颠覆。
AI时代已来,一起抱团学习成长。
更多AI内容,请关注微信公众号【程序员米七】的文章。
标签:视频,AI,模型,生成,OpenAI,Sora From: https://www.cnblogs.com/mi7coder/p/18019912