OpenAI真是要压着谷歌打么?哈哈! 直接赶在谷歌之前开了一个新品发布会。 今天凌晨直播,早上一起来就发现已经可以体验新模型了。 从录播内容来看,并没有传言的GPT5,也没有所谓的搜索功能。 但是,这次更新依旧出彩。 其实奥特曼在X上早就说了,不是gpt5,也不是搜索,但对他来说像魔法一般。 整个发布会看下来,也是有一种未来已来的感觉。 很明显,ChatGPT早已不再是一个文字模型了。 它可以感知外界的声音和画面,甚至你说话的情绪,并且给你相应情绪的反馈。 这很容易,让人联想到科幻电影《Her》。 很明显,Sam也是朝着这个目标去的。她在7个小时前发了一条推,上面只有一个单词“her”。 《Her她》是一部讲述在不远的未来人与人工智能相爱的科幻爱情电影。电影中男主的云端情人(人工智能系统OS1)由性感女神斯嘉丽·约翰逊配音。 寡姐是多少男人的梦中情人啊,有这样一个AI,还要啥女朋友? 说得有点远了,回归到GPT4o, HER显然还是一个目标,而不是现实。 但是确实值得来说一说,也许今天,已经在创造历史了。 我还没有仔细对比宣传视频和实际使用的差距,但是看到X上有人(@minchoi)概括和演示了GPT4o的十种使用场景,有点意思,和大家分享一下。 通过一些实际的使用场景,也可以更好地理解这个模型。 1.实时视觉助手 这应该是最惊艳演示了,就是你看到了什么,可以直接和GPT4o进行讨论,它能实时理解你看到的东西。 这个关于鸭子的演示,也很有意思,曾经谷歌也做过,但是后来大家发现谷歌是靠剪辑做的实时交互,GPT4o似乎可以通过摄像头直接实时交互。 我还没体验到,但是官方演示视频中也有演示这个功能。 2. 辅助学习 视频演示了GPT4o直接读 IPAD中给出的题目,并可以和家长和孩子,通过语音实时互动。 这简直就是学渣和学渣家长的福音啊。 GPT应该是一个不错的老师,至少不会像我这样暴跳如雷吧~~哈哈! 辅导过孩子作业的都知道,这个过程是有多崩溃。很快,也许GPT就能接过这个事情了,对我而言,这是刚需。 3. 实时翻译 实时翻译功能,可以让GPT充当你的个人翻译,可以让两个说不同语言的人流畅沟通。 你只要和GPT约定好规则,你可以直接说中文,它立马翻译成日语,对方说日语,立马可以翻译成汉语。 你们想想看,这又是多少人的刚需啊。 学了几十年的英语,还是个渣渣,最终还是得靠科技啊~~ 4.会议助手 我不喜欢开会,这个介绍跳过,你们可以自己想象一下。比如有人帮你录音,做会议纪要,做会议总结。 5. 实时中断并改变情绪 用过老版本GPT4语音通话的人,肯定有一点点崩溃的感觉。GPT4的语音反馈非常非常慢。 它必须先把你的语音转换成文字,然后在交给后端处理,处理完成之后又要把文本转换成语音,所以整个过程非常煎熬。 现在好了,新版GPT4o可以随时打断,随时插嘴了。 而且反馈速度也非常快,好像可以在几百毫米内作出反馈。这是一个巨大的实用性上的进步。 除了可以随时说话随时打断之外,还具有了通过声音理解和表达情绪的能力。 这句话的意思就是,她能从过你的声音感受到你的喜怒哀乐,你也可以让它用不同情绪来和你说话。 比如,“嗨,GPT来撒个娇” ,“请用无比兴奋的语气说,come on,baby” 哈哈哈~~ 6. 把文字添加到图片中 这个功能不需要多解释啊,图片演示得很直观。不用P图了,直接生成。可以看到文字添加到图片后,和图片融合得天衣无缝。 7. 多人会议记录 可以通过会议录音,直接提问“录音中有多少人,说了什么”。 回答说“有四个人,听起来像是一个项目管理的会议,马克正在介绍他自己....” 然后会把谁,说了什么,用文字的形式展现出来。 这种功能不算惊艳,但是很实用。 8. 3D物体合成 现在不光可以生成图片,还可以生成3D动画了么? 7. 海报制作 添加图片注释,不超过 140 字(可选) 输入两个人的照片,制作一张大片的海报。好基友,共进退! 8. 制作风格化的照片 上传一张照片,添加一段描述,就能生成风格化的照片了。 这个功能并不新鲜,很多传统软件也有,只是现在可以通过统一的对话窗口,通过对话来完成了。 这颗痣保留得不错! 感觉GPT可以吞噬一切APP。 9. 定位精准的高阶P图 给出一个openai的logo,给出一个没有品牌标识的杯垫。 通过描述,把openai的标志和文字刻到上面。 注意,不是贴上去的感觉,而是有刻上的感觉。 融合得非常自然。 10.生成特殊字体的文字 通过描述“字母 KLM NOP QRS 显示在三行中,像在字帖中展示字体一样。这是一种超未来的字体,是人工智能G命的标志” 来生成特殊字体。 十个场景说完了,前面几个比较宏大,后面的比较细致。 “机械组”要加油了,赶紧制造出一个逼真的身体吧! 上面是通过应用场景来感受GPT4o,下面是官方给出的基准测试。 添加图片注释,不超过 140 字(可选) 不能说遥遥领先,也是保持了基本的领先。 另外也从侧面反映,OpenAI的对手们也咬得很紧。 Claude有点势均力敌的感觉, 谷歌也没有想象中的弱, Llama3 400B在openai的测试中居然也这么强~~。 openai怎么不把国产模型也放在里面测一测呢? 是看不起李彦宏,还是看不起百度么? 哈哈,好大的胆子! What's your problem!(请脑补画面) 当然,上面的测评只是基于文本的特定指标的基准测试,而这次最大的更新应该是基于视觉和声音,这两方面OpenAI应该属于“遥遥领先” ! 从通用大模型的角度来说,OpenAI整体实力确实强,比较讨厌的是不开源,不好抄
标签:场景,演示,GPT4o,可以,OpenAI,GPT,模型 From: https://www.cnblogs.com/wangpg/p/18191822