首页 > 其他分享 >OpenAI用26分钟改变世界!免费版GPT-4震撼登场,视频语音交互迈向科幻片级别

OpenAI用26分钟改变世界!免费版GPT-4震撼登场,视频语音交互迈向科幻片级别

时间:2024-05-28 17:58:21浏览次数:20  
标签:26 4o AI 免费版 OpenAI 语音 GPT ChatGPT 科幻片

一场长达26分钟的发布会,再次掀起了AI行业的风浪,将深刻改变我们未来的生活,也将让无数AI初创公司感到焦虑不安。

这并非标题党,因为这次发布会由OpenAI主办。

就在刚刚,OpenAI正式发布了GPT-4o。这个“o”代表“omni”,即全面、全能的意思。这一模型不仅拥有文本处理能力,还能处理图片、视频和语音,实际上它是GPT-5的一个未完成版本。

更值得一提的是,这个与GPT-4相当的模型将对所有用户开放,并且在未来几周内将首先推送给ChatGPT Plus用户。

发布会要点:

  1. 新的GPT-4o模型:可以直接处理文本、音频和图像的输入,相互之间无需中间转换即可生成。
  2. GPT-4o语音延迟大幅降低,能在232毫秒内回应音频输入,平均为320毫秒,与人类对话响应时间相似。
  3. GPT-4o向所有用户免费开放。
  4. GPT-4o API:比GPT 4-Turbo快两倍,价格便宜50%。
  5. 实时语音助手演示令人惊叹:对话更加自然,能实时翻译,识别表情,甚至可以通过摄像头识别画面并进行代码编写和图表分析。
  6. ChatGPT新UI设计更加简洁。
  7. 推出了一个新的ChatGPT桌面应用程序,适用于macOS,Windows版本将于今年晚些时候推出。

这些功能在预热阶段就被Altman形容为”感觉像魔法”。随着全球AI模型都在竞相追赶GPT-4,OpenAI也展示了自己的强大实力。而至于GPT-5,暂时还没有登场的迹象。

免费可用的GPT-4o来了,但它的最大亮点并不止于此。

实际上,在发布会前一天,我们发现OpenAI已经悄悄将GPT-4的描述从“最先进的模型”修改为“先进的”,这正是为了迎接GPT-4o的到来。

GPT-4o的强大之处在于,它能够接受任何文本、音频和图像的组合作为输入,并直接生成相应的输出。这意味着人机交互将更接近于人与人之间的自然交流。

GPT-4o可以在232毫秒内回应音频输入,平均为320毫秒,接近于人类对话的反应时间。相比之前使用语音模式与ChatGPT进行交流的平均延迟,即GPT-3.5的2.8秒和GPT-4的5.4秒,这是一次巨大的进步。

它在英文和代码文本上与GPT-4 Turbo的性能相匹敌,而在非英语语言文本上有着显著的改进。同时,在API方面更快速且价格更便宜,比之前的GPT-4 Turbo快两倍,价格降低了50%。

GPT-4o的另一个重要亮点是它在视觉和音频理解方面表现尤为出色。相比现有模型,它具备以下特点:

  1. 打断功能:在对话中,你可以随时打断AI,使交流更加流畅和自然。
  2. 情感生成:GPT-4o能够根据场景生成多种音调,表达出带有人类般的情感和情绪,使对话更加生动和丰富。
  3. 视频通话解答:你可以直接通过与AI进行视频通话,让它在线解答各种问题,提供更直观、全面的解决方案。

从测试参数来看,GPT-4o的主要能力基本与目前最强的OpenAI模型GPT-4 Turbo相当。

在过去,Siri或其他语音助手的使用体验往往不尽如人意,主要是因为语音助手对话经历了三个阶段:

  1. 语音识别(ASR):将音频转换为文本,类似于Whisper;
  2. LLM(Language Model)确定下一步要说什么:从文本1确定文本2;
  3. 语音合成(TTS):将文本2转换为音频,类似于ElevenLabs或VALL-E。

然而,我们日常自然的对话通常是这样的:

  • 同时听和说时考虑下一步该说什么;
  • 在适当的时刻插入“是的,嗯,嗯”;
  • 预测对方说话结束的时间,并立即接管;
  • 自然地决定打断对方的谈话,而不会引起反感;
  • 优雅地处理并打断。

以往的AI语言助手无法很好地处理这些问题,在对话的每个阶段都存在较大的延迟,因此用户体验不佳。同时,在此过程中会丢失大量信息,例如无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

然而,当音频能够直接生成音频、图像、文字和视频时,整个体验将迈入一个全新的境界。

GPT-4o就是为此而训练的全新模型,要实现文本、视频和音频之间的直接转换,需要一个统一的神经网络来处理所有的输入和输出。

更令人惊喜的是,ChatGPT免费用户即可体验到GPT-4级别的智能,并从模型和网络获取响应,分析数据并创建图表,与AI聊天,上传文件获取摘要、写作或分析帮助,并使用GPTs和GPT Store。

当你看到以下GPT-4o的演示时,你的感受可能会更加复杂:

  • ChatGPT版本的“贾维斯”,人人都有:除了能说、能听、能看外,这个“全新版本”的ChatGPT仍然让人感到惊艳。
  • 睡前故事:以一个具体的生活场景为例,让ChatGPT讲一个关于机器人和爱的睡前故事,它几乎不用思考,就能说出一个带有情感和戏剧性的睡前故事。
  • 做题高手:在发布会现场,让其演示如何给线性方程3X+1=4的求解提供帮助,它能够一步步贴心地引导并给出正确答案。
  • 实时翻译:无论从英语翻译到意大利语,还是从意大利语翻译到英语,该AI语音助手都游刃有余。在未来,ChatGPT可能比你的实时翻译机更可靠。

通过ChatGPT的“视觉”,它还能够查看电脑屏幕上的一切,与代码库交互并查看代码生成的图表,进一步提升了用户体验。

感知语言的情绪还只是第一步,ChatGPT 还能解读人类的的面部情绪。

在发布会现场,面对摄像头拍摄的人脸,ChatGPT 直接将其「误认为」桌子,正当大家伙以为要翻车时,原来是因为最先打开的前置摄像头瞄准了桌子。不过,最后它还是准确描述出自拍面部的情绪,并且准确识别出脸上的「灿烂」的笑脸。

有趣的是,在发布会的尾声,发言人也不忘 Cue 了英伟达和其创始人老黄的「鼎力支持」,属实是懂人情世故的。对话语言界面的想法具有令人难以置信的预见性。
Altman 在此前的采访中表示希望最终开发出一种类似于 AI 电影《Her》中的 AI 助理,而今天 OpenAI 发布的语音助手切实是有走进现实那味了。

不久前,OpenAI首席运营官Brad Lightcap曾预见到未来我们将与AI聊天机器人交谈,将其视为团队中的一员,这一预言如今不仅为今天的发布会埋下了伏笔,也成为了我们未来十年生活的生动写照。

过去的十三年里,苹果不断投入资源发展AI语音助手,但却陷入了迷宫,一直未能找到出口。然而,OpenAI却在一夜之间找到了解决之道。或许,在不远的将来,人手一个如同钢铁侠的“贾维斯”将不再是幻想。

尽管Sam Altman没有出现在发布会上,但在会后发布了一篇博客,并在X上发布了一个词:”她”。

这显然在暗示那部同名的经典科幻电影《她》,这也是我观看这场发布会的演示时,脑子里最先联想的画面。

电影《她》中的萨曼莎,不仅是一个产品,甚至比人类更了解人类,更像人类自身。你真的能在和她的交流中逐渐忘记,她原来是一个AI。

这意味着人机交互模式可能将迎来图像界面后的真正革命性更新,就像Sam Altman在他的博客中所表示的那样:

新的语音(和视频)模式是我使用过的最好的计算机界面。它感觉像电影中的人工智能;而且我仍然有点惊讶它是真实的。达到人类级别的响应时间和表现力原来是一个很大的改变。

之前的ChatGPT让我们看到了自然用户界面的初步发展:简洁至上——复杂性是自然用户界面的敌人。每个交互都应该是不言自明的,不需要繁琐的说明手册。

但是,今天发布的GPT-4o则完全不同。它几乎没有延迟的响应、智能、有趣、实用,我们与计算机的交互从未真正体验过这样的自然顺畅。

其中蕴藏着巨大的可能性,当支持更多个性化功能并与不同终端设备协同工作后,意味着我们能够利用手机、电脑、智能眼镜等计算终端来实现许多以往无法实现的事情。

AI硬件的积累已经不再是问题,眼下更令人期待的是,如果下个月苹果WWDC真的宣布与OpenAI达成合作,那么iPhone的用户体验可能会比近几年任何一次发布会都有所提升。

英伟达高级科学家Jim Fan认为,号称史上最大更新iOS 18,和OpenAI的合作可能会有三个层面:

  1. 放弃Siri,OpenAI为iOS提炼出一个纯粹在设备上运行的小型GPT-4o,可选择付费升级使用云服务。
  2. 原生功能将摄像头或屏幕流输入到模型中。芯片级支持神经音视频编解码器。
  3. 与iOS系统级操作API和智能家居API集成。虽然没有人使用Siri快捷方式,但是现在是复兴的时刻。这可能会成为一款一开始就拥有十亿用户的AI代理产品。这对智能手机来说,就像特斯拉那样的全尺寸数据飞轮。

标签:26,4o,AI,免费版,OpenAI,语音,GPT,ChatGPT,科幻片
From: https://blog.csdn.net/delandwu/article/details/139273217

相关文章

  • 用ESP8266-NodeMCU开发板显示一下我的QQ头像
    诶,说好的自己写esp8266的开发板固件的我回来了。20年说好的,今天回来还愿了ESP8266串口WiFi模块-WiFi杀手今天我们把OLED显示屏也接上,我此次买的是4脚的OLED(128*64),不支持彩色显示的。NodeMCU开发板NodeMCU是一个开源的IoT物联网硬件开发板,由于它支持WIFI功能且使用方法十......
  • 淘宝死店全自动采集私信筛选脚本,号称日赚500+【采集脚本+使用教程】【5月26日更新】
    在当今的电子商务市场中,淘宝作为国内最大的电商平台,拥有着海量的店铺和商品。然而,在这些店铺中,有一部分店铺由于各种原因长时间未登录,这些被称为"死店"的店铺,却为我们提供了一个全新的赚钱模式。淘宝死店全自动采集私信筛选项目,就是运用脚本技术,自动采集长时间未登录的店......
  • 【2024-05-26】连岳摘抄
    23:59我现在终于明白教养孩子绝不仅仅只是修正他的缺点,同时还要发掘他的优势与美德,帮助孩子在社会.上找到一一个安身立命之所,使他的积极人格特质得以全面发展。                                ——马丁·塞......
  • Weblogic T3协议反序列化漏洞[CVE-2018-2628]
    漏洞复现环境搭建请参考http://t.csdnimg.cn/TYtKgkali切换jdk版本请参考Kali安装JAVA8和切换JDK版本的详细过程_kali安装jdk8-CSDN博客漏洞原理T3协议实现Weblogicserver和其他java程序间的数据传输,Weblogic开放7001端口则默认开启T3服务,通过构造恶意的T3协议数据,利用......
  • 民国漫画杂志《时代漫画》第26期.PDF
    时代漫画26.PDF:https://url03.ctfile.com/f/1779803-1248635183-9832d2?p=9586(访问密码:9586)《时代漫画》的杂志在1934年诞生了,截止1937年6月战争来临被迫停刊共发行了39期。ps:资源来源网络!......
  • 算法训练 | 二叉树Part2 | 层序遍历、226.翻转二叉树、101.对称二叉树
    目录广度优先226.翻转二叉树递归法⭐迭代法层序法101.对称二叉树后序遍历法⭐迭代法嵌入式学习分享个人主页:Orion嵌入式随想录-小红书(xiaohongshu.com)广度优先解题思路层序遍历一个二叉树。就是从左到右一层一层的去遍历二叉树。需要借用一个辅助数据......
  • 上周热点回顾(5.20-5.26)
    热点随笔:· 开源低代码框架ReZeroAPI正式版本发布,界面操作直接生成API (阿妮亚)· 【阿里云X博客园】参与征文赢面试绿通资格!还有特别福利哦! (博客园团队)· 聊聊一个差点被放弃的项目以及近期的开源计划 (程序设计实验室)· OpenAI“杀疯了”,GPT–4o模型保姆级使用教......
  • FL Studio2024汉化中文终身免费版音乐编曲制作软件
     随着音乐制作技术的发展,越来越多的人开始尝试自己创作音乐。而一个好的音乐制作工具,可以让我们的创作过程更加轻松愉快。今天,我们为大家带来了一款备受专业机构推崇的电音编曲软件——FLStudio2024全能数字编曲音频工作站。FLStudio2024 Win-安装包下载如下:https:/......
  • 5/26
    vue创建项目1、首先在文件下打开cmd运行cd到你的目录下面2、npminitvue@latest命令创建项目默认都选否,具体需要,后面自行添加2、根据提示完成下三步操作这是运行npminstall由于卡住了,就需要进行下一步,手动打开刚刚的目录文件并且在该目录下,运行cmd,并输入,npmrundev......
  • 5.26牛客循环结构
    1002.难点:两层循环条件设置思路可以设置三个变量代码1003思路:与星号双塔差不多,在此基础上加大一点难度每日练题5.23(EOF用法)-CSDN博客代码......