首页 > 其他分享 >GPT 论文作者 Alec Radford 离开 OpenAI,曾参与开发 Whisper;闪极 AI 拍照眼镜支持全天候记录

GPT 论文作者 Alec Radford 离开 OpenAI,曾参与开发 Whisper;闪极 AI 拍照眼镜支持全天候记录

时间:2024-12-20 17:32:23浏览次数:8  
标签:AI Whisper 模型 Agent OpenAI Radford 语音

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。 我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、GPT 系列开创者,人工智能大神 Alec Radford 从 OpenAI 离职

 

 

 

Alec Radford,于周四向同事宣布,他将离职并独立从事研究。据一位看到 Radford 离职消息的人透露,他计划与 OpenAI 以及其他人工智能开发者展开合作。

 

Alec Radford 不仅是 OpenAI 的核心人物,更是改变自然语言处理(NLP)游戏规则的关键推手。作为 GPT 系列模型的主创之一,他推动了从语言到图像再到多模态 AI 技术的全面革新。2016 年,Radford 加入刚刚成立的 OpenAI,并迅速成为该组织的核心研究员之一。在 OpenAI,他开启了一段传奇旅程:

 

GPT:重塑自然语言处理

 

Radford 是 GPT(Generative Pre-trained Transformer)初代论文的第一作者,首次提出基于 Transformer 架构的预训练语言模型。他的研究表明,通过在海量无标签文本上进行预训练,再通过少量任务数据进行微调,模型可以在多个任务上展现出强大的泛化能力。这一突破直接引领了 NLP 从任务专属模型向通用模型的转变

 

随后的 GPT-2 和 GPT-3 更是将这一理念推向极致。通过大规模参数和数据的加持,这些模型不仅在生成文本的连贯性和上下文理解上达到了新的高度,还实现了少样本学习(Few-Shot Learning)的能力,彻底改变了行业对大规模预训练模型的认知

 

DALL-E 和 CLIP:文本与视觉的融合

 

在语言之外,Radford 还深入探索了多模态领域。他主导了 DALL-E 和 CLIP 的开发:

 

• DALL-E 是一款可以将文本描述转化为高质量图像的生成模型。这一技术展示了 Transformer 架构在跨模态任务中的潜力,进一步拉近了自然语言和视觉处理的距离

 

• CLIP 则通过对比学习(Contrastive Learning)方法,打破了传统分类模型的限制,使得图像和文本可以在共享空间中表达。这不仅提升了模型的多样性和适应性,也为下游任务提供了前所未有的灵活性

 

Whisper:让机器「听懂」世界

 

除了语言和图像,Radford 还涉足了语音领域。他开发的 Whisper 是一款通用语音识别模型,不仅能听懂多语言内容,还能处理各种口音和语速的语音输入,被认为是目前最强大的语音识别工具之一。(@AI 寒武纪)

 

2、OpenAI 展示全新桌面版 ChatGPT

 

今天凌晨,OpenAI 发布会重点展示了桌面版 ChatGPT 与 Mac 应用的深度集成能力。

 

据官方介绍,全新桌面版 ChatGPT 将超越单纯的问答,能够通过与 30 多种应用协作来辅助提升用户的写作和编程能力。同时也放出了所支持的程序名单,如 Apple Notes、Notion、Xcode、VS Code、Warp 等应用程序程序。

 

使用方式十分简单,用户只需确保目标应用正在运行,然后在 ChatGPT 聊天栏中点击「与应用协作」(Work With Apps)按钮并选择相应应用即可。

 

目前,上述提到的新功能已在 macOS ChatGPT 最新版本中上线,而 Windows 版本很快也会推出。发布会最后,OpenAI CPO Kevin Weil 还预告明天将会发布「令人兴奋」的新产品。(@ APPSO)

 

3、Google 版 o1 重磅推出

 

今天凌晨,Google 重磅推出了 Gemini 2.0 Flash Thinking 模型。

 

新的 Thinking 模型支持多模态推理,使用类似 o1 模型的慢思维思考方式,可以深度可视化展示整个思维链过程,尤其是在执行数学、编程等复杂问题方面,能持续输出全部推理过程,而不是直接给出答案。

 

据悉,在大模型排行榜 LMSYS 上,所有综合类别指标中显示,目前 Gemini 2.0 Flash Thinking 排名第一,包括数学、代码、指令跟随、长 QA、创意写作等等各方面。

 

目前在 Google AI Studio 就可以免费使用 Gemini 2.0 Flash Thinking。(@ APPSO)

02有亮点的产品

1、Runway 更新重磅功能:支持插入中间帧控制视频生成

 

Runway 平台迎来了一个重要更新,用户现在不仅可以在视频生成中选择首尾帧,还可以插入中间帧来进行控制。

 

此前,许多用户一直期待这一关键帧功能,借助这一新特性,用户能够在视频制作过程中有更多的创作自由和灵活性。

 

具体来说,大家在图生视频功能中,除了上传首尾帧两张图,还可以增加中间帧,让生成的视频画面更为丰富和协调。(@AIbase 基地)

 

2、YC 支持的 CozmoX AI 推出语音 AI 员工平台!

 

 

 

Y Combinator 毕业生 CozmoX AI 今天宣布在中东和非洲推出首个企业级 AI 员工平台,该平台具有先进的语音交互功能。这些 AI 员工是成熟的数字劳动力成员,能够端到端处理完整的业务流程,同时通过阿拉伯方言、英语、西班牙语、法语、德语、印地语和 70 多种其他语言通过语音自然交流。

 

CozmoX AI 的诞生源于创始人在应对 AI 工具扩展挑战方面的亲身经历,经过几个月的潜伏,团队与金融服务、医疗保健、电子商务、房地产和物流行业的企业客户一起对其 AI 员工进行了严格测试。该平台的企业级架构确保与现有业务系统的无缝集成、强大的安全协议以及可扩展的部署选项(包括本地和云端部署),覆盖中东、非洲、东南亚和印度,目前已有多家客户在欧洲、海湾合作委员会和美国全面运营。

 

与传统自动化工具不同,CozmoX AI 的员工是完全数字化的员工,他们独立管理整个业务流程。通过创新的无代码平台,企业可以部署这些 AI 员工来处理通常需要人工协调和沟通的复杂任务,从潜在客户生成和销售成交到付款收集和客户支持。

 

该公司推出了三名专业的 AI 员工,每个员工都能够管理各自领域的端到端流程:

 

人工智能销售主管 Liza:管理从勘探到成交的整个销售周期,查找潜在客户的详细信息,包括电话号码、电子邮件和他们感兴趣的内容,对潜在客户进行深入研究,进行自然语音对话以确定潜在客户资格、进行谈判和跟进,同时维护详细的 CRM 记录。

 

人工智能债务催收员 Alex:负责整个催收流程,从初次联系到付款确认,管理付款计划和后续行动,同时确保完全遵守法规。

 

人工智能接待员 Zara:提供全面的前台管理,处理从呼叫路由和预约安排到详细留言和客户咨询解决等所有事务。该地区一些最大的医疗保健提供商已部署 Zara 来自动化他们的接待员服务。(@ wamda)

 

3、闪极推出国内首款 999 元 AI 眼镜:30g 重量挑战可穿戴新赛道

 

闪极科技于 12 月 19 日晚发布国内首款量产 AI 眼镜——闪极 AI「拍拍镜」,起售价 999 元,正式打响 AI 眼镜量产第一枪。产品预计将于 2025 年 1 月 15 日开始发货,目前已在各大电商平台开启预售。

 

这款眼镜采用经典黑框设计,通过电池后置技术和创新散热设计,将整机重量控制在 50g,实际佩戴体感仅约 30g。硬件配置方面,搭载索尼 1600 万像素摄像头,配备瑞声科技 Hi-Fi 扬声器,内置三块共 1350mAh 容量电池,并推出 6500mAh 的专用增程环,可实现反向为手机充电。

 

在软件层面,闪极 A1 运行自研的 Loomo OS 系统,已接入包括云天励飞、讯飞、通义千问在内的多个大模型,支持语音识别、实时翻译等 AI 功能。通过内置的 AI 应用商店(Agent Store),用户可以调用更多 AI 能力。

 

闪极创始人兼 CEO 张波表示,目前产品核心功能已趋于完备,未来将通过在线升级实现时光回溯、直播推流等更多功能。他强调,AI 眼镜作为记录用户全量交互数据的载体,有望帮助用户构建个人数字分身,实现跨越时空的沟通。

 

为吸引早期用户,闪极推出了多项促销活动,包括赠送价值 299 元的「AI 云盘+AI 闪记」一年使用权益,以及 90 天无理由退货、打卡返全款代金券等优惠政策。该产品已与 LOHO 等品牌达成合作,将通过京东、天猫、抖音等主流平台销售。(@AIbase 基地)

03有态度的观点

1、微软 CEO 纳德拉:C 端 Agent 商业模式仍需摸索,广告流量模式或面临转变,B 端关键在生态集成

 

微软 CEO Satya Nadella 在近日与硅谷知名投资人 Brad Gerstner 以及 Bill Gurley 讨论了微软的战略转型、对 OpenAI 投资以及智能体(Agent)的未来。

 

Nadella 认为,当前 AI 领域的竞争将不再是赢家通吃,而是多个企业在不同层次的技术领域展开激烈角逐。特别是在基础设施(如云计算)和应用(如 AI 模型)之间,他认为微软的 Azure 和其他云服务将在未来的 AI 竞争中占据重要位置。

 

智能体(Agent)被视为比传统搜索引擎更为智能和个性化的工具,不再是简单的无状态查询工具,而是能够保持状态、记住用户历史并提供持续的互动。Satya Nadella 提到,随着消费者对 AI 的需求增加,传统搜索引擎(如 Bing)面临新挑战,未来将见证从传统搜索到基于 AI 的问答系统的转变。

 

智能体的出现可能打破了传统搜索引擎的界限,能够提供直接的答案,而不仅仅是链接,改变了用户的互动方式。通过 ChatGPT 和类似的工具,用户不再需要通过多次查询来获得答案,而是能得到更加即时和智能的反馈。

 

对于消费者端,智能体的商业模式仍在摸索中,传统的广告和流量驱动模式可能需要转变,尤其是在智能体能够通过简化的对话来获取和处理数据的情况下。

 

企业级的智能体接口可能会变得更加重要,微软已经在利用 AI 接入多个系统,如 Adobe、SAP 和自家的 CRM(Dynamics)。这种接口可以帮助 AI 获取和整合企业数据,进而提供更高效的服务。(@有新 Newin)

 

 

更多 Voice Agent 学习笔记:

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

市场规模超 60 亿美元,语音如何改变对话式 AI?

 

2024 语音模型前沿研究整理,Voice Agent 开发者必读

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

 

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服

 

语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场

 

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》

 

Voice-first,闭关做一款语音产品的思考|社区来稿

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

标签:AI,Whisper,模型,Agent,OpenAI,Radford,语音
From: https://www.cnblogs.com/Agora/p/18619662

相关文章

  • 转行AI产品经理,零基础也能轻松入门教程(非常详细),AI产品经理入门到精通,收藏这一篇就够了
    2024年,还有什么新风口?AI、元宇宙、NFT…很多人不知道,其实不管是元宇宙还是NFT,它们本质上就是人工智能领域。AI自身应用领域非常广泛,大批高薪岗位随之涌了出来,包括AI产品经理。AI产品经历具体工作内容是什么?薪资有多香?普通人如何进入AI人工智能行业?需要写代码吗?别急,小......
  • AI产品经理面试教程(非常详细),AI产品经理入门到精通,收藏这一篇就够了!
    如果大家最近打算找ai产品经理这方面的工作,可以对照着脑图准备起来啦。这篇文章给大家讲解两道高频问题:1)AI产品经理和传统产品经理有什么区别2)AI产品经理的工作职责和能力要求是什么?这两个问题看似简单,实际上是面试官在考察面试者对AI产品经理这个岗位的理解程度,以......
  • AI产品经理基础教程(非常详细),AI产品经理入门到精通,收藏这一篇就够了!
    作为一个非算法出身的AI产品经理,转行之前我也有过纠结和顾虑,怕自己“干不了”。在做了3年AI产品之后,我的结论是:现如今大模型跑步落地的时期,存在很多信息差,非常适合“乱入”。当下转行AI产品经理的优势市场需求大,行业发展前景广阔从chatgpt问世以来,AI技术的发展是有目共......
  • AI大模型开源项目:零基础入门到精通大模型项目,(非常详细)收藏我这一篇就够了!
    欢迎各位小伙伴收藏、点赞、留言、评论,推荐一些大模型项目,仅供各位参考学习。一:开源大模型热门项目推荐**NNI:**由微软发布的开源AutoML工具包,支持神经网络超参数调整。最新版本对机器学习生命周期的各个环节做了全面支持,包括特征工程、神经网络架构搜索(NAS)、超参调优......
  • AI赚钱案例:利用AI工作制作Q版人物,在抖音小红书涨粉变现快
    赚钱思路:利用AI工具制作Q版人物形象,通过社交媒体平台吸引关注和流量,然后通过人物定制、小程序取图、商单合作、收徒教学等多种方式实现变现。在抖音和小红书平台上出现很多将经典影视人物制作成了Q版形象,创意十足吸引了大量关注。利用AI工具制作Q版形象,每天只需十几......
  • 自己搭建专属AI:Llama大模型私有化部署
    前言AI新时代,提高了生产力且能帮助用户快速解答问题,现在用的比较多的是Openai、Claude,为了保证个人隐私数据,所以尝试本地(MacM3)搭建Llama模型进行沟通。Gpt4all安装比较简单,根据 https://github.com/nomic-ai/gpt4all 下载客户端软件即可,打开是这样的:然后选择并下载模型文......
  • EmbodiedAI具身智能必读论文|MP5: A Multi-modal Open-ended Embodied System in Mine
    论文标题MP5:AMulti-modalOpen-endedEmbodiedSysteminMinecraftviaActivePerception论文链接:MP5:AMulti-modalOpen-endedEmbodiedSysteminMinecraftviaActivePerception论文下载论文作者YiranQin,EnshenZhou,QichangLiu,ZhenfeiYin,LuSheng,......
  • 基础 (map,pair的使用详解)/题目 两数之和 讲解 哈希表的使用
    力扣题目链接(opensnewwindow)https://leetcode.cn/problems/two-sum/给定一个整数数组nums 和一个目标值target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。示例:给......
  • 最强AI智能体竟如此简单!Anthropic首次公开内部秘籍!
    0前言过去一年中,我们与不同行业中开发大语言模型(LLM)智能体的多个团队进行了合作。我们发现,最成功的实现并非依赖复杂的框架或专业化的库,而是通过简单、可组合的模式构建。本文分享从客户合作及自身开发智能体的过程中所学到的经验,并为开发者提供构建高效智能体的实用建议。......
  • 旧硬盘上raid信息清除
    硬盘软raid新的硬盘拿到,放到服务器上后,发现存在一个raid类型的分区。无法删除,无法挂载使用。[root@localhost~]#lsblkNAMEMAJ:MINRMSIZEROTYPEMOUNTPOINTSsda8:001.8T0disk|--md1269:12601.8T0raid1|--md1279:12700B0md对于这种情况,需要删除raid配置......