GPT 论文作者 Alec Radford 离开 OpenAI，曾参与开发 Whisper；闪极 AI 拍照眼镜支持全天候记录

标签：AI Whisper 模型 Agent OpenAI Radford 语音

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、GPT 系列开创者，人工智能大神 Alec Radford 从 OpenAI 离职

Alec Radford，于周四向同事宣布，他将离职并独立从事研究。据一位看到 Radford 离职消息的人透露，他计划与 OpenAI 以及其他人工智能开发者展开合作。

Alec Radford 不仅是 OpenAI 的核心人物，更是改变自然语言处理（NLP）游戏规则的关键推手。作为 GPT 系列模型的主创之一，他推动了从语言到图像再到多模态 AI 技术的全面革新。2016 年，Radford 加入刚刚成立的 OpenAI，并迅速成为该组织的核心研究员之一。在 OpenAI，他开启了一段传奇旅程：

GPT：重塑自然语言处理

Radford 是 GPT（Generative Pre-trained Transformer）初代论文的第一作者，首次提出基于 Transformer 架构的预训练语言模型。他的研究表明，通过在海量无标签文本上进行预训练，再通过少量任务数据进行微调，模型可以在多个任务上展现出强大的泛化能力。这一突破直接引领了 NLP 从任务专属模型向通用模型的转变

随后的 GPT-2 和 GPT-3 更是将这一理念推向极致。通过大规模参数和数据的加持，这些模型不仅在生成文本的连贯性和上下文理解上达到了新的高度，还实现了少样本学习（Few-Shot Learning）的能力，彻底改变了行业对大规模预训练模型的认知

DALL-E 和 CLIP：文本与视觉的融合

在语言之外，Radford 还深入探索了多模态领域。他主导了 DALL-E 和 CLIP 的开发：

• DALL-E 是一款可以将文本描述转化为高质量图像的生成模型。这一技术展示了 Transformer 架构在跨模态任务中的潜力，进一步拉近了自然语言和视觉处理的距离

• CLIP 则通过对比学习（Contrastive Learning）方法，打破了传统分类模型的限制，使得图像和文本可以在共享空间中表达。这不仅提升了模型的多样性和适应性，也为下游任务提供了前所未有的灵活性

Whisper：让机器「听懂」世界

除了语言和图像，Radford 还涉足了语音领域。他开发的 Whisper 是一款通用语音识别模型，不仅能听懂多语言内容，还能处理各种口音和语速的语音输入，被认为是目前最强大的语音识别工具之一。（@AI 寒武纪）

2、OpenAI 展示全新桌面版 ChatGPT

今天凌晨，OpenAI 发布会重点展示了桌面版 ChatGPT 与 Mac 应用的深度集成能力。

据官方介绍，全新桌面版 ChatGPT 将超越单纯的问答，能够通过与 30 多种应用协作来辅助提升用户的写作和编程能力。同时也放出了所支持的程序名单，如 Apple Notes、Notion、Xcode、VS Code、Warp 等应用程序程序。

使用方式十分简单，用户只需确保目标应用正在运行，然后在 ChatGPT 聊天栏中点击「与应用协作」（Work With Apps）按钮并选择相应应用即可。

目前，上述提到的新功能已在 macOS ChatGPT 最新版本中上线，而 Windows 版本很快也会推出。发布会最后，OpenAI CPO Kevin Weil 还预告明天将会发布「令人兴奋」的新产品。(@ APPSO)

3、Google 版 o1 重磅推出

今天凌晨，Google 重磅推出了 Gemini 2.0 Flash Thinking 模型。

新的 Thinking 模型支持多模态推理，使用类似 o1 模型的慢思维思考方式，可以深度可视化展示整个思维链过程，尤其是在执行数学、编程等复杂问题方面，能持续输出全部推理过程，而不是直接给出答案。

据悉，在大模型排行榜 LMSYS 上，所有综合类别指标中显示，目前 Gemini 2.0 Flash Thinking 排名第一，包括数学、代码、指令跟随、长 QA、创意写作等等各方面。

目前在 Google AI Studio 就可以免费使用 Gemini 2.0 Flash Thinking。(@ APPSO)

02有亮点的产品

1、Runway 更新重磅功能：支持插入中间帧控制视频生成

Runway 平台迎来了一个重要更新，用户现在不仅可以在视频生成中选择首尾帧，还可以插入中间帧来进行控制。

此前，许多用户一直期待这一关键帧功能，借助这一新特性，用户能够在视频制作过程中有更多的创作自由和灵活性。

具体来说，大家在图生视频功能中，除了上传首尾帧两张图，还可以增加中间帧，让生成的视频画面更为丰富和协调。（@AIbase 基地）

2、YC 支持的 CozmoX AI 推出语音 AI 员工平台!

Y Combinator 毕业生 CozmoX AI 今天宣布在中东和非洲推出首个企业级 AI 员工平台，该平台具有先进的语音交互功能。这些 AI 员工是成熟的数字劳动力成员，能够端到端处理完整的业务流程，同时通过阿拉伯方言、英语、西班牙语、法语、德语、印地语和 70 多种其他语言通过语音自然交流。

CozmoX AI 的诞生源于创始人在应对 AI 工具扩展挑战方面的亲身经历，经过几个月的潜伏，团队与金融服务、医疗保健、电子商务、房地产和物流行业的企业客户一起对其 AI 员工进行了严格测试。该平台的企业级架构确保与现有业务系统的无缝集成、强大的安全协议以及可扩展的部署选项（包括本地和云端部署），覆盖中东、非洲、东南亚和印度，目前已有多家客户在欧洲、海湾合作委员会和美国全面运营。

与传统自动化工具不同，CozmoX AI 的员工是完全数字化的员工，他们独立管理整个业务流程。通过创新的无代码平台，企业可以部署这些 AI 员工来处理通常需要人工协调和沟通的复杂任务，从潜在客户生成和销售成交到付款收集和客户支持。

该公司推出了三名专业的 AI 员工，每个员工都能够管理各自领域的端到端流程：

人工智能销售主管 Liza：管理从勘探到成交的整个销售周期，查找潜在客户的详细信息，包括电话号码、电子邮件和他们感兴趣的内容，对潜在客户进行深入研究，进行自然语音对话以确定潜在客户资格、进行谈判和跟进，同时维护详细的 CRM 记录。

人工智能债务催收员 Alex：负责整个催收流程，从初次联系到付款确认，管理付款计划和后续行动，同时确保完全遵守法规。

人工智能接待员 Zara：提供全面的前台管理，处理从呼叫路由和预约安排到详细留言和客户咨询解决等所有事务。该地区一些最大的医疗保健提供商已部署 Zara 来自动化他们的接待员服务。(@ wamda)

3、闪极推出国内首款 999 元 AI 眼镜：30g 重量挑战可穿戴新赛道

闪极科技于 12 月 19 日晚发布国内首款量产 AI 眼镜——闪极 AI「拍拍镜」，起售价 999 元，正式打响 AI 眼镜量产第一枪。产品预计将于 2025 年 1 月 15 日开始发货，目前已在各大电商平台开启预售。

这款眼镜采用经典黑框设计，通过电池后置技术和创新散热设计，将整机重量控制在 50g，实际佩戴体感仅约 30g。硬件配置方面，搭载索尼 1600 万像素摄像头，配备瑞声科技 Hi-Fi 扬声器，内置三块共 1350mAh 容量电池，并推出 6500mAh 的专用增程环，可实现反向为手机充电。

在软件层面，闪极 A1 运行自研的 Loomo OS 系统，已接入包括云天励飞、讯飞、通义千问在内的多个大模型，支持语音识别、实时翻译等 AI 功能。通过内置的 AI 应用商店（Agent Store），用户可以调用更多 AI 能力。

闪极创始人兼 CEO 张波表示，目前产品核心功能已趋于完备，未来将通过在线升级实现时光回溯、直播推流等更多功能。他强调，AI 眼镜作为记录用户全量交互数据的载体，有望帮助用户构建个人数字分身，实现跨越时空的沟通。

为吸引早期用户，闪极推出了多项促销活动，包括赠送价值 299 元的「AI 云盘+AI 闪记」一年使用权益，以及 90 天无理由退货、打卡返全款代金券等优惠政策。该产品已与 LOHO 等品牌达成合作，将通过京东、天猫、抖音等主流平台销售。（@AIbase 基地）

03有态度的观点

1、微软 CEO 纳德拉：C 端 Agent 商业模式仍需摸索，广告流量模式或面临转变，B 端关键在生态集成

微软 CEO Satya Nadella 在近日与硅谷知名投资人 Brad Gerstner 以及 Bill Gurley 讨论了微软的战略转型、对 OpenAI 投资以及智能体（Agent）的未来。

Nadella 认为，当前 AI 领域的竞争将不再是赢家通吃，而是多个企业在不同层次的技术领域展开激烈角逐。特别是在基础设施（如云计算）和应用（如 AI 模型）之间，他认为微软的 Azure 和其他云服务将在未来的 AI 竞争中占据重要位置。

智能体（Agent）被视为比传统搜索引擎更为智能和个性化的工具，不再是简单的无状态查询工具，而是能够保持状态、记住用户历史并提供持续的互动。Satya Nadella 提到，随着消费者对 AI 的需求增加，传统搜索引擎（如 Bing）面临新挑战，未来将见证从传统搜索到基于 AI 的问答系统的转变。

智能体的出现可能打破了传统搜索引擎的界限，能够提供直接的答案，而不仅仅是链接，改变了用户的互动方式。通过 ChatGPT 和类似的工具，用户不再需要通过多次查询来获得答案，而是能得到更加即时和智能的反馈。

对于消费者端，智能体的商业模式仍在摸索中，传统的广告和流量驱动模式可能需要转变，尤其是在智能体能够通过简化的对话来获取和处理数据的情况下。

企业级的智能体接口可能会变得更加重要，微软已经在利用 AI 接入多个系统，如 Adobe、SAP 和自家的 CRM（Dynamics）。这种接口可以帮助 AI 获取和整合企业数据，进而提供更高效的服务。（@有新 Newin）

更多 Voice Agent 学习笔记：

Gemini 2.0 来了，这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语，Speak 为何能估值 10 亿美元？丨Voice Agent 学习笔记

市场规模超 60 亿美元，语音如何改变对话式 AI？

2024 语音模型前沿研究整理，Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心，这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

语音 AI 革命：未来，消费者更可能倾向于与 AI 沟通，而非人工客服

语音 AI 迎来爆发期，也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》

Voice-first，闭关做一款语音产品的思考｜社区来稿

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

标签：AI,Whisper,模型,Agent,OpenAI,Radford,语音
From： https://www.cnblogs.com/Agora/p/18619662

GPT 论文作者 Alec Radford 离开 OpenAI，曾参与开发 Whisper；闪极 AI 拍照眼镜支持全天候记录

01有话题的新闻

02有亮点的产品

03有态度的观点

相关文章

赞助商

阅读排行