AI跟踪报道第57期-新加坡内哥谈技术-本周AI新闻: 详谈GPT-o1模型和微软Copilot升级

标签：微软 AI 57 跟踪报道 Microsoft Copilot GPT 模型 o1

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

点击下面视频观看在B站本周AI更新：

B 站链接观看：

本周AI新闻: 详谈GPT-o1模型和微软Copilot升级_哔哩哔哩_bilibili想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅: https://rengongzhineng.io/1) https://research.google/blog/speculative-rag-enhancing-r, 视频播放量 1、弹幕量 0、点赞数 0、投硬币枚数 0、收藏人数 0、转发人数 0, 视频作者内哥谈技术, 作者简介 N哥，新加坡。订阅中文简报，成为AI领域的领跑者。https://rengongzhineng.io/，相关视频：全网爆火SD秋叶V4.9版+超强FLUX模型版本！！9月最新版SD太火了！秋叶SD整合包教程！永久使用！允许白嫖！，阿尔特曼：o1仅仅是“推理模型的GPT-2”；黄仁勋：我给你加速50倍，【中字】重磅抢鲜！微软CEO带来Copilot多项重大更新，本周AI新闻: 划时代Open AI 新模型系统2思维推理质变，强推！2024医学生必看的【人工智能+医疗】全套教程，迪哥从零开始手把教学，导师不教你的知识本课程统统告诉你，讲的非常全面！，【强推】这绝对是B站2024年人工智能入门的天花板教程！不接受任何反驳，听懂人话就能学会！（人工智能|AI|机器学习|深度学习|），【中英精校】9月19日《人类简史》作者尤瓦尔赫拉利访谈：正念、AI与人类的未来｜2024.09.19，微软不让装win10了，【全568集】清华大佬一周讲完的AI大模型，通俗易懂，2024最新版！7天学完从入门到进阶实战，专为零基础小白研制AI大模型课程，存下吧，很难找全了！！，【比刷剧还爽！】从入门到精通CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气学完！https://www.bilibili.com/video/BV1qut6eTEXz/?vd_source=a981b02467f9b48eb47a3843e6a9ca16

想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅: https://rengongzhineng.io/

1) https://research.google/blog/speculative-rag-enhancing-retrieval-augmented-generation-through-drafting/

2) https://github.com/google-research/perch/

OpenAI最新推出的GPT-o1模型（代号“Strawberry”）为人工智能领域带来了一个重要的里程碑，尤其是在复杂的推理和解决问题方面。与之前的模型相比，GPT-o1模型在“链式思维推理”和先进的Transformer架构方面采用了全新的方法。

这篇全面的评测将深入探讨GPT-o1的技术细节，包括其架构、训练方法、性能基准以及与之前GPT模型的对比。此外，还会分析Transformer架构的进步，如何推动这些模型的发展。

GPT-o1：OpenAI的最新突破

架构与训练

链式思维推理

概念：GPT-o1模型训练时强调“链式思维推理”，即模型在回答问题前会一步一步地思考和分析，这与以前直接给出答案的方式形成对比。
强化学习：通过强化学习，模型能够在无需额外提示的情况下稳定运用链式思维推理。这种训练方式提高了模型在处理问题时的思维深度，能够探索不同的解决策略，并识别自身的错误。

模型变体

o1-preview：设计用于需要复杂推理的任务，适合科学、编程和数学领域。现向ChatGPT Plus用户开放。
o1-mini：一个更快且经济高效的版本，虽然更注重效率，但在STEM领域仍保持出色表现。

训练数据与基准

全面数据集：模型经过物理、化学、生物和编程竞赛等复杂任务的测试。
基准表现：
在物理、化学、生物领域，GPT-o1的表现类似于博士生的水平。
数学方面，GPT-o1在国际数学奥林匹克（IMO）资格考试中取得了83%的高分，而GPT-4仅为13%。
在编程竞赛Codeforces中，GPT-o1达到了89%的表现，明显优于之前的GPT模型。

关键特性

高级推理能力

复杂问题解决：擅长通过逐步思考解决科学、编程和数学中的难题。
逐步解决方案：模型提供详细的推理路径，增加了透明度和理解性。

透明性与解释性

链式思维过程：用户可以跟随模型的推理逻辑，从而更信任模型的输出，并用于教育目的。

安全性与一致性

增强的安全训练：借助推理能力，模型在遵守安全和一致性指导原则时表现更佳。
上下文规则应用：模型能够在上下文中更准确地应用安全规则。

性能与基准

物理、化学、生物领域：
GPT-4：低于博士水平
GPT-o1：相当于博士生水平
国际数学奥林匹克（IMO）：
GPT-4：13%
GPT-o1：83%
编程竞赛Codeforces：
GPT-4：低于89%
GPT-o1：89%

延迟与效率

GPT-4：延迟快（约3秒），效率高。
GPT-o1-preview：延迟较慢（约30秒以上），因复杂性导致效率较低。
GPT-o1-mini：延迟适中，效率平衡。

如何使用GPT-o1模型

访问方式：ChatGPT Plus用户可以通过模型选择器选择o1-preview或o1-mini，ChatGPT企业版和教育版将在下周开放访问。开发者符合API使用Tier 5的条件后，可以开始使用这两个模型进行API原型开发，限速为每分钟20个请求。
API功能：目前API不支持函数调用、流式传输或系统消息等功能，但未来版本会逐步增加这些特性。

优缺点分析

优点

高级推理能力：在复杂的推理任务中表现优异，远超前代模型。
透明性：链式思维过程使模型的推理路径更加透明，提升了信任度和理解度。
安全性：借助推理能力，更好地遵守安全和一致性规范。
专门性能：在STEM领域表现尤为突出，适合需要深入数学或科学推理的任务。

缺点

高延迟：比之前的模型慢，影响实时应用。
成本高：使用成本比GPT-4高出约四倍。
集成功能有限：目前不支持网页浏览、文件上传和图片上传等功能。
提示依赖性高：模型性能依赖于提示的质量，要求提示具备足够的清晰度和具体性。

未来发展方向

模型更新：OpenAI计划发布定期更新，包括增加浏览、文件上传等功能，以改善用户体验。
扩展访问：未来o1-mini模型将向所有ChatGPT免费用户开放。
持续开发：OpenAI将继续推进GPT系列和新o1系列模型的开发与发布。

Transformer拓扑的进步

GPT-o1的开发基于Transformer架构的重要进步，旨在提升算法效率和性能。

传统Transformer的局限性

自注意力机制的复杂性：传统的自注意力机制时间和空间复杂度为O(n²)，处理长序列时带来计算成本和内存使用的挑战。

算法创新

线性和次二次注意力机制

线性Transformer：通过近似自注意力中的softmax函数，将复杂度降低到O(n)。
Performer：引入FAVOR+算法，通过随机特征图近似softmax注意力，实现线性复杂度。
Reformer：通过局部敏感哈希（LSH）将自注意力机制的复杂度降低到O(n log n)。

稀疏注意力机制

Longformer：通过滑动窗口注意力和扩展注意力场，将复杂度降低至O(n)。
Big Bird：结合全局、随机和窗口注意力机制，保留完整注意力的表达能力。

性能提升与比较

与之前GPT模型的优点对比
增强的上下文管理能力：能够处理更长的序列。
提升的精度：对细节的理解更为精确。
推理能力的改进：链式思维推理功能大幅提升了复杂问题的解决能力。
缺点
资源消耗大：对计算和内存的要求更高。
延迟较大：由于复杂的推理过程，响应时间较慢。

总结

GPT-o1代表了AI能力的巨大飞跃，尤其是在复杂推理和问题解决方面。虽然其引入了一些挑战，如增加的延迟和计算成本，但在透明性、安全性和专门性能方面的优势，远超以往的模型。

Microsoft Copilot Wave 2

9月16日，微软在其“Microsoft Copilot Wave 2”虚拟活动中，发布了关于Microsoft 365 Copilot的最新进展。这次发布中的一些内容是对旧功能的重新命名，还有一些是对去年及今年早些时候发布的Copilot功能的重申。

Wave 2的重点是让微软的Copilot工具变得更加协作化，而在微软的世界里，这意味着Teams、SharePoint和Loop都将发挥作用。此外，微软也在这次发布中提到了“代理人”（Agents），这个词现在几乎成了所有想在AI领域分一杯羹的科技公司的流行词。

解读Copilot复杂性

为了帮助大家理解微软Copilot Wave 2的复杂性，Directions on Microsoft团队整理了一份“备忘单”。以下是几个重要要点：

Microsoft 365 Copilot：微软终于明确地将“Microsoft Copilot for Microsoft 365”重命名为“Microsoft 365 Copilot”。这个命名调整看似小事，却很重要。之前微软曾试图说服大家，相同的Copilot可以在不同的个人和商业产品中发挥作用，但显然这个说法牵强。现在，微软终于承认Microsoft 365 Copilot与GitHub Copilot、Dynamics 365 Copilot等其他Copilot并不是同一个东西。
Excel中的Copilot：Excel中的Copilot终于在今天正式发布（GA）。虽然去年微软曾宣布Microsoft 365 Copilot将在11月1日发布，但当时并未明确指出Excel中的Copilot还没准备好。今天微软重新确认Excel Copilot将与Python集成用于高级分析，公众预览版现已推出。
BizChat：微软现在将“BizChat”引入Microsoft 365 Copilot，这并不是一个全新的功能。这个功能最早在一年多前作为“Business Chat”发布，后来又更名为“Microsoft 365 Chat”，现在则成为“Microsoft 365 Copilot BizChat”（不要与微软的BizTalk服务器集成解决方案混淆）。
Copilot Pages：Copilot Pages是BizChat中的一个动态、持久的协作画布，实际上与微软的Loop协作应用息息相关。Copilot Pages实质上是.loop文件，具备Loop页面的所有功能。当有人通过Copilot聊天分享页面链接时，接收者会在Loop应用中打开该页面。微软表示，这些页面可以像Loop页面一样保持同步和更新。
SharePoint中的Copilot：作为Microsoft 365 Copilot的一部分，SharePoint中的Copilot现已向客户推出。微软宣称，SharePoint中的Copilot能够通过自然语言编辑和创建站点及页面。虽然一些承诺的功能还未完全实现，微软表示这些功能将在今年晚些时候推出。Copilot在SharePoint中的功能最早是在2023年5月宣布的。
OneDrive中的Copilot：微软在2023年10月公布了OneDrive中的Copilot计划，而这一功能现在才算正式发布并推向用户。OneDrive中的Copilot将帮助用户更快地总结文件，生成常见问题（FAQ），并更轻松地比较文件。
Copilot Agents：Copilot Agents是用于自动化和执行业务流程的助手，并非全新概念。微软最早在2024年5月的Build大会上提出了这一计划，还推出了一个早期访问项目，供有兴趣在Copilot Studio中构建自主代理的客户使用。使用Copilot Studio（即以前的Power Virtual Agents）构建的代理可以直接发布到Microsoft 365 Copilot中。微软表示，开发者将能够在BizChat和SharePoint中创建代理，相关功能将在未来几周内推出。微软今天将此前在SharePoint中的“自定义Copilot”重新命名为Copilot Agents，SharePoint中的Copilot Agents将在10月初进行公开预览。