首页 > 其他分享 >OpenAI 的最强模型 o1 的“护城河”失守?谷歌 DeepMind 早已揭示相同原理

OpenAI 的最强模型 o1 的“护城河”失守?谷歌 DeepMind 早已揭示相同原理

时间:2024-09-19 12:24:28浏览次数:15  
标签:DeepMind 模型 谷歌 OpenAI 护城河 计算 o1

发布不到一周,OpenAI 的最新模型 o1 的“护城河”似乎已经失守。

近日,有人发现谷歌 DeepMind 早在今年 8 月发表的一篇论文,揭示了与 o1 模型极其相似的工作原理。

图片

这项研究指出,在模型推理过程中增加测试时的计算量,比简单地扩展模型参数更有效。基于论文中提出的计算最优(compute-optimal)测试时计算扩展策略,规模较小的基础模型在某些任务上甚至可以超越一个规模大14倍的模型。

有网友惊呼:这几乎就是 OpenAI o1 的原理!

众所周知,OpenAI CEO 山姆·奥特曼(Sam Altman)喜欢走在谷歌的前面。那么,OpenAI 这次抢先发布 o1 的 preview 版本,难道就是因为他们意识到谷歌已经在研究这个方向了吗?

图片

没有护城河,也不可能有护城河

图片

这引发了一些人的感慨:谷歌在内部文件中曾经说过,没有任何一家企业拥有“护城河”,OpenAI 也不例外。这次的事件似乎再次印证了这一观点。

在这个充满变数的领域,模型发布的速度成为了关键因素。就在大家对 o1 争相讨论时,OpenAI 已经宣布将 o1-mini 的运行速度提高了7倍,并且每天可供使用50次;o1-preview 的使用限制也提升至每周50次。

图片

谷歌 DeepMind:测试时计算更优

谷歌 DeepMind 的这篇论文标题为:优化 LLM 测试时计算比扩大模型参数规模更高效

研究团队提出的核心思想源于对人类思维模式的观察。面对复杂问题时,人类往往需要更长的时间来思考并改进决策。那么,大型语言模型(LLM)是否也可以利用额外的测试时计算来提升性能呢?

一些先前的研究已经证明,这种方法确实可行,但效果较为有限。谷歌团队的目标是探索,在使用有限的额外推理计算时,能在多大程度上提升模型性能。

为此,他们设计了一组实验,使用 PaLM2-S* 在 MATH 数据集上进行了测试,主要分析了两种方法:

  1. 迭代自我修订:让模型多次尝试回答一个问题,在每次尝试后对答案进行修订以期获得更好的结果。

  2. 搜索:模型生成多个候选答案,然后选择最佳答案。

图片

实验结果显示,使用自我修订方法时,随着测试时计算量的增加,标准最佳 N 策略(Best-of-N)与计算最优扩展策略之间的差距逐渐拉大。使用搜索方法,计算最优扩展策略在初期表现出明显优势,并在某些情况下能以仅1/4的计算量达到与最佳 N 策略相同的效果。

在计算量与预训练计算相当的情况下,团队将 PaLM 2-S*(采用计算最优策略)与一个不进行额外推理、规模大14倍的预训练模型进行了对比。结果表明,当推理 tokens 远少于预训练 tokens 时,使用测试时计算策略的效果更佳。然而,随着比率增加,或在更难的问题上,预训练模型的表现仍然更好。

图片

研究还表明,在计算量有限的情况下,使用计算最优策略最多可节省 4 倍的计算资源。

图片

对比 OpenAI o1:原理如出一辙

对比 OpenAI 的 o1 模型,这篇研究几乎得出了相同的结论。o1 模型通过强化学习和思维链的不断完善,在推理时采取不同的策略,并能够认识和纠正自己的错误。随着更多的强化学习和延长思考时间,o1 的性能持续提升。

不同的是,OpenAI 更快地发布了该模型,而谷歌则在 PaLM2 之后尚未将其更新至 Gemini2。

网友感慨:护城河只剩下硬件了?

这一新发现不禁让人想起去年谷歌内部文件中提出的观点:“我们没有护城河,OpenAI 也没有。开源模型可以打败 ChatGPT。”

如今看来,各家科技巨头的研究速度都非常迅猛,谁都无法保证自己始终领先。唯一可能的护城河,似乎只剩下硬件了。

图片

因此,有人猜测,这或许是为什么马斯克近期积极建立自己的算力中心的原因。目前,英伟达在算力领域拥有绝对主导地位。但如果谷歌或微软开发出更具优势的定制芯片,情况又将如何呢?

图片

值得注意的是,不久前有消息称,OpenAI 正在研发首颗专属芯片,并将采用台积电最先进的 A16 纳米级工艺,专为 Sora 视频应用打造。这进一步显示,当前的大模型竞争不仅仅在于模型本身,硬件资源和算力也成了决定胜负的关键因素。

谷歌 DeepMind 的研究表明,通过增加测试时计算量,可以让规模较小的模型在某些任务上媲美甚至超越更大规模的模型。这一原理与 OpenAI 的 o1 模型不谋而合,体现了在 AI 领域中“思考时间”与“性能提升”之间的关系。

然而,谁将最终在这场竞争中胜出,目前仍是未知数。对于各大科技公司而言,硬件和算力正逐渐成为一场没有硝烟的战争的新战场。

参考链接:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/

ChatGPT-4o需要直接私信!!!

标签:DeepMind,模型,谷歌,OpenAI,护城河,计算,o1
From: https://blog.csdn.net/weixin_72847531/article/details/142357051

相关文章

  • Odoo17.0 小红书
    小红书是近年来年轻人中非常流行的社交分享购物平台,本章我们将介绍如何使用我们的小红书模块来完成平台和odoo的对接。当前版本:17.0.1.0基础配置首先,我们要在系统中安装我们的小红书模块: 安装完模块之后,我们到主菜单-小红书-配置-店铺中新建一个店铺: 将我们在小红书商......
  • 使用Code-Prompt模拟实现openai o1
    背景帮忙点点star吧https://github.com/Disdjj/prompt_in_code前段时间,openai发布了o1,体验一段时间之后,虽然我认为在实际上没有基础模型的提升,但是其自动产生COT,主动思考解决问题的方案,我觉得非常有趣,在一段时间的研究之后,我认为Code-Prompt能够模拟实现一部分......
  • OpenAI o1真的那么强吗
    一、Openalo1技术原理在技术博客《LearningtoReasonwithLLMs》中,OpenAI对o1系列语言模型做了详细的技术介绍。OpenAIo1是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是,o1在回答之前会思考——它可以在响应用户之前产生一个很长的内部思维链。也......
  • Openal o1初探
    9月13日,OpenAI正式公开一系列全新AI大模型,传说的“草莓”终于上线,但是正式命名不叫“草莓”,而是o1。一、为什么叫o1为什么取名叫o1,OpenAI是这么说的:ForcomplexreasoningtasksthisisasignificantadvancementandrepresentsanewlevelofAIcapability.Giv......
  • P4185 [USACO18JAN] MooTube G 题解
    水一篇题解。也是一道并查集的好题,涉及另一个并查集的基本应用,并查集维护连通块(我跟并查集过不去了???)大致题意:给你一棵树,对于每次询问求一个点所在连通块中到达该点的最小路径权值大于给定值的点个数。既然都连通块了,那我们在维护连通块的时候直接不把权值大于K的边加进去,用并查......
  • OpenAI以1500亿美元公司估值向投资者筹集65亿美元!安卓版谷歌Gemini Live免费上线|AI日
    文章推荐突发!OpenAI「Her」领头人离职!字节硬件与豆包联动,预推出AI耳机、眼镜等产品|AI日报今日热点安卓版谷歌GeminiLive免费上线据科技媒体9to5Google报道,谷歌在1个月前面向Advanced订阅用户推出后,正逐步面向所有安卓用户免费开放GeminiLive。GeminiLive采用了增强型语音引擎,可......
  • 浅谈OpenAI GPT4o 的使用
      OpenAI-o1的首次总结在阅读了OpenAI的出版物后,我对其本质特点进行了总结,并得出了以下结论:1.复杂问题的推理能力显著提升:OpenAI-o1在处理复杂问题时表现出色,尤其在逻辑任务方面。2.定期更新和改进:通过不断的训练,模型学会完善自己的思维过程,尝试不同的策略,并识别和......
  • 浅谈OpenAI o1
     OpenAI-o1的首次总结在阅读了OpenAI的出版物后,我对其本质特点进行了总结,并得出了以下结论:1.复杂问题的推理能力显著提升:OpenAI-o1在处理复杂问题时表现出色,尤其在逻辑任务方面。2.定期更新和改进:通过不断的训练,模型学会完善自己的思维过程,尝试不同的策略,并识别和纠......
  • 【洛谷 P1216】[USACO1.5] [IOI1994]数字三角形 Number Triangles 题解(动态规划)
    [USACO1.5][IOI1994]数字三角形NumberTriangles题目描述观察下面的数字金字塔。写一个程序来查找从最高点到底部任意处结束的路径,使路径经过数字的和最大。每一步可以走到左下方的点也可以到达右下方的点。在上面的样例中,从的路径产生了最大权值。输入格式第一个行一个正整数......
  • 某bao140请求参数的逆向
    1、UA参数生成,生成的入口如图:2、继续跟调用栈,最后定位到collina.js的t()方法3、把collina的t()方法导出,放到游览器测试一下是否有能输出140#参数值,结果是能输出的4、接下这里选择了补环境,缺什么补什么5、补完环境运行测试一下6、测试一下登录功能的验证140参......