首页 > 其他分享 >谷歌论文提前揭示o1模型原理:AI大模型竞争或转向硬件

谷歌论文提前揭示o1模型原理:AI大模型竞争或转向硬件

时间:2024-09-20 16:49:15浏览次数:3  
标签:AI 模型 论文 OpenAI 护城河 o1

Open AI最强模型o1的护城河已经没有了?仅在OpenAI发布最新推理模型o1几日之后,海外社交平台 Reddit 上有网友发帖称谷歌Deepmind在 8 月发表的一篇论文内容与o1模型原理几乎一致,OpenAI的护城河不复存在。

谷歌DeepMind团队于今年8月6日发布上述论文,题为《优化 LLM 测试时计算比扩大模型参数规模更高效》(Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters)。

在这里插入图片描述
在这篇论文中,研究团队探讨了大模型(LLM)在面对复杂问题时,是否可以通过增加测试时的计算量来提高决策质量。这项研究表明,增加测试时(test-time compute)计算比扩展模型参数更有效。基于论文提出的计算最优(compute-optimal)测试时计算扩展策略,规模较小的基础模型在一些任务上可以超越一个14倍大的模型。

在这里插入图片描述
无独有偶,另一篇由谷歌和斯坦福大学研究人员于今年1月发表的论文《思维链赋能 Transformer 解决本质上的串行问题》(Chain of Thought Empowers Transformers to Solve Inherently Serial Problems)也提出了类似的观点。该论文探讨了“思维链”(Chain of Thought,简称 CoT)技术,旨在突破 Transformer 模型在串行推理方面的限制。

传统的Transformer模型擅长并行计算,但在处理需要逻辑推理的复杂问题时表现欠佳。CoT的核心思想是让模型模拟人类的思考方式,通过生成一系列中间推理步骤,来解决复杂问题。

OpenAI 近期发布的o1 模型,或正是上述理念的实践。o1模型在给出答案之前,会生成一系列中间推理步骤,不断完善自己的思维过程,尝试不同的策略,并能识别自身错误。随着更多的强化学习和思考时间,o1的性能持续提升。

有网友表示,“所有的秘密突破和算法最终都会随着顶尖开发者在行业内的流动而传播到其他公司和开源社区。”谷歌也表示没有人拥有护城河,这也促使OpenAI将o1-mini的速度提高7倍,每天都能使用50条;o1-preview则提高每周50条。

有网友评论道:“唯一可能形成护城河的是硬件,至少在可预见的未来是这样。”也有人认为,如果AI大模型公司无法解决对显存的依赖,英伟达可能会直接掌控谁能够获得计算能力。而如果微软或谷歌开发出在自研芯片上运行速度快10倍的模型,情况也会变化。

目前,英伟达在AI大模型算力的分配上占据主导地位。值得注意的是,OpenAI近期也被曝出其首款芯片计划,采用台积电最先进的A16级工艺,专为Sora视频应用打造。这些迹象表明,大模型的竞争已不仅局限于模型本身,硬件能力也成为关键因素。在AI领域,谁能拥有更强大的算力,谁就可能在下一阶段的竞争中占据优势。

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

标签:AI,模型,论文,OpenAI,护城河,o1
From: https://blog.csdn.net/weixin_41446370/article/details/142371824

相关文章

  • 2024最新最全大模型学习规划成长路线(非常详细)零基础入门到精通,看这一篇就够!
    一、前言随着人工智能技术的飞速发展,大模型已成为推动科技进步的重要力量。为了帮助大家更好地掌握大模型相关知识,这里为您量身定制了一份学习规划,分为七个阶段,涵盖理论基础、核心技术、编程基础、实战项目、高级应用、模型微调与私有化部署以及前沿技术探索。二、学习......
  • 谷歌论文提前揭示 o1 模型原理:AI 大模型竞争或转向硬件
    谷歌论文提前揭示o1模型原理:AI大模型竞争或转向硬件谷歌DeepMind团队在2024年8月6日发布的论文《优化LLM测试时计算比扩大模型参数规模更高效》中探讨了大模型(LLM)在面对复杂问题时,是否可以通过增加测试时的计算量来提高决策质量。研究表明,增加测试时(test-tim......
  • 大模型入门到进阶:什么是Graph RAG?
    自从ChatGPT的出现引爆了人工智能的炒作之后,检索增强生成(RAG)就主导了关于如何让GenAI应用程序变得有用的讨论。这个想法很简单。一旦我们将LLM连接到我们的私人数据,它就会变得特别有用。每个人都可以访问的基础模型与我们特定领域的数据相结合,作为秘密武器,产生......
  • Kyutai 开源对话模型 Moshi;李飞飞空间智能公司已筹集超过 2.3 亿美元丨 RTE 开发者日
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。 我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个......
  • 一种面向混合云平台基于LSTM预测模型的资源池配额方法。
    本文分享自天翼云开发者社区《一种面向混合云平台基于LSTM预测模型的资源池配额方法。》,作者:l****n基于用户的历史配额申请情况和实际资源使用情况组成数据集搭建LSTM时序预测模型。当前用户提出资源配额申请时,基于该用户的历史资源实际使用情况结合LSTM模型来预测该次配额申请的......
  • 测试概念及模型(杂谈)
    ✨博客主页:https://blog.csdn.net/m0_63815035?type=blog......
  • 大模型时代下的新一代广告系统
     京东零售广告部承担着京东全站流量变现及营销效果提升的重要职责,广告研发部是京东最核心的技术部门,也是京东最主要的盈利来源之一。作为京东广告部的核心方向,我们基于京东海量的用户和商家数据,探索最前沿的深度学习等算法技术,创新并应用到业务实践中,赋能千万商家和数亿消费者的......
  • 探索未来智能:Moonshot AI 引领AI新纪元——M1超级模型
    在人工智能的快速演进中,MoonshotAI再次站在了技术创新的前沿。推出M1超级模型,这是一款旨在突破现有AI能力极限的革命性产品。M1超级模型的诞生背景随着数据量的爆炸性增长和计算能力的提升,AI模型正变得越来越复杂和强大。M1超级模型的诞生是对这一趋势的直接响应,它代表了Moons......
  • xtop:multi_driven_net与incomplete_timing_cell fail reason 分析
    我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧?拾陆楼知识星球入口xtop做时序收敛时报告failreason&#x......
  • torch.distributed.DistNetworkError: The server socket has failed to listen on an
    解决方案是在torchrun中添加参数--master_port改变masterport。且注意这个参数一定要加在要跑的文件即src/entry_point/train.py之前,否则会被忽略。引用:https://juejin.cn/post/7260668104752775228我的代码是:torchrun--nproc_per_node1--master_port29501-mtraining.......