首页 > 其他分享 >大模型开始学习像人类般思考,通往AGI到哪一步了?

大模型开始学习像人类般思考,通往AGI到哪一步了?

时间:2024-09-15 11:02:36浏览次数:12  
标签:LLM AGI AI 模型 通往 OpenAI 思考 数学

  2个月前,大模型数学能力弱的问题广泛引起关注,市面上多款大模型甚至无法做对“9.11和9.9哪个大”的简单数学题。2个月后,业内正在逐步解决大模型数学能力限制的问题。

  北京时间9月13日凌晨,OpenAI在没有预告的情况下发布了一个新的推理(reasoning)模型系列,包括o1-preview、o1和o1-mini三个型号。这便是OpenAI传闻已久的具有高级推理能力的“草莓项目”。据OpenAI介绍,新系列模型在数据和编码方面表现出色,在国际数学奥林匹克竞赛(IMO)的资格考试中得分83%。

  尝试突破数学能力限制的不只OpenAI。谷歌DeepMind团队此前也推出了Al系统AlphaProof,用于解决复杂的数学问题。

  突破数学能力极限是AI技术演进、通往AGI(通用人工智能)路上的新一步。在考文垂大学教授、英伟达人工智能技术中心全球主管Simon See(西蒙·西)看来,业界在提升AI数学能力背后,包括了将LLM(大语言模型)结合其他更多技术的努力,结合不同技术的努力产生了一种通往AGI(通用人工智能)的潜在动力。

  如何解决数学能力限制?

  “对复杂的推理任务而言,这是一个重大进步,代表人工智能能力的一个新水平。”OpenAI在介绍o1系列模型时写到。OpenAI CEO Sam Altman(萨姆·奥尔特曼)也在社交平台上表示,该新模型是一个新范式的开始,即AI能够进行通用复杂推理。

  数学能力增强是该系列模型的一个重要特点。OpenAI介绍,新系列模型更新后的性能类似于博士生在物理、化学、生物学中完成具挑战性的基准任务,在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o仅正确解决了13%的问题,而该新模型得分为83%。

  就新模型如何实现更好的数学、编程能力,OpenAI介绍,公司用大规模强化学习算法“教会”模型在数据高效训练时用思维链进行高效思考,类似于人类在回答困难问题之前思考很长时间,随着强化学习增加和思考时间增加,o1性能不断提高。OpenAI研究人员Noam Brown称,o1为大模型缩放(scaling)开辟了新维度,让大模型不再受预训练的瓶颈限制,现在也可以扩展推理计算。而就推理能力增强后的作用,OpenAI则表示,可用于医疗保健领域注释细胞测序数据、物理研究领域生成复杂数学公式等。

  谷歌DeepMind则是通过结合LLM之外的其他技术来增强AI系统的最终表现。AlphaProof也基于强化学习,是用于数学推理的系统。该系统训练自身用以证明Lean编程语言(一种用于帮助验证定理的编程语言),且结合了训练语言模型与AlphaZero强化学习算法。据谷歌介绍,Lean使该系统在涉及数学推理证明时可以验证正确性。遇到问题时,AlphaProof会生成候选解决方案,再通过在Lean中搜索可能的证明步骤来进行证明或反驳。

  不论技术原理是否有相同点,AlphaProof和OpenAI o1相比以往的模型,都趋于进行深度思考,而不仅依赖于LLM预测并迅速生成下一token(词元)的能力。

  如何通往AGI?

  此前有大模型研发人员告诉记者,大模型数学能力弱的一个原因是没有用到大量高质量的数学数据训练模型,随着数据质量提升,数学能力弱的问题可以解决。不过,除了训练数据的原因,业内分析LLM数学能力差也是因为通过预测下一token的方式并不真正智能。从近期动态看,包括OpenAI和谷歌DeepMind在内,业界正从AI系统运行机制上解决数学和推理能力差的问题,实际上是在通过各种技术弥补LLM运行方式的不足,在某种程度上让LLM的思考方式变得更像人类。

  就LLM的能力局限、如何解决诸如数学能力等问题、如何从现有的LLM迈向AGI,业内仍在探讨问题根源和解决方案,多名业内资深人士近日在沙特数据和人工智能管理局主办的GAIN SUMMIT世界人工智能峰会上进行了探讨。峰会上,Simon See表示,现在的人工智能是“狭隘”的,很多人认为LLM会成为实现AGI的动力,但人们其实没真正理解它是如何工作,现在仍处于开发LLM的边缘。现在还有很多问题需要解决,例如不能建立越来越大的模型,因为无法提供无限的能源。

  “我们现在就是有大量数据,将模型训练得足够大,就涌现出了能力。在我看来,依靠单一技术不可行,现在业内正在努力的方向包括让LLM结合其他知识和技术如新的符号、微积分等来进行理解和推理。”Simon See表示,不同技术的结合近期取得巨大进步,DeepMind的AlphaProof便结合了Lean编程语言、语言模型等,使AI能用于数学证明。让LLM结合各种技术,使AI系统拥有通往AGI的潜在动力。

  Alpha Intelligence Captal联合创始人兼管理合伙人Antoine Blondeau(安东尼·布朗多)也认为,机器最终比人类更出色已成定局,但达成这个结果需要一定时间,还有大量科学工作要做。他判断,AI将不会是一个单一模型,可能是多种模型的结合,机器最终将要学会像人一样会观察、证明或反驳、概括,在现实世界中学习。

  就目前LLM的机制和局限,Antoine Blondeau认为,人类从生活中学习,其中95%是从“带声音的视频”中学习,我们生活的本质基本就是“打开视频”,另外5%是来自文本例如书籍。人类会从视频中学习到语义,例如出现5根手指的时候,意味着可能是人类或其他动物,人类还会从视频中理解时间的顺序和事件因果。但机器从视频中学习的时候,它的任务则是预测下一个像素,这不是人类的方式。如果我们无法让机器像人类这般如此学习,机器就很难达到更高的智能水平。

  机器学习知名科学家、大模型初创公司Boson AI创始人兼CEO Alex Smola(亚历克斯·斯莫拉)点出LLM运行方式的局限也与token预测有关。他表示,LLM可预测下一个token(词元)的能力已被用于理解图像、声音、制作声音,在过去12个月,所有东西似乎都变成了token。

  “某种程度上我们已经开始耗尽可用的token数量。粗略估算,或许已有100万亿tokens,这可能是人类所能用于建造LLM的tokens。现在还有很多视频、音频供给,某种程度上这将发挥作用,这还依靠英伟达或其他公司生产能处理这些模态的芯片。”Alex Smola表示,在可见的未来,LLM核心可能是序列建模(sequence modeling),现在能看到数据、硬件的收敛,概率模型也朝着相似的结构演进,可以看看相关探索接下来几年能走多远。

  结合技术进展并展望未来,Antoine Blondeau认为实现AGI可能是在10年或20年内,现在演进的速度很快。Simon See认为要达到AGI,或许能在这10年内实现这一进程的80%,但他判断最后的20%将非常具有挑战性且需要更长时间。

标签:LLM,AGI,AI,模型,通往,OpenAI,思考,数学
From: https://www.cnblogs.com/jinsexiaomifeng/p/18415066

相关文章

  • 从数据仓库到数据飞轮:数据技术演进的探索与思考
    引言在当今的数字化浪潮中,数据被视为一种极具价值的资源,类似于传统工业时代的石油,它为企业挖掘出深邃的洞察力,并成为决策过程中不可或缺的基石。随着技术的不断演进,数据管理的策略与架构也经历了显著的变革,从早期的数据仓库模式,逐步迈向集成化的数据中台架构,并朝着更加动态灵活的数......
  • 全能还是专精?关于技术通才与技术专家的思考
    在日新月异的IT行业中,每隔数年乃至数月,便会涌现出革新性的技术或前沿框架,引领行业潮流。比如前端开发,我刚开始工作时,大部分都是静态页面+JavaScript,页面上只有一些简单的交互。后来出现了Ajax技术和JQuery库,现在想起当年第一次使用JQuery时,真的觉得这就是前端库的终点。结果......
  • Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型问世,模拟人类思考问题 丨 RTE 开发者日报
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。 我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个......
  • 内网穿透技术的思考--反向代理、TCP 隧道、 UDP 打洞--C++代码示例
    概述内网穿透是一种技术,用于在私有局域网(LAN)中的设备与外部网络(如互联网)之间建立通信通道,使得外部设备可以访问内网中的服务。由于内网设备通常位于防火墙或NAT(网络地址转换)设备之后,外部网络无法直接访问它们。因此,内网穿透技术旨在解决这一问题。本文将讨论如何使用C++实现......
  • 惊人转变!从信息奴隶到思考大师,你只需掌握这几点专注力提升法!
    引言信息超载时代的今天,人们的主要问题不再是获取信息的资源渠道不足,任何一个信息,都可以通过一篇文章,一个视频来找到对应的相关信息,无极生太极、太极生两仪、两仪生四象。任何一个信息源中,都包含着无数的信息源,每个线头里面都埋藏着无数个待挖掘的信息,在今天这个信息超载......
  • 架构师备考的一些思考(四)
    前言对于数学,我们之前学的是对的,但不是真的,所以我们没有数学思维。对于计算机,我们学校教的是对的,但不是真的,所以仅仅从学校学习知识的应届毕业生,不论985,211,本科,专科都一样,都是一张白纸,啥也不会。案例分析案例分析是5选3,第一题必答。问题一的类型架构风格对比问题二的类型......
  • CPP在内网穿透技术的思考
    概述内网穿透是一种技术,用于在私有局域网(LAN)中的设备与外部网络(如互联网)之间建立通信通道,使得外部设备可以访问内网中的服务。由于内网设备通常位于防火墙或NAT(网络地址转换)设备之后,外部网络无法直接访问它们。因此,内网穿透技术旨在解决这一问题。本文将讨论如何使用C++实现内......
  • AI新时代揭幕 会“思考解题逻辑”的OpenAI推理大模型登场
    北京时间周五凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAIo1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示,对于复杂推理任务而言,新模型代表着人工智能能力的崭......
  • 成长的底层逻辑:why-how-what 思考顺序
    为什么明明知道,却改不了?为什么别人听不明白我说的啥?如何让自己的成长更快速,而非像网游里打怪攒经验线性升级。why、how、what的思考方式,让我在这些问题上看到了答案。不仅如此,使用了这个思考方式之后,我对阳明心学、西方个人发展类书籍也有了更深层次的理解。我认为它是非常强......
  • 架构师备考的一些思考(三)
    前言这个考题的大部分内容,我感觉都是我们会的,但所有的考题都穿上了马甲,穿上马甲我们就不好认了,而且如果是一个两个人穿马甲,还好推断,如果1000人穿马甲,你识别的概率就会急速下降。有些题的内容则是即无法识别,也无法背,因为它也没有个前因后果,完全是出题人拍脑袋想的,所以,这种题我们......