首页 > 其他分享 >AI 推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理

AI 推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理

时间:2024-10-13 14:18:15浏览次数:9  
标签:GSM8K AI GSM 模型 Symbolic LLM 推理 模式匹配

内容提要

大语言模型真的可以推理吗?LLM 都是“参数匹配大师”?苹果研究员质疑 LLM 推理能力,称其“不堪一击”!

文章正文

苹果的研究员 Mehrdad Farajtabar 等人最近发表了一篇论文,对大型语言模型 (LLM) 的推理能力提出了尖锐的质疑,他认为,LLM 的“推理” 能力,其实只是复杂的模式匹配,不堪一击!

论文作者研究了包括 Llama、Phi、Gemma、Mistral 等开源模型,以及 GPT-4o 和 o1 系列等闭源模型。需要指出的是,在 OpenAI 发布 GSM8K 的三年里,模型的性能有了显著提升,从 GPT-3 (175B) 的 35% 提升到了现在 30 亿参数模型的 85% 以上,更大的模型甚至超过了 95%。但 Farajtabar 认为,这并不能证明 LLM 的推理能力真的提高了

为了测试 LLM 的数学推理能力的极限,Farajtabar 和他的团队开发了一个名为 GSM-Symbolic 的新工具,它可以根据 GSM8K 测试集创建符号模板,从而能够生成大量实例并设计可控实验。他们生成了 50 个独特的 GSM-Symbolic 集合,这些集合本质上就像 GSM8K 示例,但具有不同的值和名称

GSM8K 是 “Grade School Math 8K” 的缩写,是一个用来评估数学问题解决能力的数据集。这个数据集主要包含小学级别的数学题目(大约 8,000 道题目),通常用于训练和测试机器学习模型,特别是在自然语言处理领域的模型如何处理和解决数学问题

实验结果,令人大跌眼镜

1.当前 GSM8K 的准确率并不可靠! 

不同模型在 GSM8K 上的表现差异巨大,例如 Llama 8B 的得分在 70% 到 80% 之间,Phi-3 的得分在 75% 到 90% 之间,等等。对于大多数模型,在 GSM-Symbolic 上的平均性能低于在 GSM8K 上的平均性能

2.所谓的 LLM 推理能力不堪一击! 

LLM 对专有名词和数字的更改非常敏感,这说明它们并没有真正理解数学概念。就像一个小学生,如果我们只是更改了数学测试题中的人名,他的分数就会下降 10% 吗?显然不会

3.随着问题难度的增加 (M1 → Symbolic → P1 → P2)

引入了 GSM-Symbolic 的三个新变体来研究模型行为:删除一个分句(GSM-M1)、增加一个分句(GSM-P1)或增加两个分句(GSM-P2),模型的性能下降,方差上升, 这意味着模型的可靠性越来越差

4.引入 GSM-NoOp 后,模型性能断崖式下跌! 

GSM-NoOp 是在 GSM-Symbolic 的基础上,添加了一个看似相关但不影响整体推理的子句。所有模型,包括 o1 模型,都表现出了显著的性能下降。这说明,即使是强大的 o1 模型,也无法真正理解数学问题的逻辑结构

5.即使是 OpenAI 的 o1 系列模型,也无法完全避免这些问题

 o1-preview 虽然有所改进,但仍然会犯一些低级错误,例如无法理解“现在”和“去年”的区别,这可能是因为训练数据中包含了“通货膨胀”的模式,模型只是简单地模仿了这种模式

Farajtabar 认为,

LLM 的这些表现,更好地解释是复杂的模式匹配,而不是真正的逻辑推理。 即使我们增加数据、参数和计算量,或者使用更好的训练数据,也只是得到了“更好的模式匹配器”,而不是“更好的推理器”

Denny Zhou (谷歌 DeepMind 的 LLM 推理团队负责人) 也参与了讨论,他指出:

“这项工作的一个关键发现是:向 GSM8k 问题添加不相关的上下文会导致 LLM 无法解决这些问题,正如我们在 ICML 2023 年的论文‘大型语言模型很容易被不相关的上下文分散注意力’ 中所证明的那样。提示构建的差异在我看来仍然很有趣。”

Yuandong Tian (Meta AI 的研究科学家总监) 也表达了他的观点:

“核心问题是:1️⃣凭借我们的领域知识,我们可以构建权重,使 LLM 在特定问题中进行良好的推理;2️⃣然而,梯度下降可能无法学习到这样的权重;3️⃣我们仍然依赖梯度下降,因为它为许多领域带来了魔力——如果它在其他领域变得愚蠢,我们也无能为力。”

结论

总的来说,这篇论文研究结果没有在包括 Llama、Phi、Gemma 和 Mistral 等开源模型,以及最近的 OpenAI GPT-4o 和 o1 系列等领先闭源模型在内的语言模型中,找到任何形式推理的证据。他们的行为可以用复杂的模式匹配来更好地解释——如此脆弱,以至于更改名称都会使结果改变约 10%!我们可以扩展数据、参数和计算量——或者为 Phi-4、Llama-4、GPT-5 使用更好的训练数据。但这可能只会产生“更好的模式匹配器”,而不是“更好的推理器”

标签:GSM8K,AI,GSM,模型,Symbolic,LLM,推理,模式匹配
From: https://blog.csdn.net/Gabriel100yi/article/details/142896060

相关文章

  • OpenAI官方开源多智能体框架「Swarm」,并不是我想要的多智能体框架PI
    今天早上,OpenAI实施团队的@shyamal在Github上开源了Swarm这个OpenAI官方的多智能体框架。不得不说,OpenAI官方下场,获得的社区影响就是不一样,在微信群、朋友圈里已经出现大量的解析文章。这个多智能体框架确实已经把多智能体的关键,说的很透彻了,Swarm里面定义了两个核心「Agents......
  • Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs 论文解读
    目录一、概述二、相关工作1、近期工作2、DUSt3R3、MASt3R三、Splatt3R1、MASt3R的Backbone 2、高斯预测头3、点云与3D高斯参数结合4、3D高斯渲染5、损失函数四、实验 1、对比实验2、消融实验一、概述    该论文首次提出了一种无需任何相机参数和深......
  • 最近雷军AI配音火出圈,一键免费生成!保姆级教程分享!
    这两天被雷军这个AI配音刷屏了,在某音,B站上大火!特别是一些游戏解说都用他的AI配音,随便发一个视频播放量是杠杠的!也算是一个热点了,这热点可以蹭一波。那这个AI配音到底是怎么做出来的呢?其实非常简单,互联网就是信息差,谁先掌握了第一手信息,谁就可以吃肉!几天就给大家讲下如何......
  • 轻松原创!短剧,带货视频AI自动批量混剪工具!
    今天再分享这个批量剪辑神器,非常适合短剧和带货短视频的制作,轻松过原创,提供了从视频分割、合成、混剪到格式转换的多项功能。以下是它的主要功能:视频分割与提取按时长或段数分割按镜头转场变化分割按语音内容自动分割提取无声视频或音频视频合成自动合成文......
  • 最近雷军AI配音火出圈,一键免费生成!保姆级教程分享!
    这两天被雷军这个AI配音刷屏了,在某音,B站上大火!特别是一些游戏解说都用他的AI配音,随便发一个视频播放量是杠杠的!也算是一个热点了,这热点可以蹭一波。那这个AI配音到底是怎么做出来的呢?其实非常简单,互联网就是信息差,谁先掌握了第一手信息,谁就可以吃肉!几天就给大家讲下如何......
  • 轻松原创!短剧,带货视频AI自动批量混剪工具!
    今天再分享这个批量剪辑神器,非常适合短剧和带货短视频的制作,轻松过原创,提供了从视频分割、合成、混剪到格式转换的多项功能。以下是它的主要功能:视频分割与提取按时长或段数分割按镜头转场变化分割按语音内容自动分割提取无声视频或音频视频合成自动合成文......
  • 最近雷军AI配音火出圈,一键免费生成!保姆级教程分享!
    这两天被雷军这个AI配音刷屏了,在某音,B站上大火!特别是一些游戏解说都用他的AI配音,随便发一个视频播放量是杠杠的!也算是一个热点了,这热点可以蹭一波。那这个AI配音到底是怎么做出来的呢?其实非常简单,互联网就是信息差,谁先掌握了第一手信息,谁就可以吃肉!几天就给大家讲下如何......
  • 硬件设计很简单?合宙低功耗4G模组Air780E—开机启动及外围电路设计
    ​Air780E是合宙低功耗4G-Cat.1模组经典型号之一,上期我们解答了大家关心的系列问题,并讲解了选型的注意要点。有朋友问:能不能讲些硬件设计相关的内容?模组的上电开机,是硬件设计调试的第一步。本期特别分享——Air780E开机启动及外围电路设计。  Air780E开机启动及外围电路设......
  • Air201资产定位模组LuatOS:录音&播放录音功能的操作方法
    ​ 一直有小伙伴们问,迷你小巧的合宙Air201虽然有很多优点,超低功耗、精准定位,那么它是否支持录音、播放录音功能? 那必须能!高集成化设计的Air201自带了ES8311音频解码芯片(AudioCodec)及MIC麦克,可支持本地的录音功能;使用配套喇叭即可将录音保存的数据进行播放,操作极为方便。本......
  • 手搓党分享:用Air700E开发板+毫米波雷达,搓一个睡眠监测仪!
    ​ 只能说,看到这个大佬分享的睡眠监测仪,手上的手环瞬间不香了。。。用Air700E开发板+毫米波雷达,手搓一个开箱即用的睡眠监测仪,不花冤枉钱! 一、项目原理及硬件制作 毫米波是指频率范围从30-300GHz的电磁波,它的波长很短,雷达发射的毫米波会随人体反射回来,同时人体微小的移动......