首页 > 其他分享 >GPT-4一败涂地,语言理解的终极挑战:因果推理,17个大模型都不及格

GPT-4一败涂地,语言理解的终极挑战:因果推理,17个大模型都不及格

时间:2023-06-18 18:31:55浏览次数:44  
标签:17 AI 模型 不及格 LLM GPT 推理 因果

GPT-4一败涂地,语言理解的终极挑战:因果推理,17个大模型都不及格

引言

人工智能(AI)是当今科技领域最热门的话题之一,尤其是基于深度学习的自然语言处理(NLP)技术,已经在各种场景中展现出惊人的能力,比如机器翻译、文本摘要、对话系统、知识图谱等。其中,大型语言模型(LLM)是近年来最受关注的技术之一,它们通过在海量的文本数据上进行预训练,学习到丰富的语言知识和表征,然后可以在不同的下游任务上进行微调或零样本学习,实现多领域、多任务的语言理解和生成。

然而,LLM真的能理解语言吗?它们是否具备人类所拥有的高级认知能力,比如逻辑推理、因果推理、常识推理等?这些问题一直困扰着AI领域的研究者和从业者。最近,一项由马克斯・普朗克研究所、苏黎世联邦理工学院(ETH)、密歇根大学、香港大学和 Meta AI 的研究者们共同完成的研究,对17个不同规模和结构的LLM进行了因果推理能力的评估,结果令人震惊:所有的模型都表现得非常糟糕,连最先进的GPT-4都没有达到及格线。这项研究揭示了LLM在因果推理方面的严重缺陷,也为未来的AI发展提出了新的挑战和方向。

论文地址:https://arxiv.org/abs/2306.05836

什么是因果推理?

因果推理是指根据已知的事实或证据,推断出某些事件或现象之间的因果关系的过程。比如,“吃了坏掉的食物会导致肚子疼”就是一个因果关系,“我吃了坏掉的食物”就是一个事实或证据,“我肚子疼”就是一个推断出来的结果。因果推理是人类认知和决策的基础,也是科学探索和发现的核心方法。在自然语言中,因果关系经常以显式或隐式的方式表达出来,比如使用连词(如“因为”、“所以”、“导致”等)、修饰词(如“可能”、“可能性”、“影响”等)、语气词(如“假设”、“如果”、“假如”等)等。因此,能够根据语言表达进行因果推理,是衡量LLM语言理解能力的一个重要指标。

研究方法

研究者们使用了一个名为Causal Reasoning Test (CRT) 的数据集来评估LLM的因果推理能力。CRT数据集包含了两种类型的问题:相关性问题和因果性问题。相关性问题要求模型判断两个事件或现象之间是否存在相关性,即它们是否同时发生或变化;因果性问题要求模型判断两个事件或现象之间是否存在因果性,即它们是否有前后或影响关系。每个问题都有四个选项供模型选择,其中只有一个是正确答案。例如:

  • 相关性问题:下列哪两个事件之间存在相关性?

    • A. 雨水增加和河水上涨
    • B. 雨水增加和冰淇淋销量下降
    • C. 雨水增加和太阳能板发电量下降
    • D. 雨水增加和空气污染程度下降
    • 正确答案:A
  • 因果性问题:下列哪两个事件之间存在因果性?

    • A. 雨水增加和河水上涨
    • B. 雨水增加和冰淇淋销量下降
    • C. 雨水增加和太阳能板发电量下降
    • D. 雨水增加和空气污染程度下降
    • 正确答案:C

研究者们选取了17个不同规模和结构的LLM,包括GPT-4、GPT-3、GPT-2、GPT、BERT、RoBERTa、XLNet、ELECTRA、ALBERT、T5、BART、DeBERTa、ERNIE、ERNIE2.0、UniLM、MASS和mT5,分别在CRT数据集上进行了评估。评估方法有两种:一种是直接使用模型的生成能力,让模型生成一个选项作为答案;另一种是使用模型的分类能力,让模型对每个选项打分,然后选择最高分的选项作为答案。评估指标是准确率,即模型选择正确答案的比例。

研究结果

研究结果显示,所有的LLM在CRT数据集上的表现都非常差劲,没有一个模型能够达到50%的准确率,即及格线。最好的模型是GPT-4,它在相关性问题上的准确率是48.8%,在因果性问题上的准确率是40.8%,总体准确率是44.8%。最差的模型是mT5,它在相关性问题上的准确率是25.6%,在因果性问题上的准确率是23.2%,总体准确率是24.4%。其他模型的表现也都徘徊在30%左右,远低于人类的水平。此外,研究者们还发现,LLM的规模和结构对于因果推理能力并没有显著的影响,即使是最大的GPT-4也无法超越最小的GPT。这说明,LLM在因果推理方面存在着根本性的缺陷,而不是简单地缺乏数据或参数。

研究分析

那么,为什么LLM在因果推理方面表现得如此糟糕呢?研究者们对此进行了深入的分析,并提出了以下几个可能的原因:

  • LLM缺乏因果知识。LLM虽然可以从大量的文本数据中学习到语言知识,但这些知识往往是表层的、统计的、关联的,而不是深层的、逻辑的、因果的。比如,“吃了坏掉的食物会导致肚子疼”这个因果关系,在文本数据中可能出现得很少,或者被隐含在其他语言表达中,导致LLM无法有效地学习到它。而且,LLM也无法从其他领域或任务中迁移或泛化这种因果知识,比如从物理学或生物学中学习到因果规律,并应用到自然语言中。

  • LLM缺乏因果推理机制。LLM虽然可以根据输入输出进行语言理解和生成,但这些过程并不是真正的推理过程,而是基于概率分布的匹配过程。LLM无法根据已知的事实或证据,运用逻辑规则或因果模型,推导出未知的结果或原因。比如,“我吃了坏掉的食物”和“我肚子疼”之间的因果关系,LLM无法通过逻辑推理得出,而只能通过统计匹配得出。而且,LLM也无法处理一些复杂的因果推理问题,比如多因一果、一因多果、交互因果、反事实因果等。

  • LLM缺乏因果评估能力。LLM虽然可以生成或选择一些语言表达作为答案,但这些答案并不一定是正确的或合理的,而是基于最大化概率或最小化损失的选择。LLM无法根据一些标准或准则,对自己的答案进行评估或验证,比如是否符合常识、是否有证据支持、是否有悖论或矛盾等。比如,“吃了坏掉的食物会导致肚子疼”这个答案,LLM无法判断它是否正确或合理,也无法解释它为什么正确或合理。

研究启示

这项研究给我们带来了一些重要的启示和启发:

  • LLM的语言理解能力还有很大的提升空间。LLM虽然在很多NLP任务上取得了令人惊叹的成绩,但这并不意味着它们真正理解了语言。语言是人类智能的重要载体和表现形式,它不仅包含了表层的语法和语义信息,还包含了深层的逻辑和因果信息。要让LLM真正理解语言,就需要让它们具备高级的认知能力,比如逻辑推理、因果推理、常识推理等。

  • LLM需要更多的因果知识和数据。LLM目前主要依赖于大量的文本数据进行预训练,但这些数据并不能提供足够的因果知识和信息。要提高LLM的因果推理能力,就需要为它们提供更多的因果知识和数据,比如专门设计的因果推理数据集、包含显式或隐式因果关系的文本数据、来自其他领域或任务的因果知识等。

  • LLM需要更好的因果推理机制和评估能力。LLM目前主要使用神经网络作为模型结构,但这种结构并不适合进行因果推理和评估。要提高LLM的因果推理能力,就需要为它们设计更好的因果推理机制和评估能力,比如结合符号逻辑或图模型等方法,实现对因果关系的表示、推导和验证;比如引入元学习或自监督学习等方法,实现对答案的评估和反馈。

结语

总之,这项研究揭示了LLM在因果推理方面的严重缺陷,并为未来的AI发展提出了新的挑战和方向。我们期待着有更多的研究者和从业者能够关注和解决这一问题,让LLM能够真正理解语言,实现更高层次的智能。

大语言模型能力提高,各种AI应用体验和质量会提高,工具也更简单实用。最重要的是学习运用各种AI工具,大幅释放生产力。 想上手使用new bing,了解更多AI技术、应用和ChatGPT进展,欢迎点击如下链接加入 GPT4体验

标签:17,AI,模型,不及格,LLM,GPT,推理,因果
From: https://blog.51cto.com/u_13279124/6509212

相关文章

  • CF1770F Koxia and Sequence
    一步都没想到,一定是状态不好吧,一定吧一定吧?加训数数!题意给定\(n,x,y\),定义好的序列\(\{a_i\}_{i=1}^n\)满足\(\sum\limits_{i=1}^na_i=x,\operatorname{OR}\limits_{i=1}^na_i=y\)。求所有好的序列的异或和的异或和。数据范围:\(1\len\le2^40,0\lex<......
  • COMP9417 - Machine Learning
    COMP9417-MachineLearningHomework1:RegularizedRegression&NumericalOptimizationIntroductionInthishomeworkwewillexploresomealgorithmsforgradientbasedoptimization.Thesealgorithmshavebeencrucialtothedevelopmentofmachinelearnin......
  • SummerResearch_Log_20230617
    WorkingContent:1.今天还是读代码,对于代码有以下问题:(1)FCNet最后的输出层只有1个神经元,这如何做分类?——解决了,应该是因为它每个子任务都是训练两类,所以只需要一个神经元确定是哪个类别。(2)CIFAR数据集的分任务是什么情况?既使用了CIFAR10也使用了CIFAR100,并且分类的情况也有点......
  • 在线免费ChatGPT,官方api
    作为一款强大的语言模型,ChatGPT在自然语言处理领域享有较高声誉。现在,您可以在我们的在线平台上免费体验ChatGPT的功能了!经过不断地优化和改进,我们的在线聊天机器人已经能够针对各种话题展示出色的回答能力。无论是娱乐、教育、生活还是工作相关的话题,ChatGPT都能带来令人惊喜的......
  • 【题解】[NOIP2017 提高组] 逛公园
    题目描述:策策同学特别喜欢逛公园。公园可以看成一张\(N\)个点\(M\)条边构成的有向图,且没有自环和重边。其中\(1\)号点是公园的入口,\(N\)号点是公园的出口,每条边有一个非负权值,代表策策经过这条边所要花的时间。策策每天都会去逛公园,他总是从\(1\)号点进去,从\(N\)号......
  • 《近期回忆录》2023.6.17
    我们都是行走在镜面边缘的人。低下头看到的,是半个迷茫的自己,和半个不见底的深渊。——百度贴吧noip,《行走在镜面的边缘》记2023.5.5-2023.6.17,谨以此送给一个半月以来疯狂的自己。 日志阶段性sum瞎扯(bushi)  2023.5.7新的开始NOCAI创新编程初赛&&蓝桥......
  • 2023-06-17 tp6如何开启debug调试
    我安装的tp6没有.env文件,官网的文档是说把tp6在根目录生成的.exmaple.env文件改名为.env就可以了,如果没有该文件就直接创建一个,然后在里面添加代码:APP_DEBUG=true;如果想关闭调试则设置为false即可。注意:官方说明该调试只可用于本地测试,部署到生产环境时会失效。tp6官方文档:ht......
  • 操作系统_0617
    虚存容量受外存和内存影响虚存容量=min(内存容量+外存容量,2^N)(N为计算机的地址总线的长度)2.下列选项中,磁盘逻辑格式化程序所做的工作是II.建立文件系统的根目录Ⅳ.对保存空闲磁盘块信息的数据结构进行初始化一个新的磁盘是一个空白版,必须分成扇区以便磁盘控制器能读和写,这......
  • 2023-06-17 闲话
    生活在这一周里面陷入了一团糟,不妨称之为随机生活。像吃饭睡觉这样的最最基础的物质生活完全没法保证规律,作息是随机作息:第一天到家的作息是三点到六点,中午睡了一小时,晚上熬夜看了欧冠决赛;前天是十二点到六点,昨天是十点到五点。你觉得这不是迈上正轨了吗,我觉得不然,比如我们看看......
  • 单调栈复习01_230617
    主要关注栈内元素放置的是什么栈头-栈尾递增还是递减,寻找右侧最大元素,则栈内元素递增;例如Leetcode的每日温度,实则寻找右侧首个大于自身的元素位置,则栈内元素为下标、栈内元素逐渐增大,如果遍历到的元素小于栈顶元素则入栈,否则出栈主要逻辑如下:vector<int>dailyTemperatur......