GPT-4一败涂地,语言理解的终极挑战:因果推理,17个大模型都不及格
引言
人工智能(AI)是当今科技领域最热门的话题之一,尤其是基于深度学习的自然语言处理(NLP)技术,已经在各种场景中展现出惊人的能力,比如机器翻译、文本摘要、对话系统、知识图谱等。其中,大型语言模型(LLM)是近年来最受关注的技术之一,它们通过在海量的文本数据上进行预训练,学习到丰富的语言知识和表征,然后可以在不同的下游任务上进行微调或零样本学习,实现多领域、多任务的语言理解和生成。
然而,LLM真的能理解语言吗?它们是否具备人类所拥有的高级认知能力,比如逻辑推理、因果推理、常识推理等?这些问题一直困扰着AI领域的研究者和从业者。最近,一项由马克斯・普朗克研究所、苏黎世联邦理工学院(ETH)、密歇根大学、香港大学和 Meta AI 的研究者们共同完成的研究,对17个不同规模和结构的LLM进行了因果推理能力的评估,结果令人震惊:所有的模型都表现得非常糟糕,连最先进的GPT-4都没有达到及格线。这项研究揭示了LLM在因果推理方面的严重缺陷,也为未来的AI发展提出了新的挑战和方向。
论文地址:https://arxiv.org/abs/2306.05836
什么是因果推理?
因果推理是指根据已知的事实或证据,推断出某些事件或现象之间的因果关系的过程。比如,“吃了坏掉的食物会导致肚子疼”就是一个因果关系,“我吃了坏掉的食物”就是一个事实或证据,“我肚子疼”就是一个推断出来的结果。因果推理是人类认知和决策的基础,也是科学探索和发现的核心方法。在自然语言中,因果关系经常以显式或隐式的方式表达出来,比如使用连词(如“因为”、“所以”、“导致”等)、修饰词(如“可能”、“可能性”、“影响”等)、语气词(如“假设”、“如果”、“假如”等)等。因此,能够根据语言表达进行因果推理,是衡量LLM语言理解能力的一个重要指标。
研究方法
研究者们使用了一个名为Causal Reasoning Test (CRT) 的数据集来评估LLM的因果推理能力。CRT数据集包含了两种类型的问题:相关性问题和因果性问题。相关性问题要求模型判断两个事件或现象之间是否存在相关性,即它们是否同时发生或变化;因果性问题要求模型判断两个事件或现象之间是否存在因果性,即它们是否有前后或影响关系。每个问题都有四个选项供模型选择,其中只有一个是正确答案。例如:
-
相关性问题:下列哪两个事件之间存在相关性?
- A. 雨水增加和河水上涨
- B. 雨水增加和冰淇淋销量下降
- C. 雨水增加和太阳能板发电量下降
- D. 雨水增加和空气污染程度下降
- 正确答案:A
-
因果性问题:下列哪两个事件之间存在因果性?
- A. 雨水增加和河水上涨
- B. 雨水增加和冰淇淋销量下降
- C. 雨水增加和太阳能板发电量下降
- D. 雨水增加和空气污染程度下降
- 正确答案:C
研究者们选取了17个不同规模和结构的LLM,包括GPT-4、GPT-3、GPT-2、GPT、BERT、RoBERTa、XLNet、ELECTRA、ALBERT、T5、BART、DeBERTa、ERNIE、ERNIE2.0、UniLM、MASS和mT5,分别在CRT数据集上进行了评估。评估方法有两种:一种是直接使用模型的生成能力,让模型生成一个选项作为答案;另一种是使用模型的分类能力,让模型对每个选项打分,然后选择最高分的选项作为答案。评估指标是准确率,即模型选择正确答案的比例。
研究结果
研究结果显示,所有的LLM在CRT数据集上的表现都非常差劲,没有一个模型能够达到50%的准确率,即及格线。最好的模型是GPT-4,它在相关性问题上的准确率是48.8%,在因果性问题上的准确率是40.8%,总体准确率是44.8%。最差的模型是mT5,它在相关性问题上的准确率是25.6%,在因果性问题上的准确率是23.2%,总体准确率是24.4%。其他模型的表现也都徘徊在30%左右,远低于人类的水平。此外,研究者们还发现,LLM的规模和结构对于因果推理能力并没有显著的影响,即使是最大的GPT-4也无法超越最小的GPT。这说明,LLM在因果推理方面存在着根本性的缺陷,而不是简单地缺乏数据或参数。
研究分析
那么,为什么LLM在因果推理方面表现得如此糟糕呢?研究者们对此进行了深入的分析,并提出了以下几个可能的原因:
-
LLM缺乏因果知识。LLM虽然可以从大量的文本数据中学习到语言知识,但这些知识往往是表层的、统计的、关联的,而不是深层的、逻辑的、因果的。比如,“吃了坏掉的食物会导致肚子疼”这个因果关系,在文本数据中可能出现得很少,或者被隐含在其他语言表达中,导致LLM无法有效地学习到它。而且,LLM也无法从其他领域或任务中迁移或泛化这种因果知识,比如从物理学或生物学中学习到因果规律,并应用到自然语言中。
-
LLM缺乏因果推理机制。LLM虽然可以根据输入输出进行语言理解和生成,但这些过程并不是真正的推理过程,而是基于概率分布的匹配过程。LLM无法根据已知的事实或证据,运用逻辑规则或因果模型,推导出未知的结果或原因。比如,“我吃了坏掉的食物”和“我肚子疼”之间的因果关系,LLM无法通过逻辑推理得出,而只能通过统计匹配得出。而且,LLM也无法处理一些复杂的因果推理问题,比如多因一果、一因多果、交互因果、反事实因果等。
-
LLM缺乏因果评估能力。LLM虽然可以生成或选择一些语言表达作为答案,但这些答案并不一定是正确的或合理的,而是基于最大化概率或最小化损失的选择。LLM无法根据一些标准或准则,对自己的答案进行评估或验证,比如是否符合常识、是否有证据支持、是否有悖论或矛盾等。比如,“吃了坏掉的食物会导致肚子疼”这个答案,LLM无法判断它是否正确或合理,也无法解释它为什么正确或合理。
研究启示
这项研究给我们带来了一些重要的启示和启发:
-
LLM的语言理解能力还有很大的提升空间。LLM虽然在很多NLP任务上取得了令人惊叹的成绩,但这并不意味着它们真正理解了语言。语言是人类智能的重要载体和表现形式,它不仅包含了表层的语法和语义信息,还包含了深层的逻辑和因果信息。要让LLM真正理解语言,就需要让它们具备高级的认知能力,比如逻辑推理、因果推理、常识推理等。
-
LLM需要更多的因果知识和数据。LLM目前主要依赖于大量的文本数据进行预训练,但这些数据并不能提供足够的因果知识和信息。要提高LLM的因果推理能力,就需要为它们提供更多的因果知识和数据,比如专门设计的因果推理数据集、包含显式或隐式因果关系的文本数据、来自其他领域或任务的因果知识等。
-
LLM需要更好的因果推理机制和评估能力。LLM目前主要使用神经网络作为模型结构,但这种结构并不适合进行因果推理和评估。要提高LLM的因果推理能力,就需要为它们设计更好的因果推理机制和评估能力,比如结合符号逻辑或图模型等方法,实现对因果关系的表示、推导和验证;比如引入元学习或自监督学习等方法,实现对答案的评估和反馈。
结语
总之,这项研究揭示了LLM在因果推理方面的严重缺陷,并为未来的AI发展提出了新的挑战和方向。我们期待着有更多的研究者和从业者能够关注和解决这一问题,让LLM能够真正理解语言,实现更高层次的智能。
大语言模型能力提高,各种AI应用体验和质量会提高,工具也更简单实用。最重要的是学习运用各种AI工具,大幅释放生产力。 想上手使用new bing,了解更多AI技术、应用和ChatGPT进展,欢迎点击如下链接加入 GPT4体验
标签:17,AI,模型,不及格,LLM,GPT,推理,因果 From: https://blog.51cto.com/u_13279124/6509212