首页 > 其他分享 >LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

时间:2024-08-26 09:52:11浏览次数:8  
标签:Towards Ability LogicBench 能力 LLM 逻辑推理 推理 评估

本文是LLM系列文章,针对《LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models》的翻译。

LogicBench:大型语言模型逻辑推理能力的系统评价

摘要

最近开发的大型语言模型(LLM)已被证明在广泛的语言理解任务中表现出色。但是,他们真的能“推理”自然语言吗?这个问题一直受到广泛的研究关注,许多推理技巧,如常识、数值和定性,都得到了研究。然而,与“逻辑推理”相关的关键技能仍未得到充分探索。现有的研究LLM这种推理能力的工作只集中在命题逻辑和一阶逻辑的几个推理规则(如模式子和模式子)上。针对上述局限性,我们综合评估了LLM在跨越命题逻辑、一阶逻辑和非单调逻辑的25种不同推理模式上的逻辑推理能力。为了实现系统评估,我们引入了LogicBench,这是一个专注于使用单个推理规则的自然语言问答数据集。我们使用思维链提示对GPT-4、ChatGPT、Gemini、Llama-2和Mistral等一系列LLM进行详细分析。实验结果表明,现有的LLM在LogicBench上表现不佳;尤其是,他们难以应对涉及复杂推理和否定的情况。此外,他们有时会忽略推理得出正确结论所需的上下文信息。我们相信,我们的工作和发现有助于未来研究评估和提高LLMs的逻辑推理能力。

1 引言

2 相关工作

3 LogicBench

4 结果和分析

5 结论

在这项工作中,我们评估了LLM在25种不同推理规则和推理模式上的逻辑推理能力ÿ

标签:Towards,Ability,LogicBench,能力,LLM,逻辑推理,推理,评估
From: https://blog.csdn.net/c_cpp_csharp/article/details/141553449

相关文章