LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

时间：2024-08-26 09:52:11浏览次数：18

标签：Towards Ability LogicBench 能力 LLM 逻辑推理推理评估

本文是LLM系列文章，针对《LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models》的翻译。

LogicBench：大型语言模型逻辑推理能力的系统评价

摘要
1 引言
2 相关工作
3 LogicBench
4 结果和分析
5 结论
局限性

摘要

最近开发的大型语言模型（LLM）已被证明在广泛的语言理解任务中表现出色。但是，他们真的能“推理”自然语言吗？这个问题一直受到广泛的研究关注，许多推理技巧，如常识、数值和定性，都得到了研究。然而，与“逻辑推理”相关的关键技能仍未得到充分探索。现有的研究LLM这种推理能力的工作只集中在命题逻辑和一阶逻辑的几个推理规则（如模式子和模式子）上。针对上述局限性，我们综合评估了LLM在跨越命题逻辑、一阶逻辑和非单调逻辑的25种不同推理模式上的逻辑推理能力。为了实现系统评估，我们引入了LogicBench，这是一个专注于使用单个推理规则的自然语言问答数据集。我们使用思维链提示对GPT-4、ChatGPT、Gemini、Llama-2和Mistral等一系列LLM进行详细分析。实验结果表明，现有的LLM在LogicBench上表现不佳；尤其是，他们难以应对涉及复杂推理和否定的情况。此外，他们有时会忽略推理得出正确结论所需的上下文信息。我们相信，我们的工作和发现有助于未来研究评估和提高LLMs的逻辑推理能力。

1 引言

2 相关工作

3 LogicBench

4 结果和分析

5 结论

在这项工作中，我们评估了LLM在25种不同推理规则和推理模式上的逻辑推理能力ÿ

标签：Towards,Ability,LogicBench,能力,LLM,逻辑推理,推理,评估
From： https://blog.csdn.net/c_cpp_csharp/article/details/141553449

Towards Mitigating ChatGPT’s Negative Impact on Education: Optimizing Question
文章目录题目摘要引言概述实验结果结论和未来工作题目减轻ChatGPT对教育的负面影响：通过布鲁姆分类法优化问题设计论文地址:https://ieeexplore.ieee.org/document/10223662摘要生成文本AI工具在回答问题方面的流行引发了人们对其可能对学生学业成......
题解：P7020 [NWRRC2017] Boolean Satisfiability
题目传送门题目大意给定一个由大小写字母（变量），|和~组成的布尔代数式，变量可以任意赋值为True或False。求对于给定的变量，有多少种赋值方案使得给定的代数式值为True。思路一个一个看，首先考虑|，先假设只有|，则当代数式中有一个变量为True时，代数式的值变为True。因为每一......
CVSS（Common Vulnerability Scoring System）打分规则解读
CVSS（CommonVulnerabilityScoringSystem）提供了一种根据漏洞的主要特征进行打分，反映其严重性的方法。CVSS已成为被广泛使用的标准。下面是CVSS3.1版本计算器的界面截图，本文对BaseScore的打分标准做解读，并提供一些建议。同时会对每个维度选项做翻译。 AttackVector攻击向......
SciTech-Mathematics-Probability+Statistics-Relative Frequency Histogram: Definit
RelativeFrequencyHistogram:Definition+ExampleBYZACHBOBBITTPOSTEDONFEBRUARY19,2020Ofteninstatisticsyouwillencountertablesthatdisplayinformationaboutfrequencies.Frequenciessimplytellushowmanytimesacertaineventhasoccurred.......
SciTech-Mathematics-Probability+Statistics-7 Steps to Mastering Statistics for D
7StepstoMasteringStatisticsforDataScienceBYBALAPRIYACPOSTEDONJULY19,2024Astrongfoundationinstatisticsisessentialifyou’relookingtobecomeaskilleddatascientist.Fromanalyzingtrendsindatatobuildingpredictivemodelsandma......
SciTech-Mathematics-Probability+Statistics-7 Key Statistics Concepts
7KeyStatisticsConceptsEveryDataScientistMustMasterBYBALAPRIYACPOSTEDONAUGUST9,2024Statisticsisoneofthemust-haveskillsforalldatascientists.Butlearningstatisticscanbequitethetask.That’swhyweputtogetherthisguidetoh......
SciTech-Mathematics-Probability+Statistics-[THREE types of Probability]{Subjecti
THREEtypesofProbability:TheoreticalProbabilityEmpiricalProbabilitySubjectiveProbabilityBayes,EmpiricalBayesandModeratedMethodsEmpiricalandtheoreticalpriordistribution|TheBookof…https://www.khanacademy.org/math/cc-seventh-......
Unity匀速移动的几种方案 Lerp，SmoothDamp，MoveTowards
速览Lerp用于插值，可以和协程配合用于移动。SmoothDamp是阻尼移动，从不超过。MoveTowards是匀速移动，也不会超过。方案1，使用Lerp——先快后慢运动（线性衰减）（不好用✖）Lerp最简单的用法如下：voidUpdate(){transform.position=Vector3.Lerp(transform.position,endPos,Tim......
SciTech-Mathematics-Probability+Statistics-5StatisticalConcepts:
5StatisticalConceptsThatOftenConfuseBeginners(AndHowtoUnderstandThem)BYNAHLADAVIESPOSTEDONAUGUST6,20245StatisticalConceptsThatOftenConfuseBeginners(AndHowtoUnderstandThem)Statisticsisn'tjustformathematiciansorscie......