首页 > 其他分享 >LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

时间:2024-08-26 09:52:11浏览次数:18  
标签:Towards Ability LogicBench 能力 LLM 逻辑推理 推理 评估

本文是LLM系列文章,针对《LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models》的翻译。

LogicBench:大型语言模型逻辑推理能力的系统评价

摘要

最近开发的大型语言模型(LLM)已被证明在广泛的语言理解任务中表现出色。但是,他们真的能“推理”自然语言吗?这个问题一直受到广泛的研究关注,许多推理技巧,如常识、数值和定性,都得到了研究。然而,与“逻辑推理”相关的关键技能仍未得到充分探索。现有的研究LLM这种推理能力的工作只集中在命题逻辑和一阶逻辑的几个推理规则(如模式子和模式子)上。针对上述局限性,我们综合评估了LLM在跨越命题逻辑、一阶逻辑和非单调逻辑的25种不同推理模式上的逻辑推理能力。为了实现系统评估,我们引入了LogicBench,这是一个专注于使用单个推理规则的自然语言问答数据集。我们使用思维链提示对GPT-4、ChatGPT、Gemini、Llama-2和Mistral等一系列LLM进行详细分析。实验结果表明,现有的LLM在LogicBench上表现不佳;尤其是,他们难以应对涉及复杂推理和否定的情况。此外,他们有时会忽略推理得出正确结论所需的上下文信息。我们相信,我们的工作和发现有助于未来研究评估和提高LLMs的逻辑推理能力。

1 引言

2 相关工作

3 LogicBench

4 结果和分析

5 结论

在这项工作中,我们评估了LLM在25种不同推理规则和推理模式上的逻辑推理能力ÿ

标签:Towards,Ability,LogicBench,能力,LLM,逻辑推理,推理,评估
From: https://blog.csdn.net/c_cpp_csharp/article/details/141553449

相关文章

  • Towards Mitigating ChatGPT’s Negative Impact on Education: Optimizing Question
    文章目录题目摘要引言概述实验结果结论和未来工作题目减轻ChatGPT对教育的负面影响:通过布鲁姆分类法优化问题设计论文地址:https://ieeexplore.ieee.org/document/10223662摘要    生成文本AI工具在回答问题方面的流行引发了人们对其可能对学生学业成......
  • 题解:P7020 [NWRRC2017] Boolean Satisfiability
    题目传送门题目大意给定一个由大小写字母(变量),|和~组成的布尔代数式,变量可以任意赋值为True或False。求对于给定的变量,有多少种赋值方案使得给定的代数式值为True。思路一个一个看,首先考虑|,先假设只有|,则当代数式中有一个变量为True时,代数式的值变为True。因为每一......
  • CVSS(Common Vulnerability Scoring System)打分规则解读
    CVSS(CommonVulnerabilityScoringSystem)提供了一种根据漏洞的主要特征进行打分,反映其严重性的方法。CVSS已成为被广泛使用的标准。下面是CVSS3.1版本计算器的界面截图,本文对BaseScore的打分标准做解读,并提供一些建议。同时会对每个维度选项做翻译。 AttackVector攻击向......
  • SciTech-Mathematics-Probability+Statistics-Relative Frequency Histogram: Definit
    RelativeFrequencyHistogram:Definition+ExampleBYZACHBOBBITTPOSTEDONFEBRUARY19,2020Ofteninstatisticsyouwillencountertablesthatdisplayinformationaboutfrequencies.Frequenciessimplytellushowmanytimesacertaineventhasoccurred.......
  • SciTech-Mathematics-Probability+Statistics-7 Steps to Mastering Statistics for D
    7StepstoMasteringStatisticsforDataScienceBYBALAPRIYACPOSTEDONJULY19,2024Astrongfoundationinstatisticsisessentialifyou’relookingtobecomeaskilleddatascientist.Fromanalyzingtrendsindatatobuildingpredictivemodelsandma......
  • SciTech-Mathematics-Probability+Statistics-7 Key Statistics Concepts
    7KeyStatisticsConceptsEveryDataScientistMustMasterBYBALAPRIYACPOSTEDONAUGUST9,2024Statisticsisoneofthemust-haveskillsforalldatascientists.Butlearningstatisticscanbequitethetask.That’swhyweputtogetherthisguidetoh......
  • SciTech-Mathematics-Probability+Statistics-[THREE types of Probability]{Subjecti
    THREEtypesofProbability:TheoreticalProbabilityEmpiricalProbabilitySubjectiveProbabilityBayes,EmpiricalBayesandModeratedMethodsEmpiricalandtheoreticalpriordistribution|TheBookof…https://www.khanacademy.org/math/cc-seventh-......
  • Unity匀速移动的几种方案 Lerp,SmoothDamp,MoveTowards
    速览Lerp用于插值,可以和协程配合用于移动。SmoothDamp是阻尼移动,从不超过。MoveTowards是匀速移动,也不会超过。 方案1,使用Lerp——先快后慢运动(线性衰减)(不好用✖)Lerp最简单的用法如下:voidUpdate(){transform.position=Vector3.Lerp(transform.position,endPos,Tim......
  • SciTech-Mathematics-Probability+Statistics-5StatisticalConcepts:
    5StatisticalConceptsThatOftenConfuseBeginners(AndHowtoUnderstandThem)BYNAHLADAVIESPOSTEDONAUGUST6,20245StatisticalConceptsThatOftenConfuseBeginners(AndHowtoUnderstandThem)Statisticsisn'tjustformathematiciansorscie......