大语言模型(LLMs)近年来在自然语言处理领域掀起了一场革命。它们在预训练和指令微调过程中获得的事实知识,为问答、语言生成等下游任务带来了显著的性能提升。然而,与传统的知识库不同,LLMs是以隐式的方式将事实存储在模型参数中。这种方式可能导致LLMs生成的内容出现不准确或与事实不符的情况,因为某些事实可能被错误地推导出来,或者随着时间的推移变得过时。
为了系统地评估LLMs的事实知识及相关推理能力,研究人员开发了Pinocchio基准测试集。这个测试集包含20,713个多项选择题,涵盖了7个不同难度的任务,旨在全面检验LLMs在事实知识方面的表现。