Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs

时间：2024-07-19 11:30:50浏览次数：18

标签：Scale Knowledge 图谱测试数据 Large LLM 评估 GraphEval

本文是LLM系列文章，针对《Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs》的翻译。

使用大规模知识图谱评估大型语言模型的真实性

摘要
1 引言
2 相关工作
3 方法
4 实验
5 结论

摘要

大型语言模型（LLMs）的出现极大地改变了人工智能的格局，增强了机器学习和人工智能的能力。事实性问题是LLM的一个关键问题，因为它们可能会产生与事实不符的回答。在这篇论文中，我们提出了GraphEval来使用一个相当大的测试数据集来评估LLM的性能。具体来说，测试数据集是从一个包含1000多万个事实的大型知识图谱中检索出来的，无需付出昂贵的人力。与基于生成的响应评估LLM的传统方法不同，GraphEval通过创建判断模型来估计LLM给出的答案的正确性，从而简化了评估过程。我们的实验表明，法官模型的真实性评估与LLM生成的输出的正确性密切相关，同时也大大降低了评估成本。此外，我们的研究结果为不同指标的LLM绩效提供了宝贵的见解，并强调了未来在确保LLM产出的事实完整性方面进行改进的潜力。该代码可在以下网址公开获取https://github.com/xz-liu/GraphEval.

1 引言

2 相关工作

3 方法

4 实验

5 结论

我们介绍GraphEval，这是一种创新的方法，用于评估LLM对大量测试数据集的有效性，这些数据集来自包含1000多万个事实的广泛知识图谱，大大减少了昂贵的人为干预的必要性。GraphE

标签：Scale,Knowledge,图谱,测试数据,Large,LLM,评估,GraphEval
From： https://blog.csdn.net/c_cpp_csharp/article/details/140544334

SELF-DEMOS: Eliciting Out-of-Demonstration Generalizability in Large Language Mo
本文是LLM系列文章，针对《SELF-DEMOS:ElicitingOut-of-DemonstrationGeneralizabilityinLargeLanguageModels》的翻译。SELF-DEMOS：在大型语言模型中引入非演示泛化能力摘要1引言2相关工作3方法4实验5讨论6结论局限性摘要大型语言模型（LLM）已经显......
大语言模型（Large Language Models, LLMs）是否需要进行数据校正
大语言模型（LargeLanguageModels,LLMs），如GPT-3，并不总是免于数据校正的过程。实际上，即使是这些大语言模型，在数据预处理中也会涉及到一定的处理和调整。以下是为什么大语言模型在某些情况下不需要明显的批效应校正，同时在某些情况下仍然需要数据校正的原因：为什么大语言模型不需要显......
大语言模型无法理解链表 Large Language Models Fails to Understand Chained Table[u
大模型可以翻转链表，但是只能翻转单个元素链表。一但牵扯到分组操作，就不会了。Case:以K个元素为一组位翻转链表，每一组内部元素顺序不变。ReversethechainedtableingroupofKelements,don'tchangetheorderineachgroup. Handwritten: 1classNode():2......
TimescaleDB时间序列数据库
TimescaleDB:这是一款支持完整sql开源的时间序列数据库。用处1、数据量庞大2、只做时间索引类的插入3、很少更新数据TimescaleDB的好处：基于时序优化自动分片（自动按时间、空间分片(chunk)）全SQL接口支持垂直于横向扩展支持时间维度、空间维度自动分区。空间维度指属性字......
ATTACKS ON THIRD-PARTY APIS OF LARGE LANGUAGE MODELS
本文是LLM系列文章，针对《ATTACKSONTHIRD-PARTYAPISOFLARGELANGUAGEMODELS》的翻译。对大型语言模型第三方api的攻击摘要1引言2提出的流水线3实验4结论摘要大型语言模型（LLM）服务最近开始提供一个插件生态系统来与第三方API服务交互。这项创新增强了LLM的能......
使用ScaleBar调整CAD设计的尺寸-devDept EyeShot 2024.2
使用新的ScaleBar调整CAD设计的尺寸2024年7月10日devDeptSoftware的EyeShot2024.2提供了一个屏幕标尺，用于实时尺寸估算，从而消除了初始设计阶段的猜测。devDeptSoftware的Eyeshot可让您将强大的CAD功能集成到.NET应用程序中。......
Gitlab上传大文件报错 Too Large
Gitlab上传超过1G文件报错gitpushwarning:redirectingtohttp://192.168.3.215/ai/invalid_detection_model.git......
MySQL导入数据库报错#1118 - Row size too large ( 8126). 的解决方法
导入SQL文件时报错（在执行创建表或者增加字段时，发现rowsize长度过长，会导致出现以下错误）[ERR]1118-Rowsizetoolarge(>8126).ChangingsomecolumnstoTEXTorBLOBorusingROW_FORMAT=DYNAMICorROW_FORMAT=COMPRESSEDmayhelp.Incurrentrowformat,BLOBprefix......
Prompt Selection and Augmentation for Few Examples Code Generation in Large Lang
本文是LLM系列文章，针对《PromptSelectionandAugmentationforFewExamplesCodeGenerationinLargeLanguageModelanditsApplicationinRoboticsControl》的翻译。大语言模型中少数示例代码生成的提示选择与增强及其在机器人控制中的应用摘要1引言2相......
Securing Large Language Models: Threats, Vulnerabilities and Responsible Practic
本文是LLM系列文章，针对《SecuringLargeLanguageModels:Threats,VulnerabilitiesandResponsiblePractices》的翻译。保护大型语言模型：威胁、漏洞和负责任的做法摘要1引言2背景3LLM的安全和隐私问题4对抗性攻击和LLM漏洞5LLM的风险和失误6风险缓解策......