ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Reasoning

标签：Mining Knowledge Language 图谱知识逻辑 LLM 规则 ChatRule

文章目录

题目

ChatRule：利用大型语言模型挖掘逻辑规则进行知识图推理
在这里插入图片描述

论文地址：https://arxiv.org/abs/2309.01538

摘要

逻辑规则对于揭示关系之间的逻辑联系至关重要，这可以提高推理性能并在知识图谱（KG）上提供可解释的结果。尽管人们已经做出了许多努力来挖掘知识图谱上有意义的逻辑规则，但现有的方法存在对规则空间的计算密集型搜索以及缺乏大规模知识图谱的可扩展性的问题。此外，他们经常忽略关系的语义，而这对于揭示逻辑联系至关重要。近年来，大型语言模型（LLM）由于其新兴能力和泛化性，在自然语言处理和各种应用领域表现出了令人印象深刻的性能。在本文中，我们提出了一种新颖的框架 ChatRule，释放大型语言模型的力量来挖掘知识图谱的逻辑规则。具体来说，该框架以基于LLM的规则生成器启动，利用知识图谱的语义和结构信息来提示LLM生成逻辑规则。为了细化生成的规则，规则排名模块通过合并现有知识图谱中的事实来估计规则质量。最后，规则验证器利用LLM的推理能力，通过思想链推理来验证排名规则的逻辑正确性。 ChatRule 在四个大型 KG 上进行评估，w.r.t. 不同的规则质量指标和下游任务，显示了我们方法的有效性和可扩展性。

引言

知识图（KG）以三元组的结构格式存储大量的现实世界知识。知识图谱推理旨在从现有事实中推断新知识，是知识图谱中的一项基本任务，对于许多应用程序至关重要，例如知识图谱补全、问答和推荐。近年来，对可解释的KG推理的需求越来越大，它可以帮助用户理解推理过程并提高高风险场景中的可信度，例如医疗诊断和法律判决。因此，人类可读且可以推广到不同任务的逻辑规则已被广泛用于知识图谱推理。例如，如图 1 所示，我们可以确定一个逻辑规则：GrandMother(X, Y ) ← Mother(X, Z) ∧ Father(Z, Y ) 来预测关系“GrandMother”的缺失事实。为了从 KG 中自动发现有意义的规则进行推理，逻辑规则挖掘已经引起了研究界的广泛关注。

早期的逻辑规则挖掘研究通常通过发现知识图谱结构中频繁模式的共现来发现逻辑规则。然而，它们通常需要枚举 KG 上所有可能的规则，并根据估计的重要性对它们进行排名。尽管如此，最近的研究提出使用深度学习方法对规则进行排序。它们仍然受到规则详尽列举的限制，无法扩展到大规模 KG。最近的一些方法通过从 KG 中采样路径并在其上训练模型来捕获形成规则的逻辑连接来解决这个问题。但是，他们通常忽略关系语义对于表达逻辑连接的贡献。例如，根据常识，我们知道一个人的“父亲”的“母亲”是他的“祖母”。基于此，我们可以定义一个规则：GrandMother(X, Y ) ← Mother(X, Z) ∧ Father(Z, Y ) 来表达逻辑联系。然而，由于 KG 中关系的数量，这可能会成为负担有些要求领域专家为每个关系注释规则。因此，有必要自动结合关系的结构和语义来发现知识图谱中的逻辑规则。ChatGPT1 和 BARD2 等大型语言模型 (LLM) 在理解自然语言和处理许多复杂任务方面表现出强大的能力。

在这里插入图片描述

LLM经过大规模语料库的训练，存储了大量常识知识，可用于促进知识图谱推理。同时，LLM并不是为了理解知识图谱的结构而设计的，因此很难直接应用它们来挖掘知识图谱的逻辑规则。此外，广泛承认的幻觉问题可能会使LLM产生毫无意义的逻辑规则。为了缩小 LLM 和逻辑规则挖掘之间的差距，我们提出了一种名为 ChatRule 的新颖框架，它利用 KG 的语义和结构信息来提示 LLM 生成逻辑规则。具体来说，我们首先提出一个基于 LLM 的规则生成器来为每个关系生成候选规则。我们从 KG 中采样一些路径来表示结构信息，然后将其用于精心设计的提示中，以利用 LLM 的功能进行规则挖掘。为了减少幻觉问题，我们设计了一个逻辑规则排序器来评估生成规则的质量，并通过包含知识图谱中观察到的事实来过滤掉无意义的规则。

质量分数进一步用于逻辑推理阶段，以减少低质量规则的影响。最后，为了消除由知识图谱支持但逻辑上不正确的虚假规则，我们利用LLM的逻辑推理能力，通过思想链（CoT）使用规则验证器来验证规则的逻辑正确性推理。在我们的框架中，挖掘的规则可以直接用于下游任务，无需任何模型训练。对四个大型知识图谱进行的大量实验表明，ChatRule 在知识图补全和规则质量评估方面均显着优于最先进的方法。本文的主要贡献总结如下：

我们提出了一个名为 ChatRule 的框架，该框架利用LLM的优势来挖掘逻辑规则。据我们所知，这是第一个将LLM应用于逻辑规则挖掘的工作。
我们提出了一个端到端的管道，利用LLM 的推理能力和KG 的结构信息来进行规则生成、规则排序和规则验证。
我们对四个数据集进行了广泛的实验。实验结果表明 ChatRule 显着优于最先进的方法。

逻辑规则挖掘逻辑规则挖掘专注于从知识图谱中提取有意义的规则，已经被研究了很长时间。传统方法枚举候选规则，然后通过计算权重分数来评估它们的质量。随着深度学习的进步，研究人员探索以可微分的方式同时学习逻辑规则和权重的想法。然而，这些方法仍然对规则空间进行大量优化，这限制了它们的可扩展性。最近，研究人员建议从 KG 中采样路径并在其上训练模型以学习逻辑连接。RLvLR从子图中对规则进行采样，并提出基于嵌入的评分函数来估计每个规则的重要性。 RNNLogic将规则生成和规则加权分开，可以相互增强并减少搜索空间。 R5提出了一种强化学习框架，可以启发式搜索知识图谱并挖掘潜在的逻辑规则。 RLogic和 NCRL预测规则体的最佳组成，是该领域最先进的方法。然而，他们没有考虑关系的语义，并可能导致次优结果。

许多LLM和LLaMA在各种任务中都表现出了强大的能力。最近，研究人员还探索了应用LLM来解决知识图谱任务的可能性。为了更好地发挥LLM的潜力，研究人员设计了一些带有少量示例或链式推理的提示，以最大限度地发挥他们的能力。然而，这些方法并不是为逻辑规则挖掘而设计的，这要求LLM理解知识图谱的结构和关系的语义，以生成有意义的规则。初步和问题定义知识图（KG）以三元组形式表示事实的集合 G = {(e, r, e′ ) ⊆ E × R × E}，其中 e，e′ ∈ E 和 r ∈ R 分别表示实体和关系的集合。逻辑规则是一阶逻辑的特例，它可以促进知识图谱的可解释推理。逻辑规则 ρ 以下列形式表述逻辑含义
在这里插入图片描述
其中 body(ρ) := r1(X, Z1) ∧ · · · ∧ rL(ZL−1, Y ) 表示称为规则体的一系列关系的合取，rh(X, Y ) 表示规则头， L表示长度规则。如果规则体上的条件满足，则规则头上的语句也成立。该规则的实例是通过将变量 X、Y、Z* 替换为 KG 中的实际实体来实现的。例如，给定一条规则 GrandMother(X, Y ) ← Mother(X, Z1) ∧ Father(Z1, Y )，一个规则实例 δ 可以是
在这里插入图片描述

这意味着如果爱丽丝是鲍勃的母亲，鲍勃是查理的父亲，那么爱丽丝是查理的祖母。
问题定义。给定一个目标关系 rh ∈ R 作为规则头，逻辑规则挖掘的目标是找到一组有意义的规则 Prh = {ρ1, · · · , ρK} 捕获其他关系的逻辑联系来表达目标关系rh 在知识图谱里。

在这里插入图片描述

ChatRule的整体框架。 1）我们首先从给定目标关系 rh 的知识图中采样一些规则实例。 2）我们提示大型语言模型（例如ChatGPT）生成一组粗略的候选规则。 3）我们提出了一个规则排序器来根据知识图谱中的事实来估计生成规则的质量。 4）我们用链式推理验证排序规则的逻辑正确性。 5）最终规则可用于逻辑推理和解决下游任务，例如知识图补全。

方法

我们将介绍所提出的框架，称为 ChatRule，用于使用大型语言模型挖掘知识图谱的逻辑规则。整体框架如上图所示，其中包含三个主要组件：1）基于 LLM 的规则生成器，它利用语义和结构信息来生成有意义的规则。 2) 规则排序器，用于估计知识图谱上生成的规则的质量；3) 思想链 (CoT) 规则验证器，用于验证规则的逻辑正确性。基于LLM的规则生成器关于逻辑规则挖掘的传统研究通常集中于使用结构信息，忽略了关系语义对于表达逻辑连接的贡献。为了利用大型语言模型（LLM）的语义理解能力，我们提出了一种基于 LLM 的规则生成器，它利用知识图谱的语义和结构信息来生成有意义的规则。

规则采样器为了使LLM能够理解用于规则挖掘的KG结构，我们采用广度优先搜索（BFS）采样器从KG中采样一些闭合路径，这些闭合路径可以被视为逻辑规则的实例。给定一个三元组 (e1, rh, eL)，闭合路径定义为在 KG 中连接 e1 和 eL 的关系序列 r1, · · ·, rL，即 e1 r1 −→ e2 r2 −→ · · · rL → eL。例如，给定一个三元组（Alice、GrandMother、Charlie），闭合路径 p 可以如下找到： p := Alice Mother −−−−→ Bob Father −−−−→ Charlie，闭合三元组 (爱丽丝、祖母、查理）在幼儿园。将三元组作为规则头，将闭合路径作为规则体，可以得到如上式所示的规则实例δ。

给定一个目标关系rh，我们首先从KG中选择一组种子三元组{(e, rh, e′)}，从中进行BFS采样一组长度小于L的闭合路径{p}，构成一组规则实例{δ}。接下来，我们用变量替换规则实例中的实际实体，以获得规则样本 Srh = {ρ}。规则样本以顺序格式传达知识图谱的结构信息，可以将其输入到大语言模型中以方便规则生成。基于LLM的规则生成在大规模语料库上训练的大型语言模型（LLM）表现出理解自然语言语义并利用常识知识进行复杂推理的能力。合并结构和语义信息，我们设计了一个精心设计的提示，以利用LLM的能力进行规则挖掘。
在这里插入图片描述

对于目标关系 rh 的规则采样器获得的 Srh 中的每条规则，我们通过删除关系名称中的特殊符号将其语言化为自然语言句子，这可能会降低 LLM 的语义理解。对于原始关系的逆关系（即wife−1），我们通过添加“inv”符号来表达它。然后，我们将语言化的规则样本放入提示模板中，并将它们输入到 LLM（例如 ChatGPT）中以生成规则。下图显示了关系“husband(X,Y)”的规则生成提示和LLM结果的示例。基于LLM的规则总结由于规则样本数量巨大，它们无法同时输入LLM，因为超出了上下文限制。因此，我们将规则样本拆分为多个查询，以提示 LLM 生成规则。然后我们收集LLM的回答，并要求LLM总结结果并得到一组候选规则 Crh = {ρ}。

逻辑规则排名LLM因存在幻觉问题而闻名，这可能会产生不正确的结果。例如，生成的规则 hub(X, Y ) ← hub(X, Z 1) & brothers(Z 1, Y )是不正确的。因此，我们开发了一个规则排序器来检测幻觉并根据知识图谱中的事实估计生成规则的质量。规则排序器旨在为候选规则集 Crh 中的每个规则 ρ 分配质量分数 s(ρ)。激励在之前的规则挖掘工作中，我们采用四种衡量标准，即支持度、覆盖度、置信度和 PCA 置信度来评估规则的质量。每项措施的详细介绍和示例可以在附录中找到。支持度表示 KG 中满足规则 ρ 的事实数量，定义为在这里插入图片描述

其中 (e1, r1, e2), · · · ,(eL−1, rL, e′ ) 表示 KG 中满足规则体 body(ρ) 的一系列事实，(e, rh, e′ ) 表示事实满足规则头 rh。显然，支持度为零的规则可以轻松地从候选集中删除，而无需任何进一步的细化。然而，支持度是一个绝对数字，对于知识图谱中事实越多的关系来说，支持度可能会更高，并提供有偏差的排名结果。覆盖率通过知识图谱中每个关系的事实数量对支持进行标准化，定义为

在这里插入图片描述

覆盖率量化了规则 ρ 隐含的 KG 中现有事实的比率。为了进一步考虑规则的错误预测，我们引入置信度和PCA置信度来估计规则的质量。置信度定义为KGs中满足规则ρ的事实数量与满足规则体body(ρ)的次数之比，定义为
在这里插入图片描述
置信度假设从规则体导出的所有事实都应包含在 KG 中。然而，实践中知识图谱往往不完整，可能导致证据事实的缺失。因此，我们引入 PCA 置信度来选择可以更好地推广到未见事实的规则。PCA Confidence定义为部分完成KG中满足规则ρ的事实数量与满足规则体body(ρ)的次数之比，定义为在这里插入图片描述

PCA 置信度的分母不是从规则体导出的整组事实的大小。相反，它基于我们知道的真实事实和我们认为错误的事实的数量。因此，PCA 置信度可以更好地估计不完整知识图谱中规则的质量和泛化性。规则质量评估的实验结果也支持这一说法。

在这里插入图片描述

实验

规则验证的 CoT 推理在逻辑规则排序之后，我们获得目标关系 rh 的一组排序规则 Rrh = {(ρ, s(ρ))}。虽然我们可以修剪零支持的规则来提高生成规则的质量，但值得注意的是，知识图谱中可能存在噪音，可能导致虚假规则的出现。这些规则似乎得到知识图谱中事实的支持，但在逻辑上是错误的，这可能导致下游任务中的错误预测。因此，我们利用LLM的推理能力，通过思想链（CoT）推理来验证规则的逻辑正确性。对于每条规则 ρ ∈ Rrh ，我们将其输入到 CoT 提示模板中，并要求 LLM 验证其逻辑正确性。图 4 显示了排序后具有 8 个支持的伪规则示例。验证完成后，我们可以自动去除虚假规则，得到最终的规则 Prh。
在这里插入图片描述

基于规则的逻辑推理最终规则可用于逻辑推理和解决下游任务，例如通过应用前向链接等现有算法来完成知识图。给定一个查询 (e, rh, ?)，令 A 为候选答案集。对于每个 e ′ ∈ A，我们可以应用 Prh 中的规则来获得分数在这里插入图片描述

其中body(ρ)(e, e′)表示知识图谱中满足规则体的路径，s(ρ)表示规则的质量得分，可以是收敛性、置信度和PCA置信度。然后，我们可以根据分数对候选答案A进行排序，并选择前N个答案作为最终结果。

基在实验中，我们根据之前的研究选择了四个广泛使用的数据集：Family、WN18RR、FB15K237和YAGO3-10。数据集的统计数据总结于下表中。我们将我们的方法与 SOTA 规则挖掘基线进行比较：AIME 、NeuralLP、DRUM 、RNNLogic、RLogic 和 NCRL，关于知识图补全和规则质量评估任务。对于知识图完成任务，我们屏蔽每个测试三元组的尾部或头部实体，并使用每种方法生成的规则来预测它。继之前的研究之后，我们使用平均倒数排名（MRR）和hits@N作为评估指标，并将N设置为1和10。对于规则质量评估任务，我们使用上一节中关于规则排名讨论的度量（例如，支持度、覆盖率、置信度和 PCA 置信度）。
在这里插入图片描述

实验设置对于ChatRule，我们分别使用ChatGPT1和GPT-43作为规则生成和验证的LLM。我们选择 PCA 置信度作为最终的规则排名度量，并将最大规则长度 L 设置为 3。在知识图补全任务中，我们遵循与之前研究相同的设置。因此，我们直接使用这些论文中报告的结果以避免重新实现偏差。有关设置的详细讨论可以在附录中找到。知识图补全知识图补全是一项经典任务，旨在通过使用基于规则的逻辑推理来预测缺失的事实。该任务已被各种现有的规则挖掘方法采用，例如 Neural-LP、RLogic 和 NCRL来评估规则挖掘的质量生成的规则。我们采用每种方法生成的规则，并使用前向链接来预测缺失的事实。结果如表上所示。

从结果中，我们可以观察到 ChatRule 在所有数据集上始终优于基线。具体而言，传统方法AIME仅利用结构信息进行归纳逻辑编程，已经取得了较好的性能。但是，由于关系和三元组数量不断增加，AIME 在大规模 KG中失败了。最近基于深度学习的方法利用神经网络的能力获得更好的性能。然而，由于规则搜索空间的密集性，它们在处理大型知识图谱时很容易出现内存不足的情况。通过最先进的方法对近距离路径采样来减少搜索空间，它们仍然忽略关系的语义，从而导致性能不佳。相比之下，ChatRule 可以通过结合 KG 的结构和语义信息来生成高质量的规则。因此，ChatRule 可以在所有数据集上实现最佳性能。规则质量评估为了进一步证明规则排名中采用的四种衡量标准（即支持度、覆盖率、置信度和PCA置信度）的有效性，我们使用它们来评估每种方法生成的规则。结果如表上所示。
在这里插入图片描述

从结果中，我们可以观察到 ChatRule 可以生成比基线具有更高支持度、覆盖率和置信度的规则。具体来说，我们可以观察到这些度量的分数与知识图谱补全的表现一致。这表明所选择的度量可以很好地量化规则的质量。此外，ChatRule 生成的规则质量优于基线。值得注意的是，即使 ChatRule (ChatGPT) 在 YAGO3-10 的支持度和覆盖率方面取得了更高的分数，其知识图谱补全结果仍然不敌 ChatRule (GPT-4)。原因是ChatRule（GPT-4）生成的规则具有更好的PCA置信度，更适合评估不完整KG中的规则。较高的 PCA 置信度分数表明 ChatRule (GPT-4) 可以生成具有更好泛化性的规则，而不是仅依赖于采样的规则提示中提供。因此，ChatRule（GPT-4）在知识图补全任务中可以取得更好的性能。

在这里插入图片描述

消融研究

每个成分的分析。我们首先测试ChatRule中每个组件的有效性。我们使用 GPT-4 作为 LLM，使用 PCA 置信度作为规则排名衡量标准。结果如上表所示。GPT（零样本）表示我们直接使用GPT-4来生成规则，而不需要任何规则样本。规则样本、摘要、排名和验证分别表示 ChatRule 中提出的组件。从结果中我们可以观察到，通过添加各个组件，ChatRule的性能逐渐提高。具体来说，通过添加规则样本，ChatRule的性能得到了显着提高，这证明了合并图结构信息对于规则挖掘的重要性。通过应用汇总、排名和验证，ChatRule 的性能进一步提高。这表明这些组件可以进一步细化规则并提高ChatRule的性能。

排名措施分析。然后，我们测试规则排名中采用的每个措施（即覆盖率、置信度和 PCA 置信度）的有效性。这些规则都是由 GPT-4 在 Family 和 WN18RR 数据集上生成的。结果如上表所示。从结果中，我们可以看到，与没有排名措施（即无）相比，通过应用排名措施，ChatRule的所有性能都得到了提高。这表明排名措施可以有效减少低质量规则的影响。 PCA 置信度在所有排名指标中表现最好。这表明PCA置信度能够量化不完整知识图谱中规则的质量，并选择具有更好泛化性的规则，这也被选为最终的排名指标。

CoT 验证分析。在实验中，我们评估了使用不同的 LLM（例如 ChatGPT 和 GPT-4）进行 CoT 规则验证的性能。这些规则都是由 GPT-4 在 Family 和 WN18RR 数据集上生成的。结果如上表所示。从结果中我们可以看到GPT4比ChatGPT取得了更好的性能。这个指出GPT-4具有更好的逻辑推理能力，可以识别隐含的逻辑联系并检查规则的有效性。

我们在上表中展示了在 Family 和 Yago 数据集上生成的一些逻辑规则。结果表明，我们的方法生成的规则既可解释又具有高质量。例如，“妻子”直观上是“丈夫”的逆关系，在考虑关系语义的情况下，ChatRule 成功地挖掘出了规则“丈夫← inv 妻子”。类似地，“playsFor”是“isAffiliatedTo”的同义词，构成了规则playsFor←isAffiliatedTo。生成的规则还揭示了隐含的逻辑连接。规则 isPoliticianOf ← hasChild∧isPoliticianOf 表示孩子通常会继承父母的政治立场，这得到了支持度和 PCA 分数的支持。

一个主要的局限性是 ChatRule 严重依赖于关系的语义。即使我们提供采样规则来促使LLM理解图结构，如果没有明确给出关系的语义，LLM仍然无法生成高质量的规则。如下表所示，我们展示了 Kinship 数据集上的知识图补全结果，其中每个关系都由一个模糊的名称表示。从结果中我们可以看出，ChatRule 无法优于 STOA 方法。

在这里插入图片描述

未来，我们将探索一种更好的方法，使LLM能够理解图结构并生成高质量的规则，即使没有语义。在本文中，我们引入了一种称为 ChatRule 的新方法，用于弥补 KG 逻辑规则挖掘的差距。在 ChatRule 中，我们提出了一个基于 LLM 的规则生成器，它结合了语义和结构信息来生成有意义的规则。此外，还开发了规则排序器和 CoT 规则验证器来评估规则的质量并消除不正确的规则。广泛的对多个数据集的实验表明 ChatRule 可以为下游任务生成高质量且可解释的规则。未来，我们将探索集成先进模型，以增强LLM对结构信息的理解，提高规则挖掘的性能。

标签：Mining,Knowledge,Language,图谱,知识,逻辑,LLM,规则,ChatRule
From： https://blog.csdn.net/weixin_43961909/article/details/140577039

ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Reasoning

文章目录

题目

摘要

引言

方法

实验

消融研究

相关文章

赞助商

阅读排行