Contextualization Distillation from Large Language Model for Knowledge Graph Completion

标签：Completion Knowledge Language 模型三元组 KGC LLM 生成我们

文章目录

题目

用于知识图完成的大型语言模型的语境化提取

在这里插入图片描述

论文地址：https://aclanthology.org/2024.findings-eacl.32/
项目地址：https://github . com/davidli 0406/context ulization-Distillation

摘要

虽然文本信息显著增强了预训练语言模型(PLM)在知识图完成(KGC)中的性能，但是从维基百科文章或同义词集定义中收集的现有语料库的静态和噪声性质通常限制了基于PLM的KGC模型的潜力。为了克服这些挑战，我们引入了语境化提取策略，这是一种通用的即插即用方法，与区分性和生成性KGC框架兼容。我们的方法首先指示大型语言模型(LLM)将紧凑的结构三元组转换成上下文片段。随后，我们引入了两个定制的辅助任务——重建和语境化——允许较小的KGC模型从这些丰富的三元组中吸收见解。跨不同数据集和KGC技术的综合评估突出了我们方法的有效性和适应性，揭示了一致的性能增强，无论底层管线或架构如何。此外，我们的分析使我们的方法更容易解释，并提供了深入了解生成路径选择，以及选择合适的蒸馏任务。该工作中的所有代码和数据将在https://github . com/davidli 0406/context ulization-Distillation

简介

知识图完成(KGC)是自然语言处理(NLP)中的一项基本任务，旨在揭示多样化知识图中隐藏的洞察力，以探索新颖的知识模式。传统的KGC方法(Nickel等人，2011年；Bordes等人，2013年)通常通过基于结构信息学习每个实体和关系的表示来预测三元组的缺失部分。然而，这种基于嵌入的方法往往会忽略知识图的形成。因此，预训练语言模型(PLM)已被引入KGC，并取得了可喜的成果(Kenton and Toutanova，2019；谢等，2022)。

在这里插入图片描述

表1: ChatGPT和PaLM2在FB15k-237N的测试集上与较小的模型KG-相比的不令人满意的性能(Chen等人，2022a)。

在这里插入图片描述

图1:说明KGC当前文本信息局限性的例子。

众所周知，文本信息对基于PLM的KGC模型是有益的(姚等，2019；王等；陈等，2022a李等，2022；Chen等人，2023a)，先前尝试用来自维基百科文章(Zhong等人，2015)或synsets定义(Yao等人，2019)的文本数据来扩充模型遇到了某些限制:(I)实体描述通常简洁且静态，可能抑制对模型内实体的全面理解的形成。(ii)三联体描述的结合，尽管可能丰富，但可能引入大量噪声，特别是当通过自动实体比对获得时(Sun等人，2020)。图1展示了一个例子来说明上述限制。对片头" J. G. Ballard "的描述是有限的，而对片尾"上海"的描述，它错误地使用了电影"上海"的定义。此外，虽然这两个实体出现在三联体描述中，但它没有传达关系“出生地”的语义本质。

鉴于这些限制，我们的注意力转移到大型语言模型(LLM)(布朗等人，2020；张等，2022；阿尼尔等人，2023；Touvron等人，2023)，因其生成清晰和高质量数据的能力而闻名(戴等人，2023；Shridhar等人，2023年；郑等，2023)。我们的探索从仔细评估LLM开始，如KGC的ChatGPT和PaLM2，在几个受尊敬的KGC数据集上对它们进行基准测试(Dettmers等人，2018；加西亚-杜兰等人，2018；Mahdisoltani等人，2013年)。利用一次性上下文学习(ICL)，我们推导出三元组中缺失的头或尾，并报告评估指标。与KGS2S (Chen等人，2022a)相比，它揭示了两种LLM的显著性能差异，尽管它依赖于较小的基础模型T5-base (Raffel等人，2020)。这种见解促使我们得出这样的结论:直接利用LLM完成KGC任务虽然直观，但通过对更小、更专业的KGC模型进行微调，效果会更好。这一观察结果与梁等人的发现一致(2022);孙等(2023)；赵等(2023)；Wei等人(2023)强调了逻辑推理模型在以知识为中心的任务中的局限性。在更多KGC数据集上的实验结果和分析可以在附录a中找到

为了更好地利用的LLM，我们从最近的作品中获得灵感(向等，2022；Kim等人，2022a)并介绍了一种新方法，语境化提取。语境化提取首先使用设计良好的提示从LLM中提取描述性的语境，从而为每个实体和三元组获得动态的、高质量的语境。在此之后，提出了两个辅助任务来用这些信息丰富的描述性上下文训练较小的KGC模型。我们的情境化提取的即插即用特性使我们能够在各种KGC数据集和基线模型上应用和评估它。

通过大量的实验，我们确认，无论架构和管道的差异如何，情境化提取始终如一地增强了较小KGC模型的性能。此外，我们提供了一个详尽的分析，每一步的语境化蒸馏，鼓励进一步的见解和说明。这项工作的贡献可以归纳为三个主要方面:

我们确定了当前语料库对基于PLMs的KGC模型的限制，并引入了一种即插即用的方法，即情境化提取，以通过从LLMs中提取的基本原理来增强较小的KGC模型。
我们在几个被广泛认可的KGC数据集上进行了大量实验，并利用了各种基线模型。通过这些实验，我们验证了情境化提取在持续改进较小的KGC模型中的有效性。
我们对我们提出的方法进行了全面的分析，并为生成蒸馏路径选择以及选择合适的蒸馏任务提供了有价值的见解和指导。

语境化提取

在这一节中，我们首先说明如何从LLM中提取每个三元组的描述性语境。随后，我们设计了一个多任务框架，以及两个辅助任务——重建和语境化——用这些高质量的语境语料训练较小的KGC模型。我们方法的总体流程如图2所示。

在这里插入图片描述

图3:一个例子包含了我们对LLMs的指令和生成的描述性上下文。我们用绿色突出显示实体描述提示/生成结果，用蓝色突出显示三元组描述提示/生成结果。

从LLM中提取描述性上下文最近的研究强调了LLM将结构数据置于上下文中并将其转换为上下文丰富的片段的显著能力(Xiang等人，2022；金等人，2022年a)。在这里，我们借用他们的见解，从LLMs中提取描述性上下文，以解决我们在第1节中提到的现有KGC语料库的局限性。

具体而言，我们重点关注现有方法中普遍采用的两种常用类型的描述:实体描述(ed)(姚等，2019；陈等，2022a)和三联体描述(TD)(孙等，2020)。实体描述是指单个实体的定义和描述，而三元组描述是指反映三元组内两个实体之间特定关系的文本段。给定知识图ti ∈ T的三元组，我们首先通过填充预定义的模板为第I个三元组挑选提示pi: pi = Template(hi，ri，ti)，(1) ，其中hi，ri，ti是第I个三元组的头实体、关系和尾实体。然后，我们使用pi作为输入来提示LLM为每个三元组生成描述性上下文ci: ci = LLM(pi)，(2) 。

生成路径在不损失概括的情况下，我们考虑不同的生成路径来指示LLM生成文本信息并在4.3节中进行消融研究。我们采用的所有生成路径如下:T →( ED，T D)同时生成实体描述和三元组描述。如图3所示，这是我们在主实验中使用的上下文生成路径。

t ----策展提示指示LLM仅生成实体描述。
T→T D cures提示指示LLM仅生成三元组描述。
t→RA提示LLM生成基本原理，而不是描述性上下文。
T→ED→T D分两步产生实体描述和三元组描述。通过连接两个文本片段获得最终的描述性上下文。

我们还在附录f中给出了提示的更多细节和示例。

具有描述性上下文的多任务学习不同的基于PLM的KGC模型采用了不同的损失函数和流水线架构(姚等，2019；陈等，2022a谢等，2022；陈等，2023a)。为了确保我们的情境化提取在各种基于PLM的KGC方法中应用的兼容性，我们为这些模型设计了一个多任务学习框架，以从KGC任务和辅助的描述性情境任务中学习。对于辅助任务，我们分别为判别性和生成性KGC模型设计了重构(3.3.1节)和情境化(3.3.2节)。

重建重建任务旨在训练模型以恢复被破坏的描述性上下文。对于区别性KGC模型，我们遵循Kenton和Toutanova (2019)的实现，并使用掩蔽语言建模(MLM)。先前的研究已经证实，特定领域语料库中的这种辅助自监督任务可以有益于下游应用(韩等人，2021；王等，2021b)。

具体来说，MLM在描述性上下文中随机识别15%的标记。在这些记号中，80%被特殊记号“< M ask >”战术性隐藏，10%被随机记号无缝替换，剩下的10%保持不变。对于每个选定的标记，MLM的目标是通过交叉熵损失恢复特定位置的原始内容。上述过程可以正式表示如下: 在这里插入图片描述，判别KGC模型的最终损失是KGC损失1和建议的重建损失的组合:其中，α是一个超参数，用于控制两个损耗之间的比率。

上下文化上下文化的目标是当提供原始三元组ti = h，r，t时，指示模型生成描述性上下文ci。与重构相比，情境化要求PLM具备更加细致和复杂的能力。这使得PLM有必要精确地把握所涉及的两个实体的含义以及将它们结合在一起的内在关系，以生成流畅而准确的描述。具体来说，我们用一个特殊的标记“< Sep >”作为输入来连接头、关系和尾: 在这里插入图片描述，然后，我们将它们输入到创成式PLM中，并训练模型使用交叉熵损失生成描述性上下文ci:，生成性KGC模型的最终损失是KGC损失2和提议的语境化损失的组合:。对于生成式KGC模型，将重建作为辅助任务也是适用的。我们已经在第4.5节中进行了消融研究，以检验在生成式KGC模型上每个辅助任务的有效性。

实验

在这一部分，我们在一系列基于PLM的KGC基线上应用我们的情境化提取。我们使用几个KGC数据集将我们的增强模型与我们的方法与标准模型进行了比较。此外，我们对情境化提取中的每个组成部分做了进一步的分析，并通过案例研究使我们的方法更容易解释。

实验设置数据集我们在实验中使用了WN18RR (Dettmers等人，2018)和FB15k-237N (Lv等人，2022)。WN18RR是其相应对应物WN18的增强版本(Bordes等人，2013年)。这些改进包括移除所有反向关系，以防止潜在的数据泄漏。对于FB15K-237N，它是FB15k (Bordes等人，2013年)的细化版本，通过消除源于游离基介体节点(Akrami等人，2020年)的级联关系来避免笛卡尔产生关系问题。

基线我们采用几个基于PLM的KGC模型作为基线，并对它们应用提出的情境化提取。KG-BERT (Yao等人，2019)是第一个建议将PLMs用于任务的人。我们还考虑了CSPromKG (Chen等人，2023a)，它将PLMs与传统的知识图嵌入(KGE)模型相结合，在实现了效率和性能之间的平衡。除了这些判别模型，我们还利用生成KGC模型。GenKGC(谢等，2022)是第一个以序列对序列的方式完成KGC的，以微调的BART (Lewis等，2020)为其骨架。随后，KGS2S (Chen等人，2022a)采用软提示调谐，并在生成式模型中产生了新的性能。

在这里插入图片描述
表2:在WN18RR和FB15k-237上的实验结果。*表示我们从陈等人(2022a)获得的结果。后缀为“-CD”的方法表示应用了我们的上下文化提取的基线模型。每个指标的最佳结果以粗体显示。

实现细节我们所有的实验都是在单个GPU (RTX A6000)上进行的，使用的是CUDA版本11.1。我们使用PaLM2-540B(Anil等人，2023年)作为大型语言模型来提取描述性上下文。我们调整上下文化蒸馏超参数α ∈ {0.1，0.5，1.0}。我们遵循原始论文中的超参数设置来重现每个基线的结果。对于所有数据集，我们遵循以前的工作(陈等，2022a，2023a)和报告平均倒数排名()，命中数@1，命中数@3和命中数@10。关于我们的实验实现和数据集统计的更多细节显示在附录c中。

主要结果表2显示了我们在WN18RR和FB15k-237N上的实验结果。我们观察到，我们的情境化提取始终如一地增强了所有基线方法的性能，不管它们是基于生成模型还是判别模型。这毫不动摇改进证明了我们的方法在各种基于PLMs的KGC方法中的鲁棒性和兼容性。

此外，我们选择用来实现上下文化提取的一些基线也利用了上下文信息。例如，KGBERT和CSProm-KG都采用实体描述来增强实体嵌入表示。尽管如此，我们的方法设法对这些基于上下文的基线进行了额外的改进。其中，值得注意的是，我们的方法在KG-BERT上的应用在MRR实现了31.7%的整体提升。所有这些发现使我们得出结论，语境化提取不仅与基于语境的KGC模型兼容，而且能够进一步提高它们的性能。

生成路径的消融研究我们通过采用各种生成路径来研究不同上下文类型在提取过程中的功效。如表3所示，我们首先探讨了实体描述和三元组描述分别用作辅助语料库(T→ED和T→T D)时的影响。实验结果强调了实体描述和三元组描述作为蒸馏语料库的关键作用，导致较小KGC模型的性能显著提高。此外，我们确定我们的方法的生成路径T →( ED，T D ),利用这两个语料库，通过赋予模型更全面和更丰富的信息来源，实现了更多的改进。

在这里插入图片描述
表3:采用不同生成路径从LLM中提取语料的GenKGC消融研究结果。我们使用FB15k-237N进行实验。我们在第一行添加vallina GenKGC进行比较。

为了全面了解我们的语境化提炼的有效性，我们还探索了其他替代的生成路径。而基本原理提炼已经证明了它在各种NLP任务中的潜力(Hsieh等人，2023；Shridhar等人，2023)，我们的研究深入到T→RA路径，其中我们指示LLM为每个训练样本生成推理。尽管与传统模型相比，利用基本原理提取的模型表现出了改进的性能，但是与我们的上下文化提取合并实体相比，它还是有所欠缺描述和三元组描述。这种差异的一个合理解释在于理性的内在本质，这往往是错综复杂和结构复杂的。与我们的方法中使用的更直接的描述性文本相比，这种复杂性对更小的模型完全理解构成了更大的挑战。

T→ED→T D借用了CoT链(Wei等人，2022)的观点，逐步生成内容。有趣的是，我们的发现表明，与单步生成路径相比，这种多步生成路径也产生了次优的性能。这种差异可归因于由三段描述串联而成的文本不连贯。根据从这些观察中获得的见解，我们将KGC的提炼指南总结如下:较小的模型可以从LLM生成的全面的、描述性的和连贯的内容中受益更多。

在这里插入图片描述
表4 GenKGC的消融研究结果，其中描述性内容由我们的方法生成，并由钟等人(2015)收集。在这一节中，我们用(钟等，2015)收集的维基百科语料库替换辅助任务中使用的辅助语料库，以研究提取的有效性。如表4所示，虽然维基百科语料库的辅助任务提高了模型的性能，但总体增强不如我们的语境化提取带来的显著。这进一步证明了由大型语言模型生成的语料库有效地解决了先前用于KGC的语料库的局限性，导致了对KGC模型的更显著的改进。

在这里插入图片描述
表5:分别以重建和情境化为辅助任务的GenKGC和KGS2S的消融研究结果。我们使用FB15k-237N进行实验。

生成性KGC模型的消融研究在这一部分，我们比较了生成性理论中重构和语境化的有效性KGC模型。对于GenKGC和KG-S2S，我们采用其各自骨干模型的预训练任务(对于GenKGC为BART，对于KGS2S为T5)作为重建目标。我们对生成式KGC模型的重建实现的更多细节可以在附录d中找到表5显示了FB15k-237N的消融研究结果。我们发现重建也能有效地提高生成KGC模型的性能，表明KGC模型可以通过不同的辅助任务持续受益于描述性语境。比较这两个辅助任务，除了KG-S2S的Hits@1外，语境化模型在几乎所有指标上都优于重构模型。这意味着语境化是生成KGC模型为了更好的KGC性能而掌握的关键能力。生成模型从将结构三元组转换成描述性上下文的训练中受益更多，而不是简单地恢复损坏的语料库。

在这里插入图片描述
图4:在FB15k-237N上进行CSProm-KG训练期间，MRR在验证集上的得分。我们使用细棒来标记模型在验证集中实现最佳性能的时期。

效率分析由辅助蒸馏任务带来的额外培训成本可能对我们的方法构成潜在的限制。然而，我们也注意到基线模型，我们的方法在验证集上覆盖得更快。图4显示了在FB15k-237N上进行CSPromKG训练期间的验证MRR与历元数。显然，与没有我们的方法的变体(大约220个时期)相比，具有上下文化提取的CSProm-KG实现了更快的收敛，并且更早地(大约125个时期)达到最佳检查点。这意味着辅助蒸馏损失也可以加速KGC的模型学习。批处理时间和训练步骤之间的这种折衷最终导致了与普通模型相当的训练效率。

在这里插入图片描述
表6:三联体的描述性背景(J.G. Ballard，出生地上海)。绿色文本代表正面内容，红色文本代表负面内容。

案例研究我们对从维基百科(钟等，2015)收集的描述语料库和使用我们的方法生成的描述语料库进行了比较分析，以更直观地显示我们的语境化提取的优势。如表6所示，由LLM生成的实体描述有效地解决了限制问题和静态缺点，从而产生了更多信息和更准确的内容。关于三联体的描述，虽然钟等(2015)使用的“半自传体”多少有些暗示巴拉德童年时期与上海的联系，仍然没有清楚地表达出“出生地”的语义。相比之下，我们的方法生成的描述性语境为“巴拉德”和“上海”之间的“出生地”提供了一个更精细和连贯的语境化。这些比较突出了我们的方法在解决先前语料库的局限性方面的有效性。

在这里插入图片描述
表7:FB15K-237n与KG-S2S的案例研究。我们还让模型为每个测试样本生成一个描述性的上下文。粗体文本表示生成的描述性上下文中的信息内容。

此外，我们展示了如何与描述性背景的辅助训练增强基线模型。表7给出了KGS2S在FB15k-237N测试样本中的性能结果，包括使用和不使用我们的上下文化通货膨胀。在这种情况下，香草KG-S2S错误地预测电影“魔鬼的替身”的类型为“战争电影”，而与我们的辅助任务训练的KG-S2S正确地将其标签为“传记电影”。此外，通过使模型将每个三元组置于上下文中，我们发现应用了我们的方法的模型成功地捕获了关于电影的许多细节，例如类型和情节，并将这些信息呈现为流畅的文本。总之，该模型不仅获得了关于三元组的有价值的见解，而且还通过我们的语境化提取获得了熟练地将这些信息语境化的能力。由于篇幅所限，我们在附录e中对LLM的尺寸做了进一步的分析。

结论

在这项工作中，我们提出了语境化提取，通过提示LLM生成描述性语境来解决现有KGC文本数据的局限性。为了确保我们的方法在各种基于PLM的KGC模型中的通用性，我们设计了一个多任务学习框架。在这个框架内，我们结合了两个辅助任务，重建和语境化，这有助于在信息丰富的描述性背景下训练较小的KGC模型。我们在几个主流的KGC基准上进行了实验，结果表明我们的情境化提取不断提高基线模型的性能。此外，我们进行了深入的分析，以使我们的方法的效果更具解释力，并为如何有效地利用LLM来提高KGC提供了指导。未来，我们计划将我们的方法应用于其他知识驱动的任务，例如实体链接和知识图问答。

限制

由于计算资源的限制，我们在两个数据集上评估了我们的方法，同时忽略了时态知识图完成(Garcia-Duran等人，2018)、fewshot知识图完成(Xiong等人，2018)和常识知识图完成(Li等人，2022)等场景。在未来的研究中，我们计划调查我们的方法在边界场景中的有效性。

附录

大型语言模型在上的性能我们按照朱等人(2023)的方法来评估直接指导LLM执行的性能，表8给出了我们对LLM的输入的示例。对于PaLM，我们利用API参数“candidate_count ”,而对于ChatGPT，我们使用“n”来获得多个候选，从而能够计算Hit@1、Hit@3和Hit@10指标。在获得模型的输出后，我们使用句子-BERT (Reimers和Gurevych，2019年)来保证每个输出结果与数据集的实体集中的相应实体相匹配。

表9显示了ChatGPT和PaLM2在几个KGC数据集上的附加实验结果。尽管线性逻辑模型在一系列自然语言处理任务中表现出良好的性能(梁等，2022；杨等，2023；常等，2023)与各种推理策略(魏等，2022；王等；李等，2023a童等人，2023)，他们目前在与的表现差得惊人。很明显，LLM的ICL在每个数据集上的表现都不如KG-S2S。对这种低水平表现的一个可能的解释可以归因于LLMs中的幻觉现象(Ji等人，2023；Yang et al，2023)，当LLM遇到不熟悉的内容时导致不正确的响应。此外，李等人(2023b)揭示了对数似然模型在学习整个数据集的特定领域实体时的ICL限制，这为解释在的不良表现提供了另一个视角。

我们还对示范样本数量的影响进行了分析。如表10所示，我们发现随着演示次数的增加，LLMs的性能也有相应的提高。看来，在提示中增加演示的次数可能是提高KGC境内LLM能力的一个潜在策略。尽管如此，重要的是要注意，将过多的相关样本作为演示面临实际挑战，主要是由于与输入长度和效率考虑相关的约束。

表8:我们用来直接利用LLM执行KGC的提示。尾提示和头提示分别表示预测丢失的尾和头实体的输入。

在这里插入图片描述

各种管道的详细资料B.1区别管道KG-BERT (Yao等人，2019年)是第一个提出利用PLMs进行三重体建模的。它使用一个特殊的“[CLS]”标记作为输入序列中的第一个标记。头实体、关系和尾实体被表示为单独的句子，用[SEP]标记分隔各个段。通过组合记号、段和位置嵌入来构建输入记号表示。头尾实体句中的标记有相同的片段嵌入，而关系句中的标记有不同的片段嵌入。输入被输入到BERT模型中，并且“[CLS]”标记的最终隐藏向量被用于计算三重分数。三元组(h，r，T)的得分函数计算如下:s = f(h，r，t) = sigmoid(CW T)，其中s是二维实向量sτ0，sτ1 ∈ [0，1]，CW T是“[CLS]”令牌的嵌入。交叉熵损失使用正负三元组的三元组标签和分数来计算: 在这里插入图片描述

其中yτ ∈ {0，1}是该三元组的标签。负三元组D简单地通过替换原始三元组(h，r，t) ∈ D+中的头实体h或尾实体t来生成。CSProm-KG (Chen等人，2023a)将PLM和传统的模型结合在一起，利用文本和结构信息。它首先将一系列条件软提示后面的实体描述和关系描述连接起来作为输入。然后输入到PLM，表示为P，其中模型参数保持不变。随后，CSProm-KG从软提示中提取嵌入，作为实体和关系的表示。然后，这些表示作为输入提供给另一个基于图的KGC模型，标记为G，以执行最终预测。它还引入了局部对抗正则化(LAR)方法，以使PLM P能够从n个文本相似的实体t 1中区分真实的实体；在这里插入图片描述其中，γ是裕度超参数。最后，CSProm-KG利用带有标签平滑和LAR的标准交叉熵损失来优化整个流水线:，其中，ϕ是标签平滑值，β是LAR项权重。

B.2生成式KGC管道在GenKGC(谢等，2022)中，实体和关系被表示为记号的序列，而不是唯一的嵌入，以连接预先训练的语言模型。对于缺少尾部实体ek的三元组(ei，rj，ek ), ei和rj的描述被连接起来以形成输入序列，该输入序列然后被用于生成输出序列。BART用于模型训练和推理，并且是关系引导的提出了编码器培训的演示方法。该方法利用了知识图通常呈现长尾分布的事实，并构造了由关系rj引导的演示示例。最终的输入序列格式定义为:x = [< BOS >，演示(rj)，< SEP >，dei，drj，< SEP >]，其中dei和drj分别是头实体和关系的描述。示范(rj)是指具有关系rj的示范示例。给定输入，GenKGC在解码阶段的目标是正确地生成丢失的实体y，它可以被公式化为: 在这里插入图片描述

此外，还提出了一种实体感知的分层解码策略来提高时间效率。随后，KG-S2S (Chen等人，2022a)在编码器和解码器端添加实体描述，训练模型以生成缺失的实体及其相应的描述。它还为每个关系维护一个软提示嵌入，以便于模型区分具有相似表面含义的关系。给定查询(ei，rj，ek)，预测尾部实体ek的输入x和标签y可以表示为: 在这里插入图片描述

其中dese表示实体描述，P表示实体或关系的软提示嵌入。此外，它通过随机屏蔽实体描述中的一些内容来采用序列到序列的丢弃策略，以避免模型在训练阶段过度拟合: 在这里插入图片描述总损耗可以表示为:

c .其他实施细节我们在表11中展示了我们使用的KGC数据集的详细统计数据。表12显示了我们为每个基线模型和数据集采用的超参数。

在这里插入图片描述

在GenKGC的情况下，我们坚持BART中使用的去噪预训练方法(Lewis等人，2020)。这种方法首先实施一系列文本破坏技术，如标记屏蔽、句子置换、文档旋转、标记删除和文本填充，以打乱初始文本的完整性。BART重建任务的主要目标是从损坏的文本中恢复原始语料库。

对于KG-S2S，我们遵循T5提出的预训练方法(Raffel等人，2020)。这种方法采用了BERT风格的训练目标，并扩展了单个标记屏蔽的概念，以包含文本跨度的替换。在这个过程中，我们对每个片段应用15%的损坏率，用指定的特殊标记“< extra_id >”随机替换一段文本。这里我们使用的跨度长度为3。T5的重建任务的最终目标是准确预测与这些特殊记号相关联的内容。

对LLM大小的分析我们进行进一步的分析，以验证我们的情境化蒸馏与各种大小的蒸馏模型的兼容性。我们选择了3个较小的语言模型，GPT2、T5-base和T5-3B，每个模型都拥有与我们使用的KGC模型(T5-base、BERT-base和BART-base)相当的参数计数。此外，我们将一个更大的语言模型vicuna-7B整合到我们的分析中。作为第一步，我们遵循3.1节中的方法，并指示所有这些模型为三元组(J.G. Ballard| people，person，place _ birth | Shanghai)生成描述性上下文。

在这里插入图片描述

如表13所示，我们的观察揭示了由三个较小的语言模型(GPT-2，T5-base和T5-3B)产生的结果是不合格的和不相关的，表明它们不能有效地坚持语境化教学。相比之下，Vicuna-7B生成的上下文既流畅又信息丰富，提供了对整个三元组的准确文本描述。因此，我们总结了我们的第一个发现:较小的语言模型，缺乏完全理解语境化指令和抽象三元组的必要能力，不适合作为我们语境化升华的教师模型。在第二步中，我们的目标是调查由较小的大型语言模型生成的上下文是否对KGC模型有益。我们完全按照第3节中描述的方法，用Vicuna-7B替换PaLM2。我们在FB15k-237N数据集上用GenKGC作为KGC主干模型进行了实验。

如表14所示，我们用Vicuna-7B进行的情境化提取在增强KGC模型方面仍然有效，尽管没有达到利用PaLM2的CD所观察到的程度。这使我们得出结论，语境化提取也兼容具有较少参数的大型语言模型，即使只有7B大小。在未来，我们将继续探索不同语言模型大小(如13B和30B)对我们方法的影响。

在这里插入图片描述

f .额外案例研究在本节中，我们提供了详细的示例来说明我们在描述性上下文/基本原理提取阶段采用的每个生成路径的输入和输出。我们在表15、16、17、18、19中给出了例子。

在这里插入图片描述

标签：Completion,Knowledge,Language,模型,三元组,KGC,LLM,生成,我们
From： https://blog.csdn.net/weixin_43961909/article/details/142965166

Contextualization Distillation from Large Language Model for Knowledge Graph Completion

文章目录

题目

摘要

简介

相关工作

语境化提取

实验

结论

限制

附录

相关文章

赞助商

阅读排行