GraphEdit: Large Language Models for Graph Structure Learning论文阅读笔记
读一下图结构学习的论文,找找灵感
Abstract
图结构学习(GSL)侧重于通过生成新的图结构来捕获图结构数据中节点之间的内在依赖性和交互作用。许多现有的GSL方法严重依赖于显式的图结构信息作为监督信号,这使得它们容易受到数据噪声和稀疏性等挑战。在这项工作中,我们提出了GraphEdit,这是一种利用大型语言模型(llm)来学习图结构数据中的复杂节点关系的方法。通过对图结构的指令调优来增强llm的推理能力,我们的目标是克服显式图结构信息的局限性,提高图结构学习的可靠性。我们的方法不仅有效地去噪噪声连接,而且从全局的角度识别节点级的依赖关系,提供了对图结构的全面理解。
Introduction
在GSL中,主要关注的焦点是揭示那些可能无法从原始数据中立即识别出来的潜在关系和依赖关系。通过生成这些新的图结构,GSL使我们能够获得更全面的了解数据,从而促进各种下游任务,如节点分类。
仅仅依赖于显式的图结构作为监督信号,可能会导致不准确或有偏差的表示。这些挑战需要开发更健壮的图结构学习框架,该框架能够适应和克服图结构数据中的数据缺陷的影响。
鉴于前面概述的挑战,本研究旨在探索大型语言模型(llm)如何有助于对底层图结构的推理。我们介绍了我们提出的模型,GraphEdit,它是设计来有效地细化图形结构。我们的模型的目标是双重的:首先,识别和处理不相关节点之间的噪声连接,其次,揭示隐式的节点依赖关系。为了实现这些目标,我们的模型利用了与图形结构数据中的节点关联的丰富文本数据。通过整合llm的文本理解能力,特别是通过指令调优范式,我们增强了对图形结构的理解和表示。这允许我们捕获单个节点之间的隐式依赖关系,这些节点可能不会显式地编码在图结构本身中。
Preliminaries
图表示学习
专注于捕获图中节点的有意义和信息丰富的表示,使图数据中复杂的关系和模式的分析和建模成为可能。然而,在现实世界的图中,有噪声和缺失的连接普遍存在,它们严重损害了现有的图表示学习方法的性能。
问题定义
给定具有有噪声结构信息的观测图G =(V,A,T),我们的目标是改进图的拓扑结构。这涉及到对图数据中的噪声连接进行去噪,并揭示节点之间的隐式关系。通过细化原始的邻接矩阵A并获得一个信息更丰富的图结构\(\tilde{\mathcal{A}}\),我们可以更好地捕获底层的节点依赖关系,从而得到一个更新的图\(\tilde{\mathcal{G}}=(\mathcal{V},\tilde{\mathcal{A}})\)。这种细化过程导致了对底层图结构的更深入的理解,从而通过利用更新的图结构来提高下游任务的性能。
Method
模型的整体结构如下:
LLM的指令调优
我们认为具有相似属性的节点往往具有更强的连接。这一概念进一步发展到基于节点之间的连接模式来探索节点之间的标签一致性。具体来说,在依赖于图结构的节点分类任务的上下文中,最优的情况包括最大化同一类内的连接,同时最小化类间的连接。在这一原则的指导下,我们的方法旨在利用大型语言模型(llm)的知识来解释节点之间的潜在依赖关系,并考虑到与单个节点相关联的文本语义。
在提示创建阶段,我们在每个提示中精心地定义了两个独立的目标。第一个目标是评估节点对的标签的一致性。这一目标非常重要,因为它使语言模型能够准确地掌握所需的图形结构。第二个目标建立在标签一致性之上,涉及确定这些节点所属的特定类别。这些精心设计的提示,包括了这些双重目标,为语言模型的指令调优提供了宝贵的资源。提示词的设计如下:
在我们的方法中,我们使用随机抽样技术从我们的训练数据Ntrain中选择节点对(ni,nj)。这些节点对,用于调整llm,从训练集Ntrain中随机抽样,其中i和j代表两个不同的节点,k代表任何其他节点。
基于LLM的边预测器
为了进一步加强我们的分析,除了原始图结构外,我们还认识到识别潜在候选边的重要性。然而,直接使用训练好的语言模型(LLM)来对整个图进行遍历和推理提出了计算上的挑战,特别是对于大型图。随着图的大小的增加,这种计算复杂度很快就变得不切实际了。为了克服这一挑战,我们建议引入轻量级边预测器,帮助 LLM 在图 G 中的节点间选择候选边。
在这种方法中,我们利用之前采样的节点对作为边缘预测器的训练集。为了确保语义的一致性,我们对每个节点使用来自训练过的LLM的表示。这可以表示为:
\(h_i=\mathrm{LLM}(s_i),h_j=\mathrm{LLM}(s_j)\)
说白了也就是用训练好的LLM来把每个节点的文本描述输入进去,输出对应的节点表示。然后预测的时候将节点对中的两个节点的表示形式连接起来,将表示输入一个预测层,获取边存在的概率\(\eta(h_i||h_j)\),然后用CE函数来进行优化。
LLM增强的结构细化
为了细化图的结构,我们使用先前开发的边缘预测器,根据每个节点估计的存在可能性来识别每个节点的前k个候选边缘。这些候选边,以及图的原始边,然后通过一个prompt,由大型语言模型(LLM)进行评估,如表1所示。LLM利用这些信息来确定哪些边应该被合并到最终的图结构中。图结构细化过程总结如下:
\(\begin{aligned}&\mathcal{A}^{\prime}=\text{EdgePredictor}(\mathcal{H}_n)+\mathcal{A},\\&\hat{\mathcal{A}}=\text{LLM}(\text{Prompt}(\mathcal{A}^{\prime}))\end{aligned}\)
也就是把边预测器的输出与原始图结合,利用LLM对重构的图进行增加或删除边,这样就获取到了最终的图结构。
总之,我们的框架通过合并边缘预测器的预测和利用LLM的推理能力,提高了最终图的质量和结构。这导致了隐式全局节点依赖关系的揭示和噪声连接的去噪,从而改进了图表示。
标签:GraphEdit,模型,论文,笔记,我们,LLM,mathcal,节点,结构 From: https://www.cnblogs.com/anewpro-techshare/p/18222422