GAugLLM: Improving Graph Contrastive Learning for Text-Attributed Graphs with Large Language Models论文阅读笔记
Abstract
现存的问题:
文本属性的长度和质量往往各不相同,因此很难在不改变原始语义的情况下扰乱原始文本描述。其次,虽然文本属性与图结构互为补充,但它们在本质上并不完全一致。
提出方法:
为了弥补这一差距,我们引入了 GAugLLM,这是一个用于增强 TAG 的新型框架。它利用 Mistral 等先进的大型语言模型来增强自监督图学习。具体来说,我们引入了一种混合提示专家技术来生成增强节点特征。这种方法可将多个提示专家(每个专家都会利用提示工程修改原始文本属性)自适应地映射到数字特征空间中。此外,我们还设计了一种协作边修改器,以利用结构和文本的共性,通过检查或建立节点之间的连接来增强边增强功能。
Introduction
尽管近年来提出了许多 GCL 方法,但这些方法在应用于富含文本描述的图(通常称为文本归属图 (TAG))时,还是表现出了局限性。TAG 的一个典型例子是引文网络,其中每个节点代表一篇研究论文,包括标题和摘要等文本属性。这些文本属性具有很强的表现力,能捕捉到错综复杂的语义细微差别,因此能为增强图学习提供有价值的信息。然而,以往的 GCL 研究只是简单地利用文本属性,通过浅层嵌入模型(如 Word2vec [20] 或词袋(BoW))得出数字特征。随后,他们对这个转换后的特征空间进行特征级扰动。
虽然概念上很简单,但这种特征增强策略本质上是次优的。它无法完全捕捉语义特征的复杂性,而且增强特征的质量受限于所使用的文本转换函数。此外,这些方法仅依靠边缘遮蔽等随机扰动函数,以与属性无关的方式进行结构增强。然而,正如之前的文献所讨论的那样,随机扰动原始图中的边是有风险的。因此,文本属性是推进图增强以实现有效对比学习的宝贵资源。
然而,利用文本属性进行有效的图增强面临着一些挑战。首先,在进行文本增强的同时保持原始语义是很困难的,因为现实世界图中的文本属性通常在长度和质量上各不相同。在这种情况下,传统的启发式增强策略,如随机词语替换、插入和交换,可能无法达到最佳效果。其次,将增强的文本属性映射到数字空间也是一个挑战。与在预处理步骤中将文本数据转换为特征向量的传统 GCL 方法不同,直接扰动输入文本属性需要一个原则性的文本转换函数,该函数能够捕捉到增强文本属性与原始文本属性之间的差异。此外,由于图中的节点往往表现出不同的特征,因此这种转换函数应针对每个节点进行个性化处理。
第三,由于文本属性和图结构的异质性,仅根据文本属性来增强拓扑结构是无效和低效的。一个直观的解决方案是通过计算节点在文本空间中的相似度来估算节点之间的边缘权重,然后利用估算出的边缘权重在边缘空间中采样生成增强图,但这种方法存在可扩展性问题。其复杂性与图的大小成二次方关系,在实际应用中,图的大小可能达到数百万甚至数十亿。此外,由于文本属性和图结构一般不会完全一致,因此可能会产生连接模式与原始图拓扑明显不同的次等增强图。因此,有效的结构增强策略应同时考虑文本属性和原始图结构。
为了填补这一研究空白,我们在这项工作中提出了 GAugLLM,这是一种用于图上自监督学习的新型图增强框架。其关键思路是利用先进的大型语言模型(LLM),如LLaMa,来扰动和提取文本空间中的有价值信息,从而实现有效的特征和结构级增强。具体来说,为了应对前两个挑战,我们引入了一种混合提示专家技术,根据不同的提示专家对原始文本属性进行扰动,每个提示专家代表一个为 LLM 量身定制的特定提示模板。
随后,对较小的 LLM(如 BERT)进行微调,以动态地将多个增强文本属性整合到特征空间中。这种转换考虑了节点统计数据,并采用观察到的节点连接作为训练监督。为了应对第三个挑战,我们提出了一种协作边缘修改器策略。这种方法从结构角度出发,优先处理每个节点与其他节点之间最虚假和最可能的连接,从而降低了增强的复杂性。然后采用 LLM 来识别文本属性背景下最有希望的连接。
本文的主要贡献如下:
- 我们介绍了一种新颖的图增强方法,即 GAugLLM,它专为文本属性图而设计。标准的 GCL 方法仅将文本属性转换为特征向量,并独立进行特征和边缘级扰动,与此不同,GAugLLM 利用丰富的文本属性和 LLM,联合进行特征和边缘级扰动。
- 我们提出了一种混合提示专家方法,通过直接扰动输入文本属性来生成增强特征。与基于启发式的随机扰动不同,我们利用强大的 LLM 从不同的提示方面对文本属性进行扰动,然后将其动态整合到统一的特征空间中作为增强特征。
- 我们设计了一种协作式边缘修改器方案,利用文本属性进行结构扰动。与传统的边缘扰动功能(如随机屏蔽)不同,我们提供了一种原则性的方法,通过联合查看文本和结构空间来添加和删除节点连接。
Preliminary
我们的目标是预先训练一个映射函数
标签:增强,mathbf,GAugLLM,hat,论文,笔记,文本,文本属性,节点 From: https://www.cnblogs.com/anewpro-techshare/p/18391891