首页 > 其他分享 >GAugLLM论文阅读笔记

GAugLLM论文阅读笔记

时间:2024-09-01 22:48:34浏览次数:9  
标签:增强 mathbf GAugLLM hat 论文 笔记 文本 文本属性 节点

GAugLLM: Improving Graph Contrastive Learning for Text-Attributed Graphs with Large Language Models论文阅读笔记

Abstract

现存的问题:

​ 文本属性的长度和质量往往各不相同,因此很难在不改变原始语义的情况下扰乱原始文本描述。其次,虽然文本属性与图结构互为补充,但它们在本质上并不完全一致。

提出方法:

​ 为了弥补这一差距,我们引入了 GAugLLM,这是一个用于增强 TAG 的新型框架。它利用 Mistral 等先进的大型语言模型来增强自监督图学习。具体来说,我们引入了一种混合提示专家技术来生成增强节点特征。这种方法可将多个提示专家(每个专家都会利用提示工程修改原始文本属性)自适应地映射到数字特征空间中。此外,我们还设计了一种协作边修改器,以利用结构和文本的共性,通过检查或建立节点之间的连接来增强边增强功能。

Introduction

​ 尽管近年来提出了许多 GCL 方法,但这些方法在应用于富含文本描述的图(通常称为文本归属图 (TAG))时,还是表现出了局限性。TAG 的一个典型例子是引文网络,其中每个节点代表一篇研究论文,包括标题和摘要等文本属性。这些文本属性具有很强的表现力,能捕捉到错综复杂的语义细微差别,因此能为增强图学习提供有价值的信息。然而,以往的 GCL 研究只是简单地利用文本属性,通过浅层嵌入模型(如 Word2vec [20] 或词袋(BoW))得出数字特征。随后,他们对这个转换后的特征空间进行特征级扰动。

​ 虽然概念上很简单,但这种特征增强策略本质上是次优的。它无法完全捕捉语义特征的复杂性,而且增强特征的质量受限于所使用的文本转换函数。此外,这些方法仅依靠边缘遮蔽等随机扰动函数,以与属性无关的方式进行结构增强。然而,正如之前的文献所讨论的那样,随机扰动原始图中的边是有风险的。因此,文本属性是推进图增强以实现有效对比学习的宝贵资源。

​ 然而,利用文本属性进行有效的图增强面临着一些挑战。首先,在进行文本增强的同时保持原始语义是很困难的,因为现实世界图中的文本属性通常在长度和质量上各不相同。在这种情况下,传统的启发式增强策略,如随机词语替换、插入和交换,可能无法达到最佳效果。其次,将增强的文本属性映射到数字空间也是一个挑战。与在预处理步骤中将文本数据转换为特征向量的传统 GCL 方法不同,直接扰动输入文本属性需要一个原则性的文本转换函数,该函数能够捕捉到增强文本属性与原始文本属性之间的差异。此外,由于图中的节点往往表现出不同的特征,因此这种转换函数应针对每个节点进行个性化处理。

​ 第三,由于文本属性和图结构的异质性,仅根据文本属性来增强拓扑结构是无效和低效的。一个直观的解决方案是通过计算节点在文本空间中的相似度来估算节点之间的边缘权重,然后利用估算出的边缘权重在边缘空间中采样生成增强图,但这种方法存在可扩展性问题。其复杂性与图的大小成二次方关系,在实际应用中,图的大小可能达到数百万甚至数十亿。此外,由于文本属性和图结构一般不会完全一致,因此可能会产生连接模式与原始图拓扑明显不同的次等增强图。因此,有效的结构增强策略应同时考虑文本属性和原始图结构。

​ 为了填补这一研究空白,我们在这项工作中提出了 GAugLLM,这是一种用于图上自监督学习的新型图增强框架。其关键思路是利用先进的大型语言模型(LLM),如LLaMa,来扰动和提取文本空间中的有价值信息,从而实现有效的特征和结构级增强。具体来说,为了应对前两个挑战,我们引入了一种混合提示专家技术,根据不同的提示专家对原始文本属性进行扰动,每个提示专家代表一个为 LLM 量身定制的特定提示模板。

​ 随后,对较小的 LLM(如 BERT)进行微调,以动态地将多个增强文本属性整合到特征空间中。这种转换考虑了节点统计数据,并采用观察到的节点连接作为训练监督。为了应对第三个挑战,我们提出了一种协作边缘修改器策略。这种方法从结构角度出发,优先处理每个节点与其他节点之间最虚假和最可能的连接,从而降低了增强的复杂性。然后采用 LLM 来识别文本属性背景下最有希望的连接。

​ 本文的主要贡献如下:

  • 我们介绍了一种新颖的图增强方法,即 GAugLLM,它专为文本属性图而设计。标准的 GCL 方法仅将文本属性转换为特征向量,并独立进行特征和边缘级扰动,与此不同,GAugLLM 利用丰富的文本属性和 LLM,联合进行特征和边缘级扰动。
  • 我们提出了一种混合提示专家方法,通过直接扰动输入文本属性来生成增强特征。与基于启发式的随机扰动不同,我们利用强大的 LLM 从不同的提示方面对文本属性进行扰动,然后将其动态整合到统一的特征空间中作为增强特征。
  • 我们设计了一种协作式边缘修改器方案,利用文本属性进行结构扰动。与传统的边缘扰动功能(如随机屏蔽)不同,我们提供了一种原则性的方法,通过联合查看文本和结构空间来添加和删除节点连接。

Preliminary

​ 我们的目标是预先训练一个映射函数

标签:增强,mathbf,GAugLLM,hat,论文,笔记,文本,文本属性,节点
From: https://www.cnblogs.com/anewpro-techshare/p/18391891

相关文章

  • unity学习笔记(二)
    2D渲染Camera相机设置Projection(投影方式):修改为Orthographic(正交)Size:改变相机的视野大小Sprite“精灵图”一词首次作为图形术语出现,是在德州仪器的9918(A)视频显示处理器上。使用“精灵图”作为术语,是因为精灵图并不是帧缓冲中位图数据的一部分,而是“悬浮”于帧缓冲中数据之......
  • c#学习笔记(一)
    基础语法文档注释&代码块 ///<summary> ///待机 ///</summary> #region物体移动sq.transform.Translate(newVector3(5,0,0)); #endregion字符串格式化输出使用$可进行格式化输出C#string字符串的前面可以加@(称作"逐字字符串")将转义字符(\)当作普通字符......
  • unity学习笔记(一)
    组件的概念组件:一个或多个功能的容器,类似模块,插上去就有这个功能,不查没有存在意义:如果太依赖继承,继承树将会特别复杂组件化设计思想有利于维护拓展unity内任何游戏物体必须有Transform组件unity中大多数情况下,我们写的c#脚本就是一个组件从代码角度认识GameObject任何......
  • CF 有趣题目做题笔记
    CF1157FMaximum_Balanced_CircleProblem题意:给出一个长度为\(n\)的序列\(a\),你可以选出序列的任意子集。记这个子集为\(b\),大小为\(k\),则需要满足\(\lvertb_i-b_{(i+1)\bmodk}\rvert\le1\)。你需要最大化\(k\)的值,并输出选出的子集\(b\)。Solution注意到最终......
  • 四边形不等式 学习笔记
    四边形不等式学习笔记定义四边形不等式(QI)如果对于函数\(w(l,r)\),\(l_1\lel_2\ler_1\ler_2,w(l_1,r_1)+w(l_2,r_2)\lew(l_1,r_2)+w(l_2,r_1)\),则称\(w\)满足四边形不等式,函数\(w\)的二维矩阵被称作蒙日矩阵。一般只能用于求\(\min\)的DP。石子合并模型对......
  • Datawhale X 李宏毅苹果书 AI夏令营-跟李宏毅学深度学习(入门)Task3笔记
    目录一、机器学习框架&实践攻略1.总览2.训练误差较大时:    1.模型偏差    2. 优化问题3.训练误差较小时:    1.测试误差较小:    2.测试误差较大:            1.过拟合    2.不匹配一、机器学习框架&实......
  • 简单了解数据库--笔记03
    一、分组查询[groupby]count() //统计计数sum()//求和avg()//平均值min()//最小值max()//最大值group_concat()//拼接函数1.查询每个国家人口总数selectcountrycode,sum(population)fromcitygroupbycountrycode;//给国家分组2.查询中国每个......
  • 简单了解数据库--笔记02
    一、数据库的字符集编码设置utf-8utf8mb41.查看数据库默认的字符集MariaDB[(none)]>showvariableslike"%character%";+--------------------------+----------------------------+|Variable_name|Value|+--------------------......
  • Unclutter - 苹果电脑(Mac)桌面文件笔记剪贴板管理工具
    刚收拾好的电脑桌面马上又堆满了杂七杂八的文件?刚随手一记的笔记,回头却找不到了?马上来认识一下Unclutter,一款藏在Mac系统顶部的文件、笔记、剪贴板管理器。安装后,用户只需要将鼠标指针移动到屏幕顶部,向下滚动,Unclutter窗口就会滑落显现,无需给电脑桌面「添乱」。有时候......
  • Redis基础知识学习笔记(二)
    文章目录一.Redis安装1.Windows下安装1>资源管理器目录进入2>目录进入命令:3.配置环境变量2.Linux下安装1>安装redis2>启动redis3>查看redis是否启动二.Redis配置1.查看配置2.编辑配置3.参数说明三.Redis数据类型1.String(字符串)常用命令实例2.Hash(哈希)......