首页 > 其他分享 >THLM论文阅读笔记

THLM论文阅读笔记

时间:2024-08-20 15:38:24浏览次数:8  
标签:论文 拓扑 LM 笔记 上下文 mathcal THLM 文本 节点

Pretraining Language Models with Text-Attributed Heterogeneous Graphs论文阅读笔记

Abstract

现存的问题:

​ 目前语言模型(LM)的预训练任务主要集中在单独学习每个实体的文本信息,而忽略了捕捉 TAHGs 中实体间拓扑连接的关键环节。

提出方法:

​ 本文提出了一种新的 LM 预训练框架,该框架明确考虑了 TAHG 中的拓扑和异构信息。首先,我们将上下文图定义为目标节点在特定顺序内的邻域,并提出了一种拓扑感知预训练任务,通过联合优化 LM 和辅助异构图神经网络来预测上下文图中涉及的节点。其次,根据观察到的一些节点文本丰富而另一些节点文本很少的情况,我们设计了一种文本增强策略,用其邻居的文本来丰富无文本节点,以处理不平衡问题。

Introduction

​ 事实上,文本不仅包含语义信息,还相互关联,这可以用文本归属异构图(TAHGs)很好地表示,TAHGs 包括具有文本描述和关系的多类型节点。示例见图 1。一般来说,TAHG 通常会面临以下两个现有 PLM 难以应对的挑战。

pAP5GY6.png

​ 丰富的拓扑信息(C1)。TAHG 中既有一阶连接,也有高阶连接,可以反映丰富的关系。例如,一篇论文可以通过一阶引用与参考文献建立联系,也可以通过高阶合著与其他论文建立联系。然而,常用的预训练任务只是独立地从文本中学习,因此忽略了不同文本之间的联系。尽管最近有一些研究试图让PLM意识到图拓扑,但它们只考虑了一阶关系,未能处理高阶信号。

​ 节点文本描述不平衡(C2)。在 TAHGs 中,节点是异构的,它们所携带的文本往往量级不同。例如,论文有标题和摘要(富文本节点),而作者和关键词只有名称或简短的术语(无文本节点)。目前,如何预训练 LM 以全面捕捉 TAHGs 的上述特征仍是一个悬而未决的问题。

​ 在本文中,我们提出了一种新的预训练框架,将 TAHG 中的拓扑信息和异构信息整合到 LM 中,即 THLM。

​ 为了解决 C1 问题,我们将上下文图定义为中心节点在 K 阶内的邻域,并设计了一个拓扑感知预训练任务(上下文图预测)来预测上下文图中的邻域。具体来说,我们首先通过将中心节点的文本输入 LM 获得其上下文表示,然后通过辅助异构图神经网络计算给定 TAHG 中节点的结构表示。然后,我们根据表征预测上下文图中涉及的节点,旨在为 LM 注入图神经网络的多阶拓扑学习能力。

​ 为了解决 C2 问题,我们设计了一种文本增强策略,即用邻近文本丰富无文本节点的语义,并用 LM 对增强文本进行编码。

本文的核心贡献如下:

  • 我们研究了在更复杂的数据结构(即 TAHGs)上预训练 LM 的问题。与大多数只能从每个节点的文本描述中学习的 PLM 不同,我们提出了一个新的预训练框架,使 LM 能够捕捉不同节点之间的拓扑连接。
  • 我们引入了拓扑感知预训练任务,以预测目标节点上下文图中的节点。这项任务联合优化了一个 LM 和一个辅助异构图神经网络,使 LM 能够利用一阶和高阶信号。
  • 我们设计了一种文本增强策略来丰富无文本节点的语义,从而缓解文本失衡问题。

Method

​ 图 2 显示了我们提出的方法的整体框架,主要由两个部分组成:拓扑感知预训练任务和文本增强策略。给定 TAHG,第一个模块提取目标节点的上下文图,并通过联合优化 LM 和辅助异构图神经网络预测上下文图中涉及的节点。该模块旨在使 PLM 能够捕捉 TAHG 中的一阶和高阶拓扑信息。由于有些节点在 TAHGs 中的文本描述可能很少,因此进一步引入了第二个组件来解决节点文本描述不平衡的问题,即通过邻近节点的文本来丰富无文本节点的语义。值得注意的是,在预训练阶段之后,我们放弃了辅助异构图神经网络,只将 PLM 用于各种下游任务。

pAPId3T.png

拓扑感知的预训练任务

​ 大多数现有的 PLM 无法通过文本描述捕捉节点之间的连接,为了解决这一缺点,最近有人提出了一些方法。虽然这些方法很有见地,但它们只关注节点间一阶连接的建模,而忽略了高阶信号,而高阶信号在网络分析等领域被证明是至关重要的。为此,我们提出了一种拓扑感知预训练任务(即上下文图预测),以帮助 LMs 捕捉不同节点之间的多阶连接。

上下文图提取

​ 我们首先说明目标节点上下文图的定义。假设 Nu 是给定 TAHG G = (V, E, U, R, X ) 中节点 u 的一阶邻居集合。节点 u 的上下文图\(\mathcal{G}_u^K\)由 u 在 K 阶内可以到达的邻居(包括节点 u 本身)及其连接组成,用\(\mathcal{G}_u^K=(\mathcal{V}_u^K,\mathcal{E}_u^K)\)表示。根据该定义,我们可以根据给定的TAHG g提取节点u的上下文图。注意,当K≥2时,上下文图\(\mathcal{G}_u^K\)将包含节点之间的多阶相关性,这提供了一个通过从\(\mathcal{G}_u^K\)学习来获取这些信息的机会。

上下文图预测

​ TAHG 不仅包含多种类型的节点和关系,还涉及节点的文本描述。我们没有像大多数 PLM 那样在单一文本上进行预训练,而是提出了上下文图预测(CGP),用于在 TAHGs 上对 LM 进行预训练,以捕捉丰富的信息。由于 LM 已被证明在文本建模方面功能强大,CGP 的目标是将图神经网络的图学习能力注入 LM。

​ 具体来说,我们首先利用一个辅助异构图神经网络对输入的 TAHG G 进行编码,然后得到 V 中所有节点的表示,如下所示:

​ \(\boldsymbol{H}^{\mathcal{G}}=f_{HGNN}\left(\mathcal{G}\right)\in\mathbb{R}^{|\mathcal{V}|\times d}\)

​ 其中,fHGNN (-) 可以通过任何现有的异构图神经网络来实现。然后,我们用一个 LM 对目标节点 u 的文本描述进行编码,并通过以下方式得出其语义表示:

​ \(\boldsymbol{h}_{LM}^u=\mathrm{MEAN}(f_{LM}\left(X_u\right))\in\mathbb{R}^d,\)

​ 此外,为了捕捉节点 u 的异质性,我们在 PLM 的最后一层引入了投影头。Xu 表示节点 u 的文本描述。接下来,我们通过二元分类任务预测节点 v 参与 u 的上下文图\(\mathcal{G}_u^K\)的概率

​ \(\hat{y}_{u,v}=\operatorname{sigmoid}\left(\boldsymbol{h}_{LM}^u{}^\top\boldsymbol{W}_{\phi(v)}\boldsymbol{H}_v^\mathcal{G}\right),\)

预训练过程

​ 在这项工作中,我们使用 BERT 和 R-HGNN 分别实现了 fPLM (-) 和 fHGNN (-)。由于预测等式(3)中所有节点 v∈V 的出现概率难以实现,我们采用负采样来共同优化 fPLM (-) 和 fHGNN (-)。为了生成正采样,我们在每一跳中从特定关系中均匀采样 k 个邻居。负样本从剩余节点集 V \ Vu K 中采样,负采样率为 5(即每个正样本采样 5 个负样本)。除了 CGP 任务外,我们还加入了广泛使用的掩码语言建模(MLM)任务,以帮助 LM 更好地处理文本。每个节点 u∈V 的最终目标函数为:

\(\begin{align} \mathcal{L}_{u} &= \mathcal{L}_{u}^{\text{MLM}} + \mathcal{L}_{u}^{\text{CGP}} \notag \\ &= -\log P(\tilde{X}_{u} | X_{u \setminus \tilde{X}_{u}}) - \sum_{v \in \mathcal{V}_{u}^{K}} \log \hat{y}_{u,v} \notag \\ &\quad - \sum_{i=1}^{5} \mathbb{E}_{v_{i}^{'} \sim P_{n}(\mathcal{V} \setminus \mathcal{V}_{u}^{K})} \log \left(1 - \hat{y}_{u,v_{i}^{'}}\right), \end{align}\)

​ 其中,\(\tilde{X}_{u}\)是节点 u 的原始文本描述 Xu 的损坏版本,屏蔽率为 40%。Pn(-) 表示正态噪声分布

​ 此外,辅助异构图神经网络每个节点的输入特征都是根据等式(2)的语义表示来初始化的,实验证明这比随机初始化的可训练特征更好。

文本增强策略

​ 如第 1 节所述,TAHGs 中不同类型节点的文本描述长短不一,形成了富文本节点和无文本节点。富文本节点的详尽描述能很好地揭示其特征,而无文本节点的简短描述不足以反映其语义,仅对这些描述进行编码会导致性能不达标。因此,我们设计了一种文本增强策略来解决不平衡问题,该策略首先根据 TAHGs 中的连接,结合邻近节点的文本描述来丰富无文本节点的语义,然后通过 LMs 计算增强文本。

​ 具体来说,对于富文本节点 u,我们使用其带有特殊标记的文本作为输入 Mu,记为 [CLS] Xu [SEP]。对于无文本节点 u,我们将其文本和 k 个采样邻居文本串联起来作为输入 Mu,即\(\text{[CLS] }X_u\text{ [SEP] }X_{\mathcal{N}_u^1}\text{ [SEP] ... [SEP] }X_{\mathcal{N}_u^k}\text{ [SEP]}\)此外,在节点缺乏文本信息的情况下,我们还采用了连接邻居文本序列的方法。这种方法能为这类节点生成重要的语义表征,有效解决文本不平衡问题。在对文本进行扩充后,我们将方程(2)的输入从 Xu 改为 Mu,从而得到具有更多语义的表示\(h_{LM}^u\)。我们通过经验发现,文本增强策略可以在不显著增加模型复杂度的情况下带来非同小可的改进。

下游任务中的微调

​ 经过预训练后,我们舍弃了辅助异构图神经网络 fHGNN (-),只应用预训练的 LM fLM (-),根据公式 (2) 生成节点的语义表示。我们选择两个与图相关的下游任务进行评估,包括链接预测和节点分类。我们在 fLM (-) 的顶端使用了各种头部进行详尽比较,包括多层感知器(MLP)、RGCN、HetSANN和 R-HGNN 。对于下游任务,为了提高效率,fLM (-) 被冻结,只有头部可以微调。

总结

​ 这篇文章讲的还是很清晰的,这篇文章的主要目的是训练一个LM,使得这个LM能够捕获文本属性图中实体之间的拓扑链接。具体实现方法就是使用拓扑感知的预训练任务,联合优化LM和异构图神经网络,具体实现方式如下:

​ 首先是进行上下文图的提取,也就是获取节点及其K阶内的邻居。然后进行上下文的图预测,也就是先用HGNN对文本属性异构图进行编码,得到所有节点的表示,然后采用LM对每个节点的文本属性进行编码,然后使用一个二元分类任务来预测节点v参与u的上下文图的概率,v是用的图生成的表示,u是用的LM生成的表示。最后预训练的时候是将掩码语言任务以及刚刚上下文图提取的任务结合在一起。

​ 最后提一下这个文本增强策略,也就是根据图来改变输入到LM的文本属性,如果某个节点没有文本,那么就将其相邻节点的文本进行串联作为该节点的文本属性输入到LM中。

标签:论文,拓扑,LM,笔记,上下文,mathcal,THLM,文本,节点
From: https://www.cnblogs.com/anewpro-techshare/p/18369546

相关文章

  • 基于nodejs+vue协同过滤算法的商品推荐系统[程序+论文+开题]-计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展,电子商务已成为人们日常生活中不可或缺的一部分。然而,面对海量的商品信息和日益增长的消费者需求,用户往往难以快速找到符合自己兴......
  • 基于nodejs+vue协同过滤算法的体育用品推荐系统[程序+论文+开题]-计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着互联网技术的蓬勃发展和体育文化的日益普及,体育用品市场迎来了前所未有的发展机遇。然而,面对市场上琳琅满目的体育用品和消费者日益增长的个性化需求,如......
  • 基于nodejs+vue协同过滤算法的电影推荐系统[程序+论文+开题]-计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着互联网的普及和视频流媒体服务的兴起,电影作为大众娱乐的重要组成部分,其数量正以惊人的速度增长。面对浩如烟海的电影资源,用户往往难以快速找到符合自己......
  • 基于nodejs+vue协同过滤的高考志愿推荐系统[程序+论文+开题]-计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着教育改革的深入和高等教育普及率的提升,高考作为人生的重要转折点,其志愿填报过程日益受到考生及家长的重视。然而,面对众多高校和复杂的专业设置,如何科学......
  • TCP 通信-Qt-思维导图-学习笔记
    TCP通信TCP简介TCP协议概述全称:TransmissionControlProtocol(传输控制协议)特性:面向连接、可靠、基于字节流的传输层通信协议TCP通信流程建立连接:TCP通信必须先建立连接通信端:分为客户端和服务端服务端操作监听端口:服务端监听某个端口,等待客户端连接......
  • Java计算机毕业设计移动购物管家app(开题报告+源码+论文)
    本系统(程序+源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着移动互联网技术的飞速发展,智能手机已成为人们日常生活中不可或缺的一部分,极大地改变了人们的消费习惯。传统购物模式逐渐向线上转移,移动购物以其......
  • 【生化代谢基础笔记】RNA 合成
    第一节原核生物转录的模板和酶⚠️RNA合成需要:DNATemplate,NTP,RNApol,其他蛋白质因子,$Mg^{2+}$一、原核生物转录模板模板链(Templatestrand)VS编码链(Codingstrand)模板链为合成模板另一股单链为编码链,mRNA碱基序列与编码链一致二、RNA聚合酶催化RNA的合成......
  • Java泛型大揭秘学习笔记
    泛型概述引入背景:Java泛型在JDK5中引入,目的是增强类型系统和表达能力。主要优势:类型安全:编译时类型检查,避免运行时错误。消除强制类型转换:简化代码,提高可读性。提高代码重用性:创建通用代码,适应不同场景。性能提升:减少自动装箱拆箱操作。泛型基础泛型定义:允许类型作......
  • Docker 入门文档阅读笔记
    Docker的架构图片来自Docker官网教程Docker采用CS架构,可以通过CLI和API与Dockerdaemon进行交互。DockerObjectsImages(镜像)Animageisaread-onlytemplatewithinstructionsforcreatingaDockercontainer.Often,animageisbasedonanotherima......
  • Python 面向对象(笔记)
    一、函数的概念函数用于在程序中分离不同的任务,是模块化程序设计的基本构成单位,是对程序逻辑进行结构化或过程化的一种编程方法函数定义好后,可以反复调用使用,这样就可以避免重复编写代码,而且,功能如果需要修改,只要更改函数定义就可以,维护方便1.1使用函数的优点 实现结......