Abstract
我们提出了掩码图自动编码器,一个图结构数据的自监督学习框架,与以往的GAEs不同,MaskGAE采用了掩码图建模(MGM)作为一个代理任务,掩蔽部分边缘,并试图用部分可见的、未掩蔽的图结构来重建缺失的部分,为了理解MGM是否能帮助GAEs学习更好的表征,我们提供了理论和经验证据来证明这一借口任务的好处,从理论上讲,我们建立了GAEs与对比学习之间的联系,表明了MGM显著提高了GAEs的自监督学习方案
Introduction
开始介绍一些缺点:尽管图对比方法有效且普遍,但是自监督学习高度依赖于专门和复杂的代理任务,数据增强对于对比图的不同结构视图至关重要。
还有另一个突出的研究方向,试图通过生成的角度来学习表示,以图自动编码器作为典型的例子。图自动编码器是一组自监督的学习模型,它以图输入本身作为自监督,并学习重建图结构。与对比方法相比,GAE通常实现的非常简单,也容易与现有框架结合,因为它们自然地利用图重构作为辅助任务,而不需要对视图的生成进行扩充,但是遵循简单的图形重建原理的GAEs可能会过分强调接近信息,而这种信息并不总是有利于自监督学习,使它不太适用于链接预测意外的其他具有挑战性的任务,因此,有必要为GAEs设计更好的辅助任务。
目前的工作:
在这项工作中,我们试图通过引入掩码图建模作为图结构数据的原则性辅助任务,MGM背后的核心思想是删除图的一部分,并学习预测被删除的内容,比如边,根据这一理念,我们提出了掩码图自动编码器(MaskGAE),这是一个自监督的学习框架,利用通过节点和边重建掩码和预测的想法,我们的框架在理论上是通过明确地将GAEs与对比学习联系起来,并展示了MGM在改进自监督学习方案方面的好处。具体地说,我们揭示了GAEs的学习目标等价于对比学习,其中成对的子图自然地形成两个结构视图来进行对比。最重要的是,在边上进行掩码可以减少GAE中两个对比子图视图的冗余,从而有利于对比学习
本文的主要贡献如下:
- MaskGAE,一个简单而有效的图形自监督学习框架
- 对提出的框架进行了全面的理论分析,并对GAE的辅助训练任务(即MGM)的设计进行了指导。
- 一种新的结构化掩蔽策略,以促进MGM任务,其中相邻区域的边被掩盖在一起。
Problem Formulation
多数图自监督学习策略是学习一个图编码器,将图映射到低维的隐空间单元\(Z=\{z_{i}\}_{i=1}^{|\mathcal{V}|}\),这样\(f_\theta(\mathcal{G})=\mathbb{Z}\in\mathbb{R}^{|\mathcal{V}|\times d_h}\)就能很好的表示图中的每一个节点
Method
MaskGAE是一个由其非对称设计定制的简单框架,其中编码器将部分观察到的图映射到潜在表示,然后由两个解码器根据边缘和节点级别重建掩码结构的信息。我们的经验表明,这种非对称的编解码器结构有助于GAE容易地学习一般化和可转移的表示。接下来,我们将从掩蔽策略、编码器、解码器和学习目标四个方面详细介绍所提出的MaskGAE框架。
MaskMAE的整体框架如下:
掩码策略
如果我们掩码了边的一定部分,就可以显著地减少两个成对子图的冗余度,从而避免了一个平凡的重叠的子图。此外,对于节点分类等下游任务,边缘级信息通常是冗余的。
边随机掩码
形成掩蔽图的一个简单而直接的方法是采样特定分布的边子集采样,例如伯努利分布,我们将边缘随机掩蔽表示为\(\mathcal{T}_\mathrm{edge}\),于是有\(\mathcal{G}_\mathrm{mask}=\mathcal{T}_\mathrm{edge}(\mathcal{G})\)
路径随机掩码
提出了一种新的结构掩蔽策略,在采样过程中以路径作为基本处理单元。通俗地说,图中的路径是连接相邻节点序列的边序列。与简单的边缘级掩蔽相比,路径级掩蔽会破坏节点之间的短接连接,模型必须在其他地方寻找证据,以适应被屏蔽的结构。因此,它可以更好地利用结构依赖模式,并为更有意义的MGM任务捕获高阶接近性。对于路径掩蔽,我们对一组掩蔽边缘进行如下采样:
\(\mathcal{E}_{\mathrm{mask}}\sim\mathrm{Random}\mathrm{Walk}(\mathcal{R},\mathcal{l}_{\mathrm{walk}})\)
R是一组开始随机游走的根节点,\(l_{walk}\)是游走长度。
与前期工作的关系。MaskGAE和一些现有的对比方法都对图应用掩蔽。这些对比方法使用边掩蔽作为增强来生成不同的结构视图进行对比,而MaskGAE使用边掩蔽来构建有意义的监督信号,并减少成对子图视图之间的冗余,从而促进自监督学习方案
编码器
在这项工作中,我们的编码器是图卷积网络(GCN),与传统的GAE不同,我们的编码器在训练过程中只需要处理一小部分边,因为它只应用于一个可见的、未掩蔽的子图。这为设计一个高效和强大的编码器提供了一个机会,同时减轻了对大型GNN进行预训练的可伸缩性问题。
解码器
结构解码器
该结构解码器是gae的一个基本设计,它通过将成对的节点表示聚合为链接表示来解码图。设计这种解码器的方法有几种,可以使用内积或神经网络进行解码。我们将参数为
标签:掩蔽,论文,笔记,学习,MGM,MaskGAE,掩码,mathcal,mathrm From: https://www.cnblogs.com/anewpro-techshare/p/18030088