BGRL论文阅读笔记
Abstract
自监督学习提供了一个有前途的途径来消除昂贵的标签信息的需要。然而,为了实现最先进的性能,方法通常需要大量的负的例子,并依赖于复杂的扩充。这可能会非常昂贵,特别是对于大型图形。为了解决这些挑战,我们引入了Bootstrapped Graph Latent(BGRL)——一种图表示学习方法,通过预测输入的替代增强来学习。BGRL只使用简单的增强功能,并减轻了与负示例进行对比的需要
Introduction
在本文中,我们介绍了一种可扩展的图上的自监督表示学习方法,称为BGRL。受视觉中自监督学习的最新进展的启发,BGRL通过使用两种不同的图编码器对一个图的两个增强版本进行编码来学习节点表示:一个在线编码器和一个目标编码器。在线编码器通过预测目标编码器的表示来进行训练,而目标编码器被更新为在线网络的指数移动平均值。重要的是,BGRL不需要对比负面的例子,因此可以很容易地缩放到非常大的图。
本文的贡献如下:
- 我们引入了自引导图延迟(BGRL),这是一种图自监督学习方法,可以有效地扩展到超大的图,并且优于现有的方法,同时只使用简单的图扩充,不需要负的例子
- 我们证明,对比方法面临着峰值性能和内存约束之间的权衡,因为它们依赖于负的例子。由于时间和空间复杂度只在输入的大小上线性缩放,BGRL完全避免了对比方法固有的性能权衡。BGRL提供了与最佳的对比方法相竞争的性能,同时在标准基准测试中使用了更少的2-10倍的内存
- 我们展示,利用BGRL的可伸缩性可以通过半监督学习充分利用大型图中的大量未标记数据。特别是,我们发现有效地使用未标记数据进行表示学习可以防止表示对分类任务的过拟合,并取得了显著的更高的、最先进的性能。
Bootstrapped Graph Latent
模型的整体结构如下:
BGRL Components
BGRL不同于之前的bootstrapping方法,如BYOL,因为它不使用投影仪网络。与视觉任务不同,BYOL使用投影步骤来降维,常见的嵌入大小对于图形任务非常小,所以在我们的例子中这不是一个问题。事实上,我们观察到,这一步可以完全消除,而不会造成性能损失。
所使用的增强函数T1和T2是之前探索过的简单的标准图扰动(You等人,2020;Zhu等人,2020b)。我们使用随机节点特征掩蔽和边缘掩蔽的组合,分别使用固定的掩蔽概率pf和pe。
BGRL Update Step
更新在线编码器:更新在线参数θ(而不是φ),通过遵循余弦相似度的梯度,使每个节点预测的目标表示\(\tilde{Z_1}\)更接近每个节点的真实目标表示\(\tilde{H_2}\)
\[\begin{aligned}\ell(\theta,\phi)&=-\frac2N\sum_{i=0}^{N-1}\frac{\widetilde{\mathbf{Z}}_{(1,i)}\widetilde{\mathbf{H}}_{(2,i)}^\top}{\|\widetilde{\mathbf{Z}}_{(1,i)}\|\|\widetilde{\mathbf{H}}_{(2,i)}\|}\\\\\theta&\leftarrow\mathrm{optimize}(\theta,\eta,\partial_\theta\ell(\theta,\phi)),\end{aligned} \] 其中η是学习速率,最终更新仅从目标对θ的梯度计算,使用优化方法如SGD或Adam等方法。在实践中,我们也通过使用第二个视图的在线表示来预测第一个视图的目标表示来对称这种损失。
更新目标编码器:目标参数φ被更新为在线参数θ的指数移动平均值,使用衰减率τ,即:
\(\phi\leftarrow\tau\phi+(1-\tau)\theta,\)
可扩展的非对比目标:这里我们注意到,对于不同的节点对(i,j),对比方法将鼓励Z(1,i)和H(2,j)保持很远的距离。在缺乏选择这样的不同对的原则方法的情况下,这种简单地对比所有对{(i,j)| i = j}的简单方法,在输入的大小是二次型的。由于BGRL不依赖于这个对比步骤,所以BGRL在图的大小上能够线性地缩放,因此可以通过设计进行伸缩。
标签:编码器,论文,笔记,使用,theta,BGRL,方法,对比 From: https://www.cnblogs.com/anewpro-techshare/p/18065487