Abstract
我们认为,如果没有精心设计的增强技术,图上的扩充可能会任意的做出表现,因为图的底层语义会极大地变化。因此,现有的基于增强的方法的性能高度依赖于增强方案的选择,即与增强相关的超参数。在本文中,我们提出了一种新的无增强图自监督学习框架,即AFGRL。具体地说,我们发现通过与图共享局部结构信息和全局语义的节点来生成图的替代视图。
Introduction
当我们扰动(删除或添加)边/节点及其图的特征时,我们不能确定增强图是否与原始图正相关,更糟糕的是,由于图难以可视化,验证增强图的有效性并不容易。例如,在分子图中,从阿司匹林的苯基环上滴下一个碳原子,会打破芳香体系,形成一个烯烃链。因为图不仅包含语义信息,而且还包含结构信息。
由于上述图上的任意增强行为,以往基于增强的对比方法的学习图表示的质量高度依赖于增强方案的选择。更准确地说,为了增强图,这些方法执行了各种增强技术,如节点/边缘扰动和节点特征掩蔽,并且图的增强量由一组超参数控制。然而,这些超参数应该根据哪些数据集和用于模型评估的下游任务进行仔细调整,否则模型的性能将会有很大的差异。此外,研究还表明,下游任务的性能高度依赖于增强技术的组合
此外,即使在发现了增强的最佳超参数之后,由于对比学习的固有哲学,另一个限制也出现了。更准确地说,继承了实例识别原则,对比方法将两个样本视为正对,只要它们是同一实例的两个增强版本,所有其他样本都被视为负对。但是简单地将节点本身以外的所有其他节点视为否定忽略了图的结构信息,因此不能受益于图结构数据的关系归纳偏差。最后,由于对比方法的性质,需要大量的负样本来提高下游任务的性能,需要较高的计算和内存成本,这在现实中是不现实的
本文的贡献如下:
我们提出了一种图的自监督学习框架,称为无增强图表示学习(AFGRL),它既不需要增强技术,也不需要负样本来学习图的表示。准确地说,而不是创建两个任意增强的图和期望他们保留原图的语义,我们使用原始图本身作为一个视图,并通过发现生成另一个视图,对于原始图的每个节点,可以通过(k-NN)搜索表示空间来将节点作为正样本。然后,给定这两个语义相关的视图,我们的目标是预测第一个视图中的每个节点在第二个视图中的正节点的潜在表示。然而,基于k-NN搜索,选择正样本来生成一个替代视图,仍然可以改变原始图的语义。
因此,我们引入了一种机制来从k-NN搜索发现的样本中发现假阳性。简而言之,我们认为一个样本是积极的只有当
1)是目标节点在邻接矩阵中的相邻节点(局部的角度),捕获固有的关系归纳偏差图结构的数据,或
2)属于同一集群的目标节点(全球视角)。此外,通过采用BYOL作为模型的骨干,负样本不需要模型训练,从而避免“抽样偏差”,即负样本可能有相同的语义与查询节点,这将导致更不有效的表示
Method
前面说现有的方法,无论依不依赖负样本,都需要有增强的视图,并且许多方法都对超参数敏感
无需增强的GRL
我们提出了一个简单而有效的自监督学习框架,用于生成原始图的替代视图,并考虑到图结构数据的关系归纳偏差和图的全局语义。对于图G中的每个节点vi∈V,基于两个编码器学习到的节点表示,我们发现了可以作为正样本的节点。即,在线编码器fθ(·)和目标编码器fξ(·)。更准确地说,这些编码器最初接收原始图的邻接矩阵A和特征矩阵X作为输入,并计算在线表示和目标表示。即,Hθ = fθ(X,A)和Hξ = fξ(X,A),它们的第i行,h θ i和h ξ i,是节点vi∈V的表示。然后,对于一个给定的查询节点vi∈V,我们计算图中所有其他节点之间的余弦相似度如下:
\(sim(v_i,v_j)=\frac{\mathbf{h}_i^\theta\cdot\mathbf{h}_j^\xi}{\|\mathbf{h}_i^\theta\|\|\mathbf{h}_j^\xi\|},\forall v_j\in\mathcal{V}\)
其中计算在线表示和目标表示之间的相似度。在相似性信息下,搜索每个节点vi的k个最近邻,用集合Bi表示,可以作为节点vi的正样本。本质上,我们期望表示空间中最近的邻居与查询节点vi属于同一个语义类。尽管Bi可以作为节点vi的一组合理的正候选节点,它本质上是有噪声的,因为我们不利用任何标签信息,也就是说,Bi包含与查询节点vi语义无关的样本。此外,仅诉诸于表示空间中的最近邻,不仅忽略了图中固有的结构信息,即关系归纳偏差,还忽略了图的全局语义。为了解决这些限制,我们引入了一种机制,从k-NN搜索发现的样本中发现假阳性,同时也捕获局部结构信息和图的全局语义。
获取局部结构信息
我们首先通过一个小实验来验证我们的假设,对于每个节点,我们对其进行knn算法,然后对于每个节点,我们计算其相邻节点与查询节点的相同标签的比例,该比例随k的增大而减小,虽然我们的期望在一定程度下成立,但仍然存在噪声
因此,为了发现k-NN搜索发现的最近邻的假阳性,即每个节点vi的Bi,我们利用以邻接矩阵形式给出的节点之间的局部结构信息。即,关系归纳偏差。更准确地说,对于一个节点vi,其相邻的节点Ni倾向于与查询节点vi共享相同的标签,即平滑假设,在实验中,我们确实观察到,在两个数据集中,相邻节点与查询节点相同标签的比例约为70%,这证明了平滑假设的有效性。因此,为了捕获平滑假设中考虑的关系归纳偏差,同时剔除有噪声的最近邻的假阳性,我们计算了最近邻和相邻节点之间的交集,即Bi∩Ni。我们将这些相交节点的集合表示为vi的局部正例
捕获全局语义
为了从全局的角度捕获节点的语义,我们利用了聚类技术。直觉是发现与查询节点共享全局语义信息的非相邻节点。例如,在一个学术协作网络中,节点表示作者,边表示作者之间的协作,即使两个作者从事同一研究主题(即同一标签),它们可能不会在图中被连接,因为它们过去既没有合作,也没有共享任何合作者。
我们认为,这种语义上相似的不共享一条边的实体可以通过在全局视角下的聚类来发现。在这方面,我们对目标表示Hξ应用K-均值聚类算法,将节点聚类为一组K个聚类,即G = {G1,G2,...,GK},c(hξ)∈{1,...,K}表示聚类hξ的分配。然后,我们考虑与vi属于同一集群的节点集,即Ci = {vj |vj∈Gc(h ξ i)},作为其在全局视角中语义相似的节点。最后,我们从全局视角中得到了最近邻和语义相似节点之间的交集,即Bi∩Ci,并将这些相交节点的集合表示为vi的全局正例。换句话说,在vi的最近邻居中,同时与vi属于同一个聚类的节点被认为是全局正邻居。需要注意的是,由于K-means聚类算法对聚类质心初始化很敏感,因此我们需要执行了多次运行,以确保聚类结果的鲁棒性。具体地说,我们执行K-means聚类M次,得到M个聚类集,然后对这些聚类集取并集作为最终的聚类集
优化目标
为了同时考虑局部和全局信息,我们将节点vi的实正集合如下:
\(\mathbf{P}_i=(\mathbf{B}_i\cap\mathbf{N}_i)\cup(\mathbf{B}_i\cap\mathbf{C}_i)\)
我们的目标函数旨在最小化查询节点vi与其真正的正Pi之间的余弦距离:
\[\mathcal{L}_{\theta,\xi}=-\frac{1}{N}\sum_{i=1}^{N}\sum_{v_j\in\mathbf{P}_i}\frac{\mathbf{z}_i^{\theta}\mathbf{h}_j^{\xi\top}}{\left\|\mathbf{z}_i^{\theta}\right\|\left\|\mathbf{h}_j^{\xi}\right\|}, \]综上所述,1) AFGRL不依赖任意增强技术进行模型训练,从而获得稳定的性能。2) AFGRL从k-NN搜索发现的样本中发现了假阳性,同时也捕获了局部结构信息,即关系归纳偏差和图的全局语义。3) AFGRL不需要负样本来进行模型训练,从而避免了抽样偏差,减轻了以往对比方法造成的计算/记忆成本
标签:mathbf,vi,Self,样本,语义,Free,Graphs,聚类,节点 From: https://www.cnblogs.com/anewpro-techshare/p/18065113