论文链接:图神经网络应用于知识图谱推理的研究综述
一、知识推理研究进展
(1)知识图谱以节点和边的图结构存储数据,GNN可以有效整合知识图谱结构特征及属性特征,通过节点的领域信息聚合并更新节点,利用其强大的信息传播能力学习数据间的语义关系和潜在信息,使其可以很好地学习知识推理中的节点信息、节点间关系信息以及全局结构信息。
(2)知识推理:根据初步构建的知识图谱中实体和关系所蕴含的信心,利用相关算法,推理出知识图谱中缺失的实体或缺失的关系。
实体预测:利用已有事实的关系及一个实体,推理出另一个实体并由此构成完整三元组。
关系预测:推理给定的头尾实体之间的关系。
(3)知识推理从结构上分为局部任务和全局任务。
局部任务:节点分类、链接预测、知识补全......
全局任务:子图匹配、子图分类、图趋势预测......
(4)知识推理方法
1.基于逻辑规则的推理
基本思想:借鉴传统知识推理中的规则推理方法,在知识图谱上运用简单规则或统计特征进行推理。
2.基于表示学习的推理
基本思想:找到一种映射函数,将语义网络中的实体、关系和属性映射到低维实值向量空间以获得分布式表示,进而捕获实体和关系之间的隐式关联。
3.基于神经网络的推理
基本思想:将前文所述的表示学习方法通过多个非线性表示层组合起来,再对其深度特征进行表示,进而开展知识推理。
4.基于图神经网络的推理
基本思想:通过图卷积的方式来聚合相邻节点的信息(包括语义信息和结构信息),得到节点表示进行推理。
二、基于图神经网络的知识推理研究
(1)图神经网络模型
输入层:将图形结构和节点内容信息作为输入。
图卷积层:通过聚合相邻节点的特征信息得到每个节点的隐藏表示。
激活函数层:通过激活函数层进行非线性交换,得到新的图的表示。
输出层:通过多次图卷积层和激活函数层,将得到每个节点的最终表示作为输出。
训练框架:可以在端到端学习框架内以(半)监督或无监督的方式训练,具体取决于学习任务和可用的标签信息。
执行任务:知识推理的节点分类、节点标签预测等节点级任务。
(2)基于图神经网络的KR模型(边级任务)
输出层:将GNN中两个节点的隐藏表示作为输出。
执行任务:可利用相似性函数或神经网络来预测边的标签或连接强度等,执行边分类和链接预测等任务。
(3)基于图神经网络的知识推理模型(全局任务)
通过在模型中加入多层感知器和softmax层。
执行任务:可处理图分类、子图匹配、图趋势预测等知识推理全局任务。
2.1基于递归图神经网络RecGNN的知识推理
RecGNN是图神经网络的先驱。
RecGNN模型阐述:每个节点的定义是由该节点的属性特征(或标签特征)以及邻接节点来共同表示(如图4),参数函数称为局部变换函数,描述了顶点n和其邻域顶点的依赖性。称为局部输出函数,刻画了输出值的生成过程。
其中,分别表示顶点n的属性、关联边的属性、所有邻接节点的状态和属性。因此,每个节点n的状态,该状态包含节点n的邻域所包含的信息。
RecGNN目标:学习递归神经架构的节点表示,通过不断迭代传播邻域节点信息,直到模型达到稳定状态,进而得到节点的最终表示。
(1)GNN:Scarselli等人提到可以直接处理大多数现实世界中的图问题,包括有向、无向、循环和非循环的图,且成功实现了将图数据映射到几何空间,并开展了子图匹配、化合物诱变活性分析和网页排序等任务,这是首次利用图神经网络处理图数据推理任务---子图匹配。其实验结果表明GNN对于结构化数据的建模十分有效,但也存在着数据计算量大、迭代效率低等诸多的不足。
(2)GGNN(gated graph neural network):Li等人提出了GGNN是基于GRU(gated recurrent unit)的经典空间域模型,可以理解为GNN+Gate。GGNN实际上是以损失图中较长路径信息的代价换取了模型可建模的问题空间。
(3)SSE:Dai等人提出了一种随机学习框架,可有效利用学习算法中的模型参数,其主要思想是随机采样一批节点用于状态更新,随机采样一批节点用于梯度计算,以随机和异步的方式周期性更新节点隐藏状态。
综上所述,RecGNN旨在学习具有递归神经架构的节点表示。它们假设图中的节点不断与其邻接(包括邻接节点和关联边)交换信息,直到达到稳态。RecGNN在理论上很重要,它启发了后来学者们对卷积图神经网络的研究,基于空间的卷积图神经网络继承了信息传递的思想。
2.2基于卷积图神经网络ConvGNN的知识推理
基于空间域的图卷积网络直接对图的邻接节点进行聚合,可以较好反映图数据的结构关系,更适合处理有向图和大型图数据。因此,目前利用卷积图神经网络的知识推理方法都是基于空间域方法进行研究。
与RecGNN不同,基于空间的ConvGNN通过多层卷积来得到高阶节点表示,进而通过这些表示特征对图数据进行节点分类、链接预测、图分类等任务。
第一代卷积图神经网络:Henaff等人用局部连接来减少学习参数,将卷积图神经网络扩展到大规模图数据分类问题上。
第二代卷积图神经网络:Defferrard等人设计了图的快速局部卷积滤波器,其大大降低了计算复杂度和学习复杂度,可以被运用到任何图结构数据。
第三代卷积图神经网络: Kipf和Welling提出的GCN利用Chebyshev多项式拟合卷积核,可以学习图上局部结构特征并进行编码,较好地解决半监督任务。如图5(a)是用于半监督学习的多层卷积图神经网络,,输入通道为 C ,输出层为 F 特征图。图结构(边显示为黑线)在层上共享,标签用表示。图5(b)为两层GCN在Cora数据集上训练的隐藏层激活的可视化,不同颜色表示不同标签类型。卷积图神经网络传播规则可表示为:
其中,为图G的带自环邻接矩阵;为单位矩阵;为可训练权重向量;为激活函数;为第层的激活矩阵,。
核心思想:学习一个函数映射,通过该映射图中的节点可以聚合自身的信息,邻接节点信息和结构信息来生成节点的表示。ConvGNN在建立许多其他复杂的GNN模型中起着核心作用。
2.2.1基于空间域的卷积图神经网络
基于空间域的ConvGNN的知识推理,将知识图谱视作无向图,利用ConvGNN分析拓扑结构,实现邻域向中心实体的语义聚合。
(1)GCN基本思想:是把图数据中节点的高维邻接信息降维到低维的向量表示,其本质是“直推式”,即需要知道图数据的全部信息进行训练,且模型无法快速得到新节点的表示。
(2)GraphSAGE提出了一种新的方法,相比GCN捕捉图的全局信息、保存映射结果的方法,该算法属于“归纳式”,即聚合邻接信息得到图数据表示的映射函数,因此也可以对图谱中新增的节点进行表示。
(3)R-GCN为图谱中的实体生成隐性特征表示,可理解为知识图谱中的实体属性标签,并将其应用于两个任务中。
对于实体分类任务,R-GCN参考GCN算法,对图中的每个节点使用Softmax分类器进行节点分类;
对于关系预测任务,R-GCN提取每个节点的表示,通过两个节点的表示来预测节点间关系。
(4)CompGCN:一种针对多关系有向图的图神经网络来同时学习节点和关系的表示。为了降低大量不同类型关系带来的大量参数的影响,设计了一种分解操作,将所有关系都用一组基的加权组合来表示。
(5)SACN:模型使用WGCN作为编码器,将节点结构、节点属性、关系类型作为输入,WGCN中的可学习权值有助于从相邻图节点中收集自适应量的信息;将Conv-TransE作为解码器,在Conv-TransE的节点嵌入表示保留了实体和关系之间属性信息,并可以较好用于知识图谱补全任务。
SACN通过WGCN来建模KG中的实体和关系,提取实体特征,然后输入至Conv-TransE中使实体满足KG三元组约束,得到实体的嵌入表示,进而开展知识图谱补全任务。
2.2.2基于图注意力机制的卷积图神经网络
(1)GAT:
是一种基于空间结构的图神经网络,在聚合邻域特征信息时,通过注意力机制确定采样节点权重信息,比GCN多了一个自适应的边权重系数,从而实现邻域对中心贡献程度的自适应调节。GAT无需提前知道整个网络的结构,即可通过局部信息获取到网络的整体信息,避免了大量矩阵运算。
本质上,GAT是将原本GCN的标准化函数替换为使用注意力权重的邻接节点特征聚合函数。
图 8 为利用MGAT算法开展链接预测和节点分类模型框架图。
(2)KBGAT:2019年Nathani 等人提出了基于图注意力网络(GAT)的知识图谱关系推理模型KBGAT。该模型使用多头注意力机制来进行目标节点周围信息的收集,以解决隐藏信息获取困难的问题,提升了关系预测的准确率。
(3)GaAN:Zhang等人提出了基于门控注意力机制的 GaAN模型,不同于传统的多头注意机制(均衡地消耗所有的注意头),门控注意机制可以通过引入的门控单元来调节参与内容的数量,使用一个卷积子网络来控制每个注意头的重要性。由于在门控单元的构造中只引入了一个简单的、轻量级的子网,计算开销可以忽略不计,而且模型易于训练。
(4)HE-GAN:通过堆叠图注意力网络,有效学习实体的高阶邻接特征,实现对知识图谱语义的完整表达。
2.3基于图自动编码GAE的知识推理
图自动编码神经网络是一种无监督的学习框架,它将节点/图编码到潜在向量空间中,并从编码的信息中重建图数据。GAE用于学习网络嵌入和生成新的图形。
编码器:使用图卷积层来获得每个节点的网络嵌入表示。
解码器:计算给定网络嵌入的成对距离。在应用非线性激活函数后,解码器重建图邻接矩阵。
GAE通过重构邻接矩阵等图结构信息来学习潜在节点表示,它保留了节点的结构信息。
图自动编码网络分为基于网络嵌入的图自动编码方法和基于图生成的图自动编码方法。基于网络嵌入的图自编码方法利用神经网络结构将图的顶点表示为低维向量,可以用于知识图谱节点分类或链接预测任务;基于图生成的图自动编码方法是在给定一组观察到的图的情况下生成新的图,可以很好地应用到知识推理的知识补全任务中。
图自编码器的挑战:邻接矩阵的稀疏性,这使得解码器的正条目数远远小于负条目数。
解决方案:利用多层感知机作为编码器来获取节点嵌入,利用解码器重建节点的邻域统计信息。
2.3.1基于网络嵌入的图自编码方法
目的:利用神经网络结构将图的节点映射到潜在空间特征表示为低维向量,并从潜在的表示中解码图形信息,进而开展节点分类、链接预测等任务。
2.3.2基于图生成的图自编码方法
定义:是在给定一组观察到的图的情况下,使用图神经网络来表示图的节点和边之间的依赖关系生成新的图,构建图生成模型。通过将给定条件下的新生成图与原图进行对比,即可开展知识推理的知识补全任务,如实体分类、关系预测等。
(1)GAN:GAN框架由两个模块组成:生成器和鉴别器。生成器尽最大努力在LSTM网络中生成合理的随机行走序列,而鉴别器则试图区分伪造的随机行走序列和真实的随机行走序列。训练完成后,对一组随机行走中节点的共现矩阵进行正则化,可以得到一个新的图,可以用于知识图谱的链接预测任务。
2.4基于时空图神经网络STGNN的知识推理
一般GCN可以较好地捕捉知识图谱中节点之间的连接关系,保留网络中的空间关系的信息,但缺乏捕捉时间关系的能力。
时空图神经网络STGNN将卷积图神经网络扩展到时空图模型,旨在从时空图中学习隐藏模式,其基本假设是节点的未来信息取决于其历史信息及其邻接的历史信息。
核心思想:同时考虑空间依赖和时间依赖。时空图神经网络中的空间依赖关系即对应知识图谱的拓扑结构信息,时间依赖即对应知识图谱的时序信息,节点的信息即为实体属性信息。
图卷积层对时序知识图谱A进行运算捕捉知识的空间相关性(图数据的拓扑结构关系),一维CNN层沿着时间轴变化来捕捉知识的时间相关性。输出层通过多层感知机的线性变换,为每一个节点生成预测,比如下个时间步长内的节点值。
三、总结与展望
3.1总结
知识图谱推理的核心是针对三元组中的实体和关系进行预测,因此,需要对图数据的结构信息以及实体的属性信息进行表示,进而开展推理任务。
GNN依靠其强大的点和边来对非欧几里德数据建模,高效地解决了在实际应用中遇到的图结构数据问题。图神经网络可以很好地学习知识图谱中的节点信息、节点间关系信息以及全局结构信息。
基于RecGNN的知识推理通过不断地迭代传播邻接节点信息,得到图谱中节点的最终表示,进而开展知识推理。相比传统算法,模型同时考虑知识图谱的语义信息和结构信息,具备更好的可解释性和更强的推理能力;但由于在每个时间步都需要展开图中所有的节点,使得模型的收敛速度和效率较差。
基于ConvGNN的知识推理通过中心节点与邻接节点之间的卷积来表示节点间信息。模型可以通过节点采样技术提高效率吧;通过注意力机制可实现邻域对中心贡献程度的自适应调节,实现了在大型知识图谱上开展推理任务;但浅层的网络结构往往使得推理的能力受到限制,不同模型的泛化能力也相对较差。
基于GAE的知识推理利用多层感知机作为编码器,以获得节点的低维表示,然后利用解码器重构节点的邻域信息,进而开展知识推理任务;但受限于无监督学习的应用场景,整体性能有待提升。
基于STGNN的知识推理引入了时间序列特征,同时考虑知识图谱的空间信息(结构信息)和时序信息,可用于开展时序知识图谱推理任务。但模型复杂程度较高,且在时间序列中的应用效果有待提升。
标签:综述,网络应用,卷积,图谱,知识,信息,神经网络,推理,节点 From: https://blog.csdn.net/weixin_50355791/article/details/137156641