Abstract
知识图谱实现了各种各样的应用,包括问题回答和信息检索。尽管在创建和维护方面投入了巨大的努力,但即使是最大的知识库(如Yago、DBPedia或Wikidata)仍然不完整。我们介绍了关系图卷积网络(R-GCNs)并将其应用于两个标准的知识库补全任务:链接预测(恢复缺失的事实,即主题-预测-对象三要素)和实体分类(恢复缺失的实体属性)。RGCNs与最近一类在图上操作的神经网络有关,是专门为处理现实知识库的高度多关系数据而开发的。我们证明了R-GCNs作为一个独立的实体分类模型的有效性。我们进一步表明,用于链接预测的因子化模型,如DistMult,可以通过用编码器模型来充实它们,在关系图的多个推理步骤中积累证据而得到显著的改善,在FB15k-237上比只用解码器的基线有29.8%的大幅改善。
1 Introduction
知识库组织和存储事实知识,使众多的应用成为可能,包括问题回答和信息检索。即使是最大的知识库,尽管在其维护上投入了巨大的努力,也是不完整的,而覆盖面的缺乏损害了下游的应用。预测知识库中的缺失信息是统计关系学习(SRL)的主要焦点。
按照以前关于SRL的工作,我们假设知识库存储的是形式为**(主语、谓语、宾语)的三联体集合**。例如,考虑到三联体(Mikhail Baryshnikov, educated at, Vaganova Academy),我们将把Baryshnikov和Vaganova Academy作为实体,把Educated_at作为一种关系。此外,我们假设实体被标记为类型。可以方便地将知识库表示为有向标记的多重图,其中实体对应于节点,三元组由标记的边编码(见图1)。
图1:知识库片段:节点是实体,边是用其类型标记的关系,节点用实体类型标记(例如,大学)。以红色显示的边和节点标签是要推断的缺失信息。
我们考虑两个基本的SRL任务:链接预测(恢复缺失的三元组)和实体分类(为实体分配类型或分类属性)。在这两种情况下,许多缺失的信息可望存在于通过邻接结构编码的图中--例如,知道米哈伊尔-巴里什尼科夫在V aganova学院接受教育,意味着米哈伊尔-巴里什尼科夫应该有人物标签,而且三重(米哈伊尔-巴里什尼科夫,住在,俄罗斯)必须属于知识图。根据这一直觉,我们为关系图中的实体开发了一个编码器模型,并将其应用于两个任务。
我们的实体分类模型类似于Kipf和Welling(2017),在图中的每个节点使用softmax分类器。分类器采用关系图卷积网络(R-GCN)提供的节点表示,并预测标签。该模型包括R-GCN参数,通过优化交叉熵损失来学习。
我们的链路预测模型可以被视为一个自编码器,包括(1)一个编码器:一个产生实体潜在特征表示的R-GCN,和(2)一个解码器:一个利用这些表示来预测标记边缘的张量分解模型。虽然原则上解码器可以依赖任何类型的因子分解(或通常任何评分函数),但我们使用了最简单、最有效的因子分解方法之一:DistMult。我们观察到,我们的方法在标准基准上取得了有竞争力的结果,优于因子分解的直接优化。这种改进是特别大的,当我们考虑更具挑战性的FB15K-227数据集。这一结果表明,R-GCN中邻域的显式建模有助于恢复知识库中缺失的事实。
note:链接预测:
1.编码器:RGCN
2.解码器:DistMult张量分解模型。
我们的主要贡献有以下几点。据我们所知,我们是第一个表明GCN框架可以应用于关系数据的建模,特别是链接预测和实体分类任务。其次,我们引入了参数共享和执行稀疏性约束的技术,并利用这些技术将R-GCNs应用于具有大量关系的多图。最后,我们表明,以DistMult为例,因子化模型的性能可以通过用一个在关系图中进行多步骤信息传播的编码器模型来充实它们,从而显著提高。
2 神经关系模型
我们引入以下符号:我们将有向和标记的多重图表示为$G=(V,E,R)$,节点(实体)$v_i∈V$,标记的边(关系)$(v_i,r,v_j)∈E$,其中$r∈R$是一种关系类型。
2.1关系图卷积网络
我们的模型主要是作为GCN的一个扩展,GCN在局部图邻域上运行,扩展到大规模关系数据。这些方法和相关方法,如图神经网络,可以理解为简单可微消息传递框架的特殊情况:
$\begin{split}h_i^{(l+1)} = \sigma\left(\sum_{m\in M_i}g_m(h_i^{(l)},h_j^{(l)})\right),~~~~~~~~~~(1)\\end{split}$
其中$h_i^{(l)}∈R^{d^{(l)}}$是神经网络第$l$层中节点$vi$的隐藏状态,$d^{(l)}$是该层表示的维度。$g_m(.,.)$形式的传入信息被累积起来,并通过一个从端到端的激活函数$σ(.)$,如$ReLU(.) = max(0,.).$ $Mi$表示节点$vi$的传入信息集,通常被选择为与传入边集相同。$g_m(.,.)$通常被选择为一个(信息特定的)神经网络类函数或简单的线性变换$g_m(hi, hj) = Wh_j$的权重矩阵$W$,如Kipf和Welling中。
这种类型的转换在积累和编码本地结构化社区的特征方面非常有效,并在图形分类(Duvenaud et al.2015)和基于图形的半监督学习(Kipf and Welling 2017)等领域取得了重大改进。
受这些体系结构的启发,我们定义了以下简单的传播模型,用于计算关系(定向和标记)多图中由$vi$表示的实体或节点的前向传递更新:
$\begin{split}h_i^{l+1} = \sigma\left(\sum_{r\in R}\sum_{j\in N_i^r}\frac{1}{c_{i,r}}W_r^{(l)}h_j^{(l)}+W_0^{(l)}h_i^{(l)}\right)~~~~~~~~~~(2)\\end{split}$
其中$N_i^r$表示节点$i$在关系$r\in R$下的邻居索引集合,$c_{i,r}$是归一化常数。可以预先学习或选择(例如$c_{i,r}=|N_i^r|$)。
直观地说,(2)通过一个归一化的总和积累相邻节点的转换特征向量。与常规的GCN不同,我们引入了特定关系的转换,即取决于边缘的类型和方向。为了确保$l+1$层的节点的表示也能被l层的相应表示所告知,我们为数据中的每个节点添加一个特殊关系类型的单一自连接。请注意,代替简单的线性信息转换,可以选择更灵活的函数,如多层神经网络(以牺牲计算效率为代价)。我们把这个问题留给未来的工作。
神经网络层更新包括对图中的每个节点并行计算(2)。在实践中,(2)可以使用稀疏矩阵乘法有效地实现,以避免在邻域上进行显式求和。可以堆叠多个层,以允许跨多个关系步骤的依赖关系。我们将这种图编码器模型称为关系图卷积网络(R-GCN)。R-GCN模型中单节点更新的计算图如图2所示。
图2:计算R-GCN模型中单个图形节点/实体(红色)的更新图。邻近节点(深蓝色)的激活值(d维向量)被收集起来,然后对每种关系类型进行单独转换(对入站和出站的边)。由此产生的表示(绿色)被累积为一个(归一化的)总和,并通过一个激活函数(如ReLU)。这种每个节点的更新可以用整个图的共享参数来并行计算。
2.2 正则化
将(2)应用于高度多关系数据的一个核心问题是参数数量随着图中关系数量的增加而快速增长。在实践中,这很容易导致对稀有关系的过度拟合,并导致模型的规模非常大。
为了解决这个问题,我们引入了两种独立的方法来规范R-GCN-层的权重:基数分解和块对角线分解。通过基数分解,每个$W_r^{(l)}$的定义如下:
$\begin{split}W_r^{(l)}=\sum\limits_{b=1}^B a_{rb}^{(l)}V_b^{(l)}~~~~~~~~~~(3)\\end{split}$
即作为基数变换$V_b^{(l)}∈R^{{d^{(l+1)}}×d^{(l)}}$的线性组合,其系数为$a_{rb}^{(l)}$,这样只有系数取决于$r$。在块对角线分解中,我们让每个$W_r^{(l)}$通过对一组低维矩阵的直接和来定义:
因此,$W_r^{(l)}$是块对角线矩阵:$diag(Q_{1r}^{(l)} , . . . , Q_{Br}^{(l)})$,其中$Q_{br}^{(l)}∈R^{(d(l+1)/B)×(d(l)/B)}$。
基数分解(3)可以被看作是不同关系类型之间有效的权重共享形式,而块分解(4)可以被看作是对每个关系类型的权重矩阵的稀疏性约束。块分解结构编码了一种直觉,即潜在特征可以被分组为变量集,这些变量集在组内比组间的耦合更紧密。这两种分解方式都减少了学习高度多关系数据(如现实的知识库)所需的参数数量。同时,我们期望基础参数化能够缓解罕见关系上的过度拟合,因为参数更新在罕见关系和更频繁的关系之间共享。
note:正则化的优点:
1.少了学习高度多关系数据(如现实的知识库)所需的参数数量
2.缓解罕见关系上的过度拟合
整个R-GCN模型的形式如下。我们按照(2)中的定义堆叠L层--前一层的输出是下一层的输入。如果没有其他特征,第一层的输入可以被选为图中每个节点的唯一的one-hot向量。对于区块表示,我们通过一个单一的线性变换将这个one-hot向量映射到密集表示。虽然我们在这项工作中只考虑了这种无特征的方法,但我们注意到,Kipf和Welling(2017)中显示,这类模型有可能利用预定义的特征向量(例如,与特定节点相关的文件的词包描述)。
3 实体分类
对于节点(实体)的(半)监督分类,我们简单地堆叠形式为(2)的R-GCN层,在最后一层的输出上有一个$softmax(.)$激活(每个节点)。我们在所有标记的节点上最小化以下交叉熵损失(同时忽略未标记的节点)。
$L=- \sum_{i∈\gamma}\sum_{k=1}^K t_{ik}lnh_{ik}^{(l)} ~~~~~~~~~~$(5)
note:RGCN中的交叉熵损失函数
其中,$\gamma$是有标签的节点索引集,$h_{ik}^{(L)}$是第$i$个有标签的节点的网络输出的第$k$个条目。 $t_{ik}$表示其各自的真实标签。在实践中,我们使用(全批)梯度下降技术训练模型。图3a中给出了我们的实体分类模型的示意图。
图3:(a)描述了一个具有每个节点损失函数的实体分类的R-GCN模型。(b) 带有R-GCN编码器(穿插有完全连接/密集层)和DistMult解码器的链接预测模型,该解码器采用成对的隐藏节点表示,并为图中的每条(潜在)边产生一个分数。每条边的损失都被评估。
4 链接预测
链接预测是指对新的元素(即三要素(主体、关系、客体))的预测。从形式上看,知识库由一个有方向的、标记的图$G=( \nu , \varepsilon ,R)$表示。我们得到的不是完整的边$\varepsilon$,而只是一个不完整的子集$\hat{\varepsilon}$。我们的任务是给可能的边$(s, r, o)$分配分数$f(s, r, o)$,以确定这些边属于$\varepsilon$的可能性。
为了解决这个问题,我们引入了一个图自编码器模型,由一个**实体编码器和一个评分函数(解码器)**组成。编码器将每个实体$v_i∈V$映射到一个实值向量$e_i∈R^d$。解码器依靠节点表示重建图的边;换句话说,它通过一个函数$s:R^d × R × R^d → R$对(主体、关系、客体)三要素进行评分。大多数现有的链接预测方法(例如,张量和神经因子化方法)都可以在这个框架下进行解释。我们工作的关键区别在于对编码器的依赖。以前的大多数方法在训练中对每一个$v_i∈V$直接使用一个实值向量$e_i$进行优化,而我们通过一个R-GCN编码器计算表征,$e_i=h_i^{(L)}$,类似于Kipf和Welling(2016)介绍的用于无标签无定向图的图自动编码器模型。我们的完整链接预测模型在图3b中得到了示意性的描述。
在我们的实验中,我们使用DistMult因子化(Y ang等人,2014)作为评分函数,众所周知,当它单独使用时,在标准链接预测基准上表现良好。在DistMult中,每个关系r都与一个对角矩阵$R_r∈R^{d×d}$相关联,一个三联体$(s, r, o)$的评分为:
$f(s, r, o)=e^T_sR_se_o~~~~~~~~~~(6)$
note:评分函数
和以前的因式分解工作一样,我们用负抽样来训练模型。对于每个观察到的例子,我们抽取$ \omega $个负面的例子。我们通过随机破坏每个正面例子的主体或客体来进行抽样。我们对交叉熵损失进行优化,以推动模型对可观察的三联体的评分高于负面的:
$L=-1 \frac{1}{(1+\omega)|\hat{ \varepsilon }|} \sum_{(s,r,o,y)∈ \tau }ylogl(f(s,r,o))+(1-y)log(1-l(f(s,r,o)))~~~~~~~~~~(7)$
其中,$\tau$是真实的和被破坏的三联体的总集合,$l$是logistic sigmoid函数,y是一个指标,正三联体为y=1,负三联体为y=0。
5 实验评估
5.1实体分类实验
在这里,我们考虑对知识库中的实体进行分类的任务。例如,为了推断一个实体的类型(如个人或公司),一个成功的模型需要推理这个实体与其他实体的关系。
数据集 我们在资源描述框架(RDF)格式的四个数据集上评估我们的模型。AIFB、MUTAG、BGS和AM。这些数据集中的关系不一定要编码有指向性的主客体关系,但也被用来编码某个实体的特定特征的存在或不存在。在每个数据集中,要分类的目标是以节点表示的一组实体的属性。这些数据集的确切统计数字可以在表1中找到。关于数据集的更详细描述,读者可以参考Ristoski, de Vries, and Paulheim(2016)。我们删除了用于创建实体标签的关系:AIFB的employs和affiliation,MUTAG的isMutagenic,BGS的hasLithogenesis,以及AM的objectCategory和material。
表1:每个数据集的实体、关系、边和类的数量以及标记的实体数量。标记的表示有标签的实体子集,这些实体将被分类。
基线 作为我们实验的基线,我们与RDF2Vec嵌入(Ristoski和Paulheim 2016)、Weisfeiler-Lehman内核(WL)(Shervashidze等人,2011;de Vries和de Rooij 2015)以及手工设计的特征提取器(Feat)(Paulheim和Fümkranz 2012)的最新分类结果进行比较。Feat从每个标记的实体的入度和出度(每个关系)中集合一个特征向量。RDF2Vec在已标记的图上提取行走,然后用Skipgram(Mikolov等人,2013)模型处理,以产生实体嵌入,用于后续分类。参见Ristoski和Paulheim(2016)对这些基线方法的深入描述和讨论。所有的实体分类实验都在拥有64GB内存的CPU节点上运行。
result 表2中的所有结果都是根据Ristoski, de Vries, and Paulheim (2016)的训练/测试基准分割报告的。我们进一步留出20%的训练集作为验证集,用于超参数调整。对于R-GCN,我们报告了一个具有16个隐藏单元(AM为10个)的2层模型的性能,基数分解(公式3),用Adam(Kingma和Ba 2014)训练50个epochs,学习率为0.01。归一化常数被选为$c_{(i,r)} = |N_{ri }|$。关于(基线)模型和超参数选择的更多细节在补充材料中提供。
表2:基于特征的基线、WL(Shervashidze等人,2011;de Vries和de Rooij,2015)、RDF2Vec(Ristoski和Paulheim,2016)和R-GCN(这项工作)的实体分类结果(10次运行的平均值)。测试性能是根据Ristoski、de Vries和Paulheim(2016)提供的训练/测试集的分割报告。
我们的模型在AIFB和AM上取得了最先进的结果。为了解释在MUTAG和BGS上的性能差距,了解这些数据集的性质很重要。MUTAG是一个分子图的数据集,后来被转换为RDF格式,其中关系要么表示原子键,要么仅仅表示某个特征的存在。BGS是一个具有分层特征描述的岩石类型数据集,它同样被转换为RDF格式,其中关系编码了某个特征或特征层次的存在。MUTAG和BGS中的标签实体只通过编码某种特征的高度中心节点连接。
我们猜想,固定选择归一化常数来聚合来自相邻节点的信息是造成这种行为的部分原因,这对于高度节点来说可能特别有问题。克服这一限制的一个潜在方法是引入注意力机制,即用与数据相关的注意力权重$a_{ij,r}$取代归一化常数$1/c_{i,r}$,其中$\sum_{j,r} a_{ij,r}= 1$。我们希望这是未来研究的一个有希望的途径。
5.2 链接预测实验
如上一节所示,R-GCNs可以作为关系数据的一个有效编码器。我们现在将我们的编码器模型与一个评分函数(我们将其称为解码器,见图3b)结合起来,为知识库中的链接预测的候选三元组评分。
数据集 链接预测算法通常在FB15k(关系数据库Freebase的一个子集)和WN18(WordNet的一个子集,包含单词之间的词汇关系)上进行评估。在Toutanova和Chen的研究中,在两个数据集中都观察到了一个严重的缺陷。存在反三联体对$t=(e_1,r,e_2)$和$t^=(e_2,r^{-1},e_1)$,其中t在训练集,$t^$在测试集。这就把预测任务的很大一部分减少到对受影响的三联体对的记忆。一个简单的基线LinkFeat在观察到的训练关系的稀疏特征向量之上采用了一个线性分类器,被证明比现有的系统要好很多。为了解决这个问题,Toutanova和Chen提出了一个缩小的数据集FB15k-237,其中删除了所有这样的反向三联体对。因此,我们选择FB15k-237作为我们的主要评估数据集。由于FB15k和WN18仍然被广泛使用,我们也包括使用Bordes等人介绍的分割法在这些数据集上的结果。
表3:三个数据集的实体和关系类型的数量,以及每个分割的边的数量。
基线 两个实验的共同基线是DistMult的直接优化(Y ang等人,2014)。这个因式分解策略已知在标准数据集上表现良好,并且进一步对应于我们模型的一个版本,即用固定的实体嵌入来代替第4节中描述的R-GCN编码器。作为第二条基线,我们增加了Toutanova和Chen(2015)提出的基于邻居的简单LinkFeat算法。
我们进一步与ComplEx和HolE这两个针对FB15k和WN18的最先进的链接预测模型进行比较。ComplEx通过将DistMult泛化到复数领域来促进不对称关系的建模,而HolE用循环相关取代了矢量矩阵乘积。最后,我们包括与两个经典算法的比较--CP(Hitchcock 1927)和TransE(Bordes等人,2013)。
Results 我们提供了两个常用的评估指标的结果:平均倒数排名(MRR)和点击率(Hit)。按照Bordes等人(2013)的做法,这两个指标都可以在原始和过滤的情况下计算。我们同时报告了过滤后的和原始的MRR(过滤后的MRR通常被认为更可靠),以及在1、3和10处过滤的点击率。
我们在各自的验证分割上评估超参数选择。我们发现定义为$c_{i,r} = c_i = \sum_r|N_i^r|$的归一化常数--换句话说,适用于所有关系类型--效果最好。对于FB15k和WN18,我们报告了使用两个基函数的基分解(公式3)和一个具有200维嵌入的单一编码层的结果。对于FB15k-237,我们发现块分解(公式4)表现最好,使用两层块维度5×5和500维的嵌入。我们通过在归一化之前应用的边缘剔除来规范编码器,自循环的剔除率为0.2,其他边缘为0.4。使用边缘剔除使我们的训练目标类似于去噪自动编码器。我们对解码器应用$l2$正则化,惩罚为0.01。
我们使用Adam优化器,学习率为0.01。对于基线和其他因子化,我们发现来自Trouillon等人(2016)的参数--除了FB15k-237上的维度--效果最好,尽管为了使系统具有可比性,我们保持相同数量的负样本(即ω=1)。我们对基线和我们的模型都使用了全批次的优化。
在FB15k上,以逆向关系为形式的局部上下文预计将主导因式分解的性能,与R-GCN模型的设计形成对比。为了更好地理解这种差异,我们在图4中绘制了最佳R-GCN模型和基线(DistMult)的FB15k性能,作为与所考虑的三重中的实体对应的节点度的函数(即主体和客体实体度的平均值)。可以看出,我们的模型在上下文信息丰富的高等级节点上表现更好。观察到这两个模型是互补的,建议将两者的优势结合到一个单一的模型中,我们称之为R-GCN+。在FB15k和WN18上,本地和长距离信息都能提供强大的解决方案,我们期望R-GCN+的表现能超过每个单独的模型。在FB15k-237上,本地信息不那么突出,我们预计组合模型不会明显超过纯R-GCN模型。为了测试这一点,我们用一个经过训练的R-GCN模型和一个单独训练的DistMult分解模型来评估一个组合(R-GCN+):$f(s,r,t){R-GCN+}=αf(s,r,t){R-GCN}+(1-α)f(s,r,t)_{DistMult}$,$α=0.4$在FB15k开发数据上选择。
图4:R-GCN和DistMult在FB15k验证数据上的平均倒数等级(MRR)与节点程度(主语和宾语的平均值)的关系。
在表4中,我们评估了FB15k和WN18上的R-GCN模型和组合模型(R-GCN+)。
表4:Freebase和WordNet数据集的结果。标记的(*)结果来自Trouillon等人(2016)。标记(**)的结果来自Nickel, Rosasco和Poggio(2015)。R-GCN+表示R-GCN和DistMult之间的组合--详见正文。
在FB15k和WN18数据集上,R-GCN和R-GCN+的表现都优于DistMult基线,但与所有其他系统相比,在这两个数据集上的表现不如LinkFeat算法。**这个基线的强大结果强调了反向关系对在这些数据集上的高性能解决方案的贡献。**有趣的是,RGCN+在FB15k上产生了比ComplEx更好的性能,尽管R-GCN解码器(DistMult)没有明确地模拟关系中的不对称性,与ComplEx不同。
这表明,将R-GCN编码器与ComplEx评分函数(解码器)相结合可能是未来工作的一个有前途的方向。评分函数的选择与编码器的选择是正交的;原则上,任何评分函数或分解模型都可以作为解码器纳入我们的自动编码器框架中。
在表5中,我们显示了FB15k-237的结果,其中(如前所述)反向关系对已被删除,LinkFeat基线未能概括。在这里,我们的R-GCN模型比DistMult基线高出了29.8%的大比例,突出了单独的编码器模型的重要性。正如我们之前的分析所预期的那样,R-GCN和R-GCN+在这个数据集上表现出相似的性能。R-GCN模型与其他因式分解方法相比更有优势,尽管它依赖于DistMult解码器,该解码器在没有编码器的情况下显示出相对较弱的性能。
表5:FB15k-237的结果,FB15k的简化版本的缩小版,删除了有问题的反向关系对。
6相关工作
6.1关系建模
在SRL的背景下,已经提出并研究了许多替代的因式分解,包括(双)线性的和非线性的(例如,(Bordes等人,2013;Socher等人,2013;Chang等人,2014;Nickel、Rosasco和Poggio,2015;Trouillon等人,2016))。其中许多方法可以被视为经典张量分解方法(如CP或Tucker)的修改或特例;关于张量分解文献的全面概述,我们请读者参考Kolda和Bader(2009)。
在知识库中纳入实体之间的路径最近受到了极大的关注。我们可以将以前的工作大致分为:(1)创建辅助三要素的方法,然后将其添加到因式分解模型的学习目标中(Guu, Miller, and Liang 2015; Garcia-Duran, Bordes, and Usunier 2015);(2)在预测边缘时使用路径(或步行)作为特征的方法(Lin等人,2015);或者(3)同时做这两件事(Neelakantan, Roth, and McCallum 2015; Toutanova et al. 2016)。第一个方向在很大程度上与我们的方向正交,因为我们也希望通过在我们的损失中加入类似的条款(换句话说,扩展我们的解码器)来实现改进。第二个研究方向更具可比性;R-GCNs为这些基于路径的模型提供了一个计算上更便宜的替代方案。直接的比较有些复杂,因为基于路径的方法使用了不同的数据集(例如,从知识库中抽取的子采样的行走集)。
6.2图神经网络
我们的R-GCN编码器模型与图上神经网络领域的一些工作密切相关。它的主要动机是对以前关于GCN的工作(Bruna等人,2014;Duvenaud等人,2015;Defferrard, Bresson, and V andergheynst,2016;Kipf and Welling,2017)进行调整,用于大规模和高度多关系的数据,这是现实知识库的特点。
这一领域的早期工作包括Scarselli等人(2009)的图神经网络。已经提出了一些对原始图神经网络的扩展,最引人注目的是(Li等人,2016年)和(Pham等人,2017年),它们都利用门控机制来促进优化。
R-GCNs可以进一步被看作是消息传递神经网络的一个子类(Gilmer等人,2017),它包含了以前的一些图的神经模型,包括GCNs,在一个可微调的消息传递解释下。
7结论
我们介绍了关系图卷积网络(R-GCNs),并在两个标准的统计关系建模问题中证明了它们的有效性:**链接预测和实体分类。**对于实体分类问题,我们已经证明了R-GCN模型可以作为一个有竞争力的、端到端的可训练的基于图的编码器。对于链接预测,以DistMult分解为解码组件的R-GCN模型优于分解模型的直接优化,并在标准链接预测基准上取得了有竞争力的结果。事实证明,用RGCN编码器丰富因式分解模型对具有挑战性的FB15k-237数据集特别有价值,比只用解码器的基线提高了29.8%。
我们的工作有几种方式可以扩展。例如,可以考虑将图自动编码器模型与其他因子化模型结合起来,如ComplEx(Trouillon等人,2016),它可以更好地用于建模非对称关系。在R-GCNs中整合实体特征也是很直接的,这对链接预测和实体分类问题都有好处。为了解决我们方法的可扩展性,值得探索子采样技术,如Hamilton, Ying, and Leskovec (2017)。最后,将目前对相邻节点和关系类型的求和形式替换为与数据相关的注意力机制将是有希望的。除了为知识库建模,R-GCNs还可以被推广到其他关系因式分解模型被证明有效的应用中(例如关系提取)。
标签:编码器,关系数据,模型,实体,建模,GCN,卷积,节点,我们 From: https://blog.51cto.com/u_16346809/8247699