ICLR 2018
Abstract
我们提出了图注意网络(GATs),这是一种新型的神经网络架构,在图结构的数据上进行操作,利用掩蔽的自注意层来解决先前基于图卷积或其近似的方法的缺点。通过堆叠层,其中的节点能够关注其邻域的特征,我们能够(隐含地)为邻域的不同节点指定不同的权重,而不需要任何昂贵的矩阵操作(如反转)或取决于预先知道的图形结构。通过这种方式,我们同时解决了基于频谱的图神经网络的几个关键挑战,并使我们的模型很容易适用于归纳和直推的问题。我们的GAT模型在四个既定的直推性和归纳性图的基准上取得了或与之相匹配的最先进的结果:Cora、Citeseer和Pubmed引文网络数据集,以及一个蛋白质相互作用数据集(其中测试图在训练期间保持未见)。
1 INTRODUCTION
卷积神经网络(CNN)已被成功应用于解决图像分类、语义分割或机器翻译等问题,其中基础数据表示具有网格状结构。 这些架构有效地重用了他们的局部过滤器,具有可学习的参数,通过将它们应用于所有的输入位置。
然而,许多有趣的任务涉及的数据不能用网格状的结构来表示,而是在一个不规则的领域。这就是三维网格、社会网络、电信网络、生物网络或大脑连接体的情况。这些数据通常可以用图的形式来表示。
在文献中,已经有一些尝试来扩展神经网络以处理任意结构的图。早期的工作是使用递归神经网络来处理图域中表示为有向无环图的数据。Gori等人和Scarselli等人介绍了图神经网络(GNNs),作为递归神经网络的概括,它可以直接处理更广泛的图类,如循环图、有向图和无向图。GNNs由一个迭代过程组成,它传播节点状态直到平衡;然后是一个神经网络,它根据每个节点的状态产生一个输出。Li等人采用并改进了这一想法,提出在传播步骤中使用门控循环单元。
然而,人们对将卷积推广到图域越来越感兴趣。这方面的进展通常分为谱方法和非谱方法。
一方面,频谱方法与图的频谱表示一起工作,并已成功应用于节点分类的背景。在Bruna等人的研究中,卷积操作是通过计算图拉普拉斯的谱分解在傅里叶域定义的,这导致了潜在的密集计算和非空间定位的过滤器。这些问题在随后的工作中得到了解决。Henaff等人引入了一个具有平滑系数的谱滤波器的参数化,以使它们在空间上本地化。后来,Defferrard等人提出通过图拉普拉斯的切比雪夫展开来近似滤波器,消除了计算拉普拉斯特征向量的需要,产生了空间定位的滤波器。最后,Kipf & Welling通过限制过滤器在每个节点周围的1步邻域内运行,简化了以前的方法。然而,在上述所有的谱方法中,学习到的过滤器取决于拉普拉斯特征基数,而这取决于图的结构。因此,一个在特定结构上训练的模型不能直接应用于不同结构的图。
另一方面,我们有非谱系方法,这些方法直接在图上定义卷积,对空间上接近的邻域组进行操作。这些方法的挑战之一是定义一个运算器,该运算器可以处理不同大小的邻域并保持CNN的权重共享特性。在某些情况下,这需要为每个节点的度学习特定的权重矩阵,使用过渡矩阵的权重来定义邻域,同时为每个输入通道和邻域度学习权重,或者提取和规范化包含固定数量节点的邻域。Monti等人提出了混合模型CNN(MoNet),这是一种空间方法,它提供了CNN架构对图的统一概括。最近,Hamilton等人介绍了GraphSAGE,一种以归纳方式计算节点表示的方法。这种技术通过对每个节点的固定大小的邻域进行采样,然后对其进行特定的聚合(如所有采样邻域的特征向量的平均值,或通过循环神经网络的结果)。这种方法在几个大规模的归纳基准中产生了令人印象深刻的性能。
在许多基于序列的任务中,注意力机制几乎已经成为事实上的标准。注意力机制的好处之一是**它们允许处理大小不一的输入,专注于输入中最相关的部分来做决定。**当注意力机制被用来计算单一序列的表征时,它通常被称为自注意力或内部注意力。与循环神经网络(RNN)或卷积一起,自注意被证明对机器阅读和学习句子表征等任务很有用。然而,Vaswani等人表明,自注意力不仅可以改善基于RNN或卷积的方法,而且它也足以构建一个强大的模型,在机器翻译任务上获得最先进的性能。
受这项最新工作的启发,我们引入了一个基于注意力的架构来进行图结构数据的节点分类。**这个想法是通过关注它的邻居来计算图中每个节点的隐藏表征,遵循一个自注意的策略。**注意力结构有几个有趣的特性:(1)操作是有效的,因为它可以在节点与邻居之间并行;(2)它可以通过对邻居指定任意的权重来应用于具有不同程度的图形节点;(3)该模型直接适用于归纳学习问题,包括该模型必须概括到完全未见过的图形的任务。我们在四个具有挑战性的基准上验证了提议的方法。Cora、Citeseer和Pubmed引文网络以及一个归纳的蛋白质-蛋白质相互作用数据集,达到或符合最先进的结果,突出了基于注意力的模型在处理任意结构的图时的潜力。
值得注意的是,正如Kipf & Welling和Atwood & Towsley一样,我们的工作也可以被重新表述为MoNet的一个特殊实例。此外,我们跨边共享神经网络计算的方法让人想起关系网络和V AIN的表述,其中对象或代理之间的关系是成对聚集的,通过采用共享机制。同样,我们提出的注意力模型可以与Duan等人和Denil等人的工作联系起来,他们使用邻域注意力操作来计算环境中不同物体之间的注意力系数。其他相关方法包括局部线性嵌入(LLE)和记忆网络(。LLE在每个数据点周围选择固定数量的邻居,并为每个邻居学习一个权重系数,将每个点重建为其邻居的加权和。第二个优化步骤是提取该点的特征嵌入。记忆网络也与我们的工作有一些联系,特别是如果我们把一个节点的邻域解释为记忆,它通过参加它的值来计算节点的特征,然后通过把新的特征存储在同一位置来更新。
2 GAT结构
在本节中,我们将介绍用于构建任意图注意网络的构件层(通过堆叠该层),并直接概述其与神经图处理领域先前工作相比在理论和实践上的优势和局限。
2.1 图注意层
我们将首先描述一个单一的图形注意层,作为我们实验中使用的所有GAT架构的唯一层。我们所使用的特定注意力设置紧跟Bahdanau等人的工作--但该框架与特定的注意力机制选择无关。
我们层的输入是一组节点特征,$h ={\overrightarrow{h_1} ,\overrightarrow{h_2},. . . ,\overrightarrow{h_N} },\overrightarrow{h_i}∈R^F$,其中$N$是节点的数量,$F$是每个节点的特征数量。该层产生一组新的节点特征(可能是不同的心数$F^\prime $),$h^\prime = {\overrightarrow{h^\prime_1},\overrightarrow{h^\prime_2},. . ,\overrightarrow{h^\prime_N}},\overrightarrow{h^\prime_i}∈R^{F^\prime}$,作为其输出。
为了获得足够的表达能力,将输入特征转化为更高层次的特征,至少需要一个可学习的线性变换。为此,作为初始步骤,一个共享的线性变换,由一个权重矩阵$W∈R^{F^\prime×F}$来参数化,被应用于每个节点。然后,我们对节点进行自注意--共享注意机制$a:R^{F^\prime}× R^{F^\prime} → R$计算注意系数。
$$e_{ij} = a(W\overrightarrow{h_i}, W\overrightarrow{h_j})~~~~~~~~~~~~~~(1) $$
这说明节点$j$的特征对节点$i$的重要性。在其最一般的表述中,该模型允许每个节点关注其他每个节点,放弃所有结构信息。我们通过执行掩饰性注意将图的结构注入机制--我们只计算节点$j∈N_i$的$e_{ij}$,其中$N_i$是图中节点$i$的某个邻居。在我们所有的实验中,这些将是$i$的一阶邻居(包括i)。为了使系数在不同的节点之间容易比较,我们用$softmax$函数对所有选择的$j$进行归一化。
$$\alpha_{ij} = softmax_j(e_{ij}) = \frac{exp(e_{ij})}{\sum_{k∈N_i}exp(e_{ik})}~~~~~~~~~~~~(2) $$
在我们的实验中,注意力机制$a$是一个单层前馈神经网络,由一个权重向量$\overrightarrow{a}∈R^{2F^\prime}$参数化,并应用$LeakyReLU$非线性(负输入斜率$α = 0.2$)。完全展开后,注意力机制计算出的系数(如图1(左)所示)可以表示为:
$$\alpha_{ij} = \frac{exp(LeakyReLU(\overrightarrow{a}^T[W\overrightarrow{h_i}||W\overrightarrow{h_j}]))}{\sum_{k∈N_i}exp(LeakyReLU(\overrightarrow{a}^T[W\overrightarrow{h_i}||W\overrightarrow{h_k}]))}~~~~~~~~~~~~(3)$$
式中,$T$表示转置,$||$表示拼接操作。
图1:左图:我们的模型采用的注意力机制$a(W\overrightarrow{h_i}, W\overrightarrow{h_j})$,由权重向量参$\overrightarrow{a}∈R^{2F^\prime}$参数化,应用$LeakyReLU$激活。右图。节点1对其邻居的多头关注(K=3头)的说明。不同的箭头样式和颜色表示独立的注意力计算。每个头的聚合特征被串联或平均,以获得$\overrightarrow{h^\prime_1}$。
一旦得到,归一化的注意力系数被用来计算与之对应的特征的线性组合,作为每个节点的最终输出特征(在可能应用了非线性后,$σ$)。
$$\overrightarrow{h^\prime_i} = σ(\sum_{j∈N_j}\alpha_{ij} W\overrightarrow{h}_j)~~~~~~~~(4) $$
为了稳定自注意的学习过程,我们发现将我们的机制扩展到采用多头注意是有益的,与Vaswani等人的做法类似。具体来说,K个独立的注意力机制执行公式4的转换,然后它们的特征被串联起来,形成以下的输出特征表示:
$$\overrightarrow{h^\prime_i} = ||^K_{k=1}σ(\sum_{j∈N_j}\alpha_{ij}^k W^k\overrightarrow{h}_j)~~~~~~~~(5) $$
其中$||$表示串联操作,$α^k_{ij}$是由第$k$个注意力机制($a^k$)计算的归一化注意力系数,$W^k$是相应的输入线性变换的权重矩阵。
请注意,在这种情况下,最终返回的输出,$h^\prime$,将由每个节点的$KF^\prime$特征(而不是$F^\prime$)组成。
特别的,如果我们在网络的最后一层(预测)进行多头关注,串联就不再是明智之举--相反,我们采用平均法,并将最后的非线性(通常是分类问题中的$softmax$或$logistic sigmoid$)的应用推迟到那时。
$$\overrightarrow{h^\prime_i} = σ(\frac{1}{K}\sum^{K}{k=1}\sum{j∈N_j}\alpha_{ij}^k W^k\overrightarrow{h}_j)~~~~~~~~(6)$$
多头图注意层的聚合过程如图1(右)所示。
2.2与相关工作的比较
2.1小节中描述的图注意层直接解决了之前用神经网络对图结构数据进行建模的方法中存在的几个问题。
-
在计算上,它具有很高的效率:自注意层的操作可以在所有边上并行化,而输出特征的计算可以在所有节点上并行化。不需要谱分解或类似的昂贵的矩阵操作。单个GAT注意头计算$F^\prime$特征的时间复杂度可以表示为$O(|V |FF^\prime + |E|F^\prime)$,其中$F$是输入特征的数量,$|V|和|E|$分别是图中的节点和边的数量。这一复杂度与图卷积网络(GCNs)等基准方法相当。应用多头关注使存储和参数要求增加了$K$倍,而各个头的计算是完全独立的,可以并行化。
-
与GCNs不同,我们的模型允许(隐含地)为同一邻域的节点分配不同的重要性,从而使模型的能力得到飞跃。此外,分析学习到的注意力权重可能会带来可解释性方面的好处,正如机器翻译领域的情况一样(例如Bahdanau等人(2015)的定性分析)。
-
注意力机制以共享的方式应用于图中的所有边,因此它不依赖于对全局图结构或其所有节点(特征)的预先访问(许多先前技术的限制)。这有几个理想的含义。
-
图不需要是无定向的(如果边$j→i$不存在,我们可以简单地不计算$α_{ij}$)。
-
它使我们的技术直接适用于归纳学习--包括在训练期间完全未见的图上评估模型的任务。
-
-
最近发表的Hamilton等人(2017)的归纳方法对每个节点的固定大小的邻域进行采样,以保持其计算足迹一致;这不允许它在执行推理时访问邻域的全部内容。此外,当使用基于LSTM(Hochreiter & Schmidhuber, 1997)的邻域聚合器时,该技术取得了一些最强的结果。这假定存在一个跨邻域的一致的顺序节点排序,而作者通过持续向LSTM提供随机排序的序列来纠正它。我们的技术不存在这两个问题--它与整个邻域一起工作(以可变的计算足迹为代价,但仍与GCN等方法相当),并且不假定它内部存在任何排序。
-
如第1节所述,GAT可以被重新表述为MoNet(Monti等人,2016)的一个特殊实例。更具体地说,将伪坐标函数设置为$u(x, y) = f(x)||f(y)$,其中$f(x)$代表节点$x$的(可能是MLP变换的)特征,$||$是连接;而权重函数为$w_j(u) = softmax(MLP(u)) $(在节点的整个邻域上执行$softmax$),将使MoNet的补丁运算符与我们的相似。尽管如此,人们应该注意到,与之前考虑的MoNet实例相比,我们的模型使用节点特征进行相似性计算,而不是节点的结构属性(这将假设预先知道图的结构)。
我们能够产生一个利用稀疏矩阵操作的GAT层的版本,将存储复杂性降低到节点和边的数量的线性,并使GAT模型在更大的图数据集上执行。然而,我们使用的张量操作框架只支持等级为2的张量的稀疏矩阵乘法,这限制了该层目前实现的批处理能力(特别是对于有多个图的数据集)。适当地解决这一限制是未来工作的一个重要方向。根据现有图结构的规律性,在这些稀疏的情况下,与CPU相比,GPU可能无法提供主要的性能优势。还应该注意的是,我们模型的 "感受野 "的大小是由网络的深度来限制的(与GCN和类似模型类似)。然而,诸如跳过连接(He等人,2016)的技术可以很容易地应用于适当地扩展深度。最后,在所有的图边上进行并行化,特别是以分布式的方式,可能会涉及大量的冗余计算,因为在感兴趣的图中,邻域往往会高度重叠。
3评价
我们对GAT模型与各种强大的基线和以前的方法进行了比较评估,在四个既定的基于图的基准任务(直推以及归纳)上,在所有这些任务中都达到或符合最先进的性能。本节总结了我们的实验设置、结果以及对GAT模型提取的特征表示的简要定性分析。
3.1数据集
直推学习 我们利用三个标准的引文网络基准数据集--Cora、Citeseer和Pubmed--并严格遵循Yang等人的直推实验设置。在所有这些数据集中,节点对应于文献,边对应于(无定向)引文。节点特征对应于文档的词包表示法的元素。每个节点都有一个类别标签。我们允许每个类别只有20个节点用于训练--然而,为了尊重反演设置,训练算法可以获得所有节点的特征向量。训练后的模型的预测能力在1000个测试节点上进行评估,我们使用500个额外的节点进行验证(与Kipf & Welling(2017)使用的节点相同)。Cora数据集包含2708个节点,5429条边,7个类,每个节点1433个特征。Citeseer数据集包含3327个节点,4732条边,6个类,每个节点3703个特征。Pubmed数据集包含19717个节点,44338条边,3个类和每个节点500个特征。
归纳学习 我们利用蛋白质-蛋白质相互作用(PPI)数据集,该数据集由对应于不同人体组织的图组成(Zitnik & Leskovec, 2017)。该数据集包含20个训练用图,2个验证用图和2个测试用图。关键是,测试图在训练期间完全没有被观察到。为了构建图形,我们使用了Hamilton等人(2017)提供的预处理数据。每个图的平均节点数为2372个。每个节点有50个特征,由位置基因组、主题基因组和免疫学特征组成。每个节点集有121个标签,来自基因本体论,收集自分子特征数据库(Subramanian等,2005),一个节点可以同时拥有几个标签。
表1给出了这些数据集特征的概述。
3.2 SOTA方法
直推学习 对于直推学习任务,我们与Kipf & Welling(2017)中规定的相同的强基线和最先进的方法进行比较。这包括标签传播(LP)(Zhu等人,2003)、半监督嵌入(SemiEmb)(Weston等人,2012)、流形正则化(ManiReg)(Belkin等人,2006)、基于跳格的图嵌入(DeepWalk)(Perozzi等人,2014)、迭代分类算法(ICA)(Lu & Getoor,2003)和Planetoid(Yang等人,2016)。我们还直接将我们的模型与GCN(Kipf & Welling,2017),以及利用高阶切比雪夫滤波器的图卷积模型(Defferrard等人,2016)和Monti等人(2016)提出的MoNet模型进行比较。
归纳学习 对于归纳学习任务,我们与Hamilton等人(2017)提出的四种不同的有监督的GraphSAGE归纳方法进行比较。这些方法提供了各种在采样邻域内聚集特征的方法。GraphSAGE-GCN(将图卷积式操作扩展到归纳设置中)、GraphSAGE-mean(取特征向量的元素平均值)、GraphSAGE-LSTM(通过将邻域特征送入LSTM进行聚合)和GraphSAGE-pool(取由共享非线性多层感知器转化的特征向量的元素最大化操作)。其他归纳法要么在归纳法中完全不合适,要么假定节点被逐步添加到一个单一的图中,使得它们无法用于测试图在训练期间完全不可见的设置(如PPI数据集)。
此外,对于这两个任务,我们都提供了每个节点共享多层感知器(MLP)分类器的性能(它根本不包含图结构)。
3.2 实验设置
直推学习 对于直推学习任务,我们应用一个两层的GAT模型。它的架构超参数已经在Cora数据集上进行了优化,然后被重新用于Citeseer。第一层由$K = 8$个注意力头组成,每个注意力头计算$F^\prime = 8$个特征(总共64个特征),然后是指数线性单元(ELU)(Clevert等人,2016)非线性。第二层用于分类:一个单独的注意力头,计算$C$个特征(其中$C$是类的数量),然后是一个$softmax$激活。为了应对小规模的训练集,正则化被随意地应用在模型中。在训练过程中,我们应用$λ=0.0005$的$L_2$正则化。此外,$p=0.6$的$dropout$(Srivastava等人,2014)被应用于两层的输入,以及归一化的注意力系数(关键是,这意味着在每个训练迭代中,每个节点都暴露于随机采样的邻域)。与Monti等人的观察类似,我们发现Pubmed的训练集大小(60个样本)需要对GAT架构进行轻微的改变:我们应用了$K = 8$个输出注意力头(而不是一个),并将$L_2$正则化加强到$λ = 0.001$。除此之外,该架构与用于Cora和Citeseer的架构一致。
归纳学习 对于归纳学习任务,我们应用一个三层的GAT模型。前两层都是由$K=4$个注意头计算$F^\prime=256$个特征(总共1024个特征),然后是$ELU$非线性。最后一层用于(多标签)分类。$K = 6$个注意力头,每个注意力头计算121个特征,这些特征被平均化,然后是一个$Logistic sigmoid$激活。这个任务的训练集足够大,我们发现没有必要应用$L_2$正则化或剔除--不过,我们已经成功地在中间注意层中采用了跳过连接。在训练过程中,我们利用了2个图的批量大小。为了严格评估在这种情况下应用注意力机制的好处(即与接近GCN的模型进行比较),我们还提供了使用恒定注意力机制$a(x, y) = 1$时的结果,架构相同--这将给每个邻居分配相同的权重。
两个模型都使用Glorot初始化(Glorot & Bengio, 2010),并使用$Adam SGD$优化器(Kingma & Ba, 2014)对训练节点进行交叉熵最小化训练,Pubmed的初始学习率为0.01,其他数据集为0.005。在这两种情况下,我们对验证节点上的交叉熵损失和准确性(归纳法)或$micro-F_1$(归纳法)得分都使用了早停策略,patience为100 epochs。
3.4 结果
对比评价实验结果见表2和表3。
表2:Cora、Citeseer和Pubmed的分类准确率的结果总结。$GCN-64_∗$对应的是计算64个隐藏特征(使用ReLU或ELU)的最佳GCN结果。
表3:PPI数据集的微观平均F1分数的结果总结。GraphSAGE∗对应的是我们通过修改GraphSAGE的结构所能获得的最佳GraphSAGE结果。Const-GAT对应的是一个与GAT结构相同的模型,但有一个恒定的注意力机制(给每个邻居分配相同的重要性;类似GCN的归纳运算符)。
对于直推任务,我们报告了我们的方法在运行100次后在测试节点上的平均分类精度(含标准偏差),并重新使用Kipf & Welling(2017)和Monti等人(2016)中已经报告的最先进技术的指标。具体来说,对于基于切比雪夫滤波器的方法(Defferrard等人,2016),我们提供了阶数为$K=2和K=3$的滤波器的最大性能报告。 为了公平地评估注意力机制的好处,我们进一步评估了一个计算64个隐藏特征的GCN模型,同时尝试ReLU和ELU的激活,并报告(作为$GCN-64^∗$)100次运行后的更好结果(在所有三种情况下是ReLU)。
对于归纳任务,我们报告了两个未见过的测试图的节点上的微观平均F1分数,经过10次运行后的平均值,并重复使用Hamilton等人(2017)已经报告的其他技术的指标。具体来说,由于我们的设置是有监督的,我们与有监督的GraphSAGE方法进行比较。为了评估整个邻域聚合的好处,我们进一步提供(作为GraphSAGE∗)我们能够通过修改GraphSAGE的架构来实现的最佳结果(这是用三层GraphSAGE-LSTM,每层计算$[512,512,726]$特征,128个特征用于聚合邻域)。最后,我们报告了我们的恒定注意力GAT模型(作为Const-GAT)的10次运行结果,以公平地评估注意力机制对类似GCN的聚合方案(具有相同的架构)的好处。
我们的结果成功地展示了在所有四个数据集上达到或匹配的最先进的性能--与我们的期望一致,正如第2.2节的讨论。更具体地说,我们能够在Cora和Citeseer上分别比GCNs提高1.5%和1.6%的幅度,这表明为同一邻域的节点分配不同的权重可能是有益的。值得注意的是在PPI数据集上取得的改进。我们的GAT模型相对于我们能够获得的最佳GraphSAGE结果提高了20.5%,这表明我们的模型有可能应用于归纳性的环境,而且通过观察整个邻域可以利用更大的预测能力。此外,它比Const-GAT(具有恒定注意力机制的相同架构)提高了3.9%,再次直接证明了能够为不同邻居分配不同权重的重要性。
学习到的特征表征的有效性也可以进行定性调查--为此,我们提供了一个可视化的t-SNE(Maaten & Hinton, 2008)--由GAT模型的第一层在Cora数据集上预训练提取的特征表征(图2)。该表征在投影的二维空间中表现出明显的聚类现象。请注意,这些聚类对应于数据集的七个标签,验证了该模型在Cora的七个主题类别中的辨别能力。此外,我们将归一化注意力系数的相对强度(所有八个注意力头的平均值)可视化。正确解释这些系数(如Bahdanau等人(2015)所做的)将需要进一步了解所研究的数据集的领域知识,并留待未来工作。
图2:在Cora数据集上预训练的GAT模型的第一隐藏层的计算特征表示的t-SNE图。节点的颜色表示类别。边缘厚度表示节点$i$和$j$之间的归一化注意力系数的汇总,跨越所有八个注意力头($\sum^K_{k=1} α^k_{ij} + α^k_{ji}$)。
4 结论
我们提出了图注意网络(GATs),这是一种新型的卷积式神经网络,它在图结构的数据上操作,利用了掩蔽的自注意层。在这些网络中使用的图注意层在计算上是高效的(不需要昂贵的矩阵运算,并且在图中的所有节点上都是可并行的),在处理不同大小的邻域时允许(隐含地)给邻域中的不同节点分配不同的重要性,并且不依赖于预先知道整个图结构--因此解决了以前基于谱的方法的许多理论问题。我们利用注意力的模型在四个成熟的节点分类基准中成功地达到或匹配了最先进的性能,包括直推法和归纳法(尤其是用完全未见过的图进行测试)。
图注意力网络有几个潜在的改进和扩展,可以作为未来的工作来解决,比如克服第2.2小节中描述的实际问题,以便能够处理更大的批次规模。一个特别有趣的研究方向是利用注意力机制对模型的可解释性进行彻底分析。 此外,从应用的角度来看,将该方法扩展到执行图分类而不是节点分类也是相关的。最后,扩展模型以纳入边缘特征(可能表明节点之间的关系)将使我们能够处理更多种类的问题。
标签:prime,overrightarrow,邻域,网络,注意力,我们,节点 From: https://blog.51cto.com/u_16346809/8741665