ACMP: 图神经网络中具有吸引力和排斥力的Allen-Cahn信息传递

标签：Dirichlet 能量 GCN ACMP Allen Cahn GNN 节点

ACMP: Allen-Cahn Message Passing with Attractive and Repulsive Forces for Graph Neural Networks

ICLR 2023

Abstract

神经信息传递是图结构数据的基本特征提取单元，考虑到网络传播中相邻节点的特征，从一层到下一层。我们用一个具有吸引力和排斥力的相互作用的粒子系统以及在相变建模中产生的Allen-Cahn力来模拟这种过程。该系统的动力学是一个反应-扩散过程，可以在不炸毁的情况下分离粒子。这启发了图神经网络的Allen-Cahn信息传递（ACMP），其中粒子系统解决方案的数值迭代构成了信息传递的传播过程。ACMP通过一个神经ODE求解器简单实现，可以将网络深度提高到100层，并在理论上证明Dirichlet能量的严格正下限。因此，它提供了一个GNN的深度模型，规避了GNN常见的过平滑问题。带有ACMP的GNN在现实世界的节点分类任务中实现了最先进的性能，包括同质性和异质性数据集。

1 Introduction

**图神经网络（GNN）在过去五年中受到了极大的关注，因为它在学习图结构数据方面具有强大的表现力，从推荐系统到药物和蛋白质设计都有广泛的应用[4, 6, 11, 12, 24, 53]。**神经信息传递[26]作为图结构数据的基本特征提取单元，在网络传播中聚合了邻居的特征。**我们开发了一个GNN消息传递机制，称为Allen-Cahn消息传递（ACMP），使用相互作用的粒子动力学，其中节点是粒子，边代表粒子的相互作用。**该系统由吸引力和排斥力驱动，加上相变模型中的Allen-Cahn双井势。这个模型的动机是自然界和人类社会中常见的集体行为的粒子系统的行为，例如，昆虫形成群落工作；鸟类形成群落移民；人类形成政党表达公众意见。人们已经提出了许多数学模型来模拟这些行为[1, 38, 14, 47, 20]。ACMP的粒子演化的相变将粒子聚集成所需的群组，这保证了基于ACMP的GNN的Dirichlet能量有一个严格高于零的下限--这将被数学地证明--从而避免了过平滑。

新系统可以被看作是[23]中介绍的双簇Cucker-Smale蜂群模型的graph版本。这自然会诱导出一个GNN模型来模拟消息传递的动态。这个模型有两个主要部分。首先，虽然吸引力迫使所有粒子进入一个集群，但排斥力允许粒子分离成两个不同的集群，这对避免过平滑至关重要。然而，排斥力可能使Dirichlet 能量发散。我们用Allen-Cahn[2]项（或Rayleigh摩擦[48]）来增强模型，**这对于防止演化过程中的Dirichlet能量变得无界至关重要，使我们能够从数学上证明Dirichlet能量的下限严格大于零，从而避免了过平滑现象。**具体来说，我们将证明，在参数的适当条件下，ACMP粒子系统的动力学将在时间上渐进地形成$2^d$个不同的集群，并且Dirichlet能量有一个严格的正下限。

我们的主要贡献之一是从多粒子系统的角度将排斥力引入消息传递框架。大多数现有的消息传递神经网络是由与Dirichlet能量相关的吸引力驱动的，相应的图神经网络存在过平滑的问题，并且在异质数据集预测中失败。斥力使粒子分离成两个不同的集群，因此为异质性数据集的预测任务提供了一个简单而整洁的解决方案。然而，当网络深入时，排斥力的存在会导致特征爆炸。我们的第二个主要想法是包括Allen-Cahn势，它可以规避Dirichlet能量和节点特征到无穷大，这一点可以在数学上得到证明。

总的来说，Allen-Cahn的信息传递与排斥的好处是多方面的。1）它规避了过平滑的问题，即Dirichlet 能量从下面被约束。2）网络是稳定的，即特征和Dirichlet能量从上面被约束。3）特征平滑度（能量递减）以及节点特征和边缘特征之间的平衡可以通过控制吸引、排斥和相变的网络参数轻松调整。然后，该模型可以在自我特征和邻居效应上达到一个可接受的权衡，如图1所示。因此，我们的模型可以通过只使用一跳的邻居信息来处理同质和异质数据集的节点分类任务。4）所提出的模型可以很容易地由神经ODE求解器来实现，通过Allen-Cahn势，系统具有吸引力和排斥力。

在理论上，我们证明了具有ACMP的GNN的Dirichlet能量有一个高于零的下限（限制过平滑），以及在特定条件下的上限（规避爆炸）。这与实验结果一致（第6节）。我们还证明，ACMP是一个由于双井势而产生集群的特征过程，这为节点分类提供了一个可解释的理论。

图1：单步ACMP的图示。图$G_t$的特征$x(t)$在紫色和绿色块中有不同的吸引力或排斥力的处理。相同的颜色表示类似的节点特征。节点$x(t)$通过ODE求解器更新一步为$x(t + ∆t)$。绿色区块中的节点倾向于相互吸引，而在另一个区块中，不同颜色的节点相互排斥，因此两种颜色在传播过程中都得到加强。这就产生了形成双簇拥的现象。在梯度流动下，双井势变成了深色的特征，以规避能量的膨胀。

2 Background

图神经网络的消息传递 图神经网络是一种以图数据为输入的深度神经网络。神经信息传递（MP）[26，7]是GNN中最广泛使用的节点特征更新的传播器，其形式如下：对于无向图$G=(V，E)$是有节点$V$和边$E$的集合，$x^{(k-1)}i∈R^d$表示$(k-1)$层中节点$i$的特征，$a{j，i}∈R^D$从节点$j$到节点$i$的边特征,

其中，$\square$表示一个可微的、（节点）包络不变的函数，如总和、平均值或最大值，$γ$和$φ$表示可微的函数，如MLP（多层感知器），$N_i$是节点$i$的一跳邻居的集合。许多GNN特征提取模块，如GCN[30]、GAT[52]和GIN[55]可以写成消息传递。例如，GCN的MP，有可学习的参数矩阵$Θ,x^{\prime}i = Θ^T \sum{j∈Ni∪{i}} \frac{a_{j,i}}{\sqrt{\hat{d_j}\hat{d_i}}}x_j$，其中$\hat{d_i} = 1 + \sum_{ j∈N (i)} a_{j,i}$和$\hat{D} = diag(\hat{d_1}, . . \hat{d_N})$。图注意力网络（GAT）使用关注系数$α_{i,j}$作为MP更新中节点之间的相似性信息$x^{\prime}i = α{i,i}Θx_i + \sum_{j∈Ni} α_{i,j}Θx_j$，其中:

在[10]中，MP框架也被开发为PDE求解器，将微分方程作为一个参数嵌入到消息传递中，如[9]。本文将粒子系统演化（ODE）视为消息传递的传播，粒子系统的适当设计为所产生的GNN提供了理想的特性。

图形神经扩散 图的神经扩散方程（GRAND）是由[15]提出的，它为一些信息传递提供了一个统一的数学框架。

其中$G = diag(a(x_i(t), x_j(t), t)) $其中$a$是反映节点$i$和$j$之间相似性的函数，$x_i$是节点$i$的标度值特征，$x = ⊕x_i$。

3 Motivations

3.1 吸引力和排斥力

公式（2）本身可以用不同于扩散的表述来解释。在本文中，我们研究相互作用的粒子系统的神经方程，其结构与（2）相似。我们将（2）重写成一个分量上的版本，并得到一个粒子系统:

在粒子系统的表述中，人们可以很容易地发现特征的演变趋势。如果$a(x_i, x_j)>0$，$x_i$的速度方向是朝向$x_j$的，这意味着$x_i$被$x_j$所吸引。相反，如果$a(x_i, x_j)<0$，$x_i$就有远离$x_j$的趋势。因此，$a(x_i, x_j)$作为$x_i$和$x_j$之间力量的吸引力或排斥性。**在上面的扩散模型中，所有的$a(x_i, x_j)$都是正的，因此一个连接部件中的所有节点特征都是相互吸引的。**如果权重矩阵$a(x_i, x_j)_{N×N}$是右旋的，可以证明特征的凸壳在时间上不会扩张（见[39 ,15]）。这样的特征聚集意味着信息沿着图的边缘传播，在这个过程中形成一些潜在的共识。

然而，信息的传播并不局限于共识（对应于扩散）。当负面信息在某些问题上比正面信息更重要时，信息互动可以衍生出最终判断的两极化。例如，在一个二元结构的节点分类任务中，由于连接的节点属于不同的类别，因此邻居信息是负面的。在粒子系统的表述中，积极和消极信息的机制可以通过在（3）中加入偏差$β_{i,j}$来模拟:

系数项$a(x_i, x_j) - β_{i,j}$对应于相互作用力。通过调整$β_{i,j}$，在系统中吸引力和排斥力都是并存的。如果$a(x_i, x_j) - β_{i,j}>0$，$x_i$被$x_j$所吸引。而如果$a(x_i, x_j) - β_{i,j} < 0$，$x_i$被$x_j$排斥。如果该系数等于零，则$x_i$和$x_j$之间没有相互作用。那么，动力学就能够适应积极和消极的信息传递。通过这种方式，神经信息传递可以处理同质或异质数据集（详细讨论见第6节）。

图2：我们比较了GCN和ACMP中节点特征的演变。我们在第一行显示GCN，在第二行显示ACMP。初始位置由节点的二维位置表示，显示在第一列。GCN通过取其邻居的特征的加权平均数来聚合所有节点的特征。随着传播步骤的增加，所有节点的特征都缩小到一个点，这就产生了过平滑。当涉及到ACMP时，节点的特征被分为四个吸引子，这有助于规避过平滑的问题。

3.2 伪金兹堡-朗道能量

然而，加入排斥力项可能会导致被推开的粒子变得无限大，从而使Dirichlet能量变得无界。为了避免这个问题，我们增加一个强迫项$δ_{x_i}(1-x^2_i)$，我们称之为Allen-Cahn项。这里，系数$α>0$只是为了技术上的方便而被乘。

梯度流 管理许多PDE模型的变异原理指出，平衡状态实际上是一个特定能量的最小化。平衡状态带有有意义的信息，因此可以在机器学习的背景下作为嵌入式特征使用。我们首先介绍Dirichlet能量，并表明（3）可以通过研究Dirichlet能量的相应Euler-Lagrange方程来表征。让相邻矩阵$A$代表节点$x_i$和$x_j$之间的无向连接，对于$(i，j)∈E$，$a_{i，j}=1$，对于$(i，j)\notin E$，$a_{i，j}=0$。 Dirichlet能量$E$在$G=(V，E)$和节点特征$x∈R^{N×d}$方面的形式为:

通过变化微积分，我们可以制定相应的粒子方程

在（7）的RHS上，求和时要考虑到节点$i$的一跳邻居$N_i$，这就汇总了来自邻近节点的影响。当我们把相邻矩阵$A$作为权重矩阵$(a(x_i，x_j))_{N×N}$时，方程（7）就是（5）。

具有Allen-Cahn势的粒子方程 为了避免解的爆炸，可以设计一个外部势来控制解，使其受到约束。在这里，我们定义图$G$上的伪金兹堡-朗道能量，用$Φ : L^2(V) → R$表示，作为交互能量和双井势$W : R → R_+$的组合，其中

其中参数$α, δ > 0$被用来平衡两种能量。从现在开始，为了简单起见，我们用$a_{i,j}$表示$a(x_i, x_j)$。伪金兹堡-朗道能量不是真正的能量，因为矩阵$(a_{i,j}-β_{i,j}){N×N}$可以是非正定的。如果$β{i,j}$都等于零，那么它就变成了[8, 34]中定义的Ginzburg-Landau能量。使用这个综合能量，我们可以得到Allen-Cahn方程，图上的斥力为$\frac{∂x}{ ∂t }= -∇_xΦ$，相当于（5）。

4 Allen-Cahn信息传递

我们提出了基于方程（5）的Allen-Cahn消息传递（ACMP）神经网络，其中消息是通过神经ODE求解器的方程演化来更新的。据我们所知，这是第一次引入一种消息传递，通过排斥力放大连接节点之间的差异。

网络结构 我们的方案首先通过一个简单的多层感知器（MLP）嵌入节点特征$x(0)=MLP(x^{in})$，将其作为ACMP传播$A：R^d→R^d$的输入，即$x(0)→x(T)$，其中$x(T)=x(0)+ \int^T_0 \frac{∂X(t)}{∂t} dt$，$x(0)=MLP(x^{in})$，其中$\frac{∂X(t)}{∂t}$是由基于(5)定义在$G$上的ACMP近似。结束时的节点特征$x(T)$被送入一个基于MLP的分类器。然后，我们通过以下方式定义Allen-Cahn消息传递:

这里$α，δ∈R^d$是与节点特征$x_i$相同长度的可学习向量。虽然我们可以使用更普遍的情况，当每条边$(i，j)$使用不同的可训练$β_{i，j}$时，我们已经简化为单一的超参数$β∈R^+∪{0}$，这使得网络和优化更容易。在我们的模型中，$β$是一个关键的参数，它可以被调整为使吸引力和排斥力同时存在，以丰富信息传递的效果。如果选择$δ=0$，$β=0$，我们的模型就简化为[15]中的图神经扩散网络（GRAND）。在实验中，我们会大量使用非线性的$δ$和$β$。

除$a(x_i(t), x_j(t))$外，所有条款的操作都是通道式的，涉及$d$个通道，而**$\odot$表示$d$个特征通道的通道式乘法**。图1说明了单步ACMP机制（8）。颜色接近的节点相互吸引，否则相互排斥。同一区块中的节点倾向于相互吸引，在信息传递传播过程中，两种颜色都得到加强。双阱势可以防止特征和Dirichlet能量的爆炸。在这个过程中，节点特征$x(t)$被更新为$x(t + Δt)$，时间增量为$Δt$。最终，形成一个双簇群，用于节点分类。

在(8)中ACMP的传播中，我们需要指定邻居是如何互动的，也就是$a(x_i(t), x_j(t))$是如何随时间演变的。有许多种方法来更新边缘权重。两个典型的ACMP类型是基于GCN的[30]和基于图注意力（GAT）的[52]。

ACMP-GCN: 这个模型使用确定性的$a(x_i(t), x_j(t))$，它由原始输入图$G$的适应矩阵$A = (a_{i,j})$给出，不随时间变化。也就是说，GCN中的系数$a^{GCN}{i,j} := a{i,j}/ \sqrt{\hat{d_i}\hat{d_j}}$。(8)的消息传递被简化为:

ACMP-GAT: 我们可以用GAT的注意系数（1）代替（9）中的$a^{GCN}_{i,j}$，GAT有额外的可训练参数，通过考虑节点和结构特征来衡量两个节点之间的相似性。然后，系统在信息传递的每个迭代中驱动边的更新。

**神经ODE求解器 ** 我们的方法使用一个ODE求解器来数值求解ACMP的公式（（8）和（9））。为了得到节点特征$x(T)$，我们需要一个稳定的数值积分器来有效地解决ODE和梯度的反向传播。由于我们的模型在演化时间上是稳定的，只要步长$τ$足够小，大多数显式和隐式数值方法，如显式Euler、Runge-Kutta四阶、中点、Dormand-Prince5 [17, 32, 41, 15]都能很好地工作。在实验中，我们使用Dormand-Prince5方法来实现ACMP，它提供了一个快速和稳定的数值求解器。我们的消息传递的运行次数，或ACMP-GNN的网络深度等于求解器中设置的数值迭代次数$n_t$。

计算复杂性 ACMP的计算复杂度为$O(N Edn_t)$，其中$n_t、N、E$和$d$分别为时间区间[0, T]中的时间步数、节点数、边数和特征维数。由于我们的模型只考虑最近（一跳）的邻居，$E$明显小于图重布线[25, 3]和多跳[57]方法。

通道混合器 尽管我们的模型以前是以通道形式写的，但通道混合可以从扩散系数的角度自发地引入。通道混合是否发生取决于我们为ACMP选择的特定GNN驱动。当（8）中不随时间更新的系数$a(x_i(t), x_j(t))$是一个标量或矢量时，就像在ACMP-GNN中一样，消息传递传播器的操作是信道式的，信道混合不会被纳入。另一方面，当系数为张量时，带有图注意驱动的ACMP-GAT包含了一个可学习的通道混合。通道混合器可以通过将Dirichlet能量泛化到高维来引入，例如，$E(x) := \frac{1}{N} \sum_{i∈V} \sum_{j∈N_i} (x_i - x_j)^T a_{i,j}(x_i - x_j)$，当$a_{i,j}∈R^{d×d}$是连接性张量时。

5 Dirichlet Energy

动力学（5）可以规避GNNs的过平滑问题[42, 44, 31]。过平滑现象意味着随着网络的深入，所有的节点特征都会收敛到同一个常数--共识形式，等价地，Dirichlet能量将指数地衰减到零。这个想法最早是在[13]中提出的。[31]给出了过平滑的明确形式。

在我们的模型中，正如我们将在下面显示的那样，每个通道中的节点特征在某些条件下倾向于演变成两个相互背离的集群。**这意味着Dirichlet能量的严格正下限。**此外，由于Allen-Cahn项的存在，系统将不会爆炸。我们把所有的证明和一些相关的补充结果放在附录中。

命题1 如果$δ>0$，（5）中的节点特征$x_i$在所有$t>0$的情况下，在$||-||$和能量方面是有界的，即$E(x(t))≤C$，且$||x||≤C$，其中常数$C$只取决于$N$和$λ_{max}$。

在下面的命题中，我们模仿了[23]中的涌现行为分析（详见附录）。对于一个有$N$个节点的图$G$，如果存在两组不相交的顶点子集${x^{(1)}_ i }^{N_1}{i=1}$和${x^{(2)} i }^{N_2}_{j=1}$，满足以下条件，则称其顶点形成双簇群。

其中$x^{(1)}_i$, $x^{(2)}_i$表示$X^{(1)}_i$, $X^{(2)}_i$的任意分量。

现在我们按照文献[23]的分析，对满足以下条件的强度耦合$(α，δ)$显示模型（5）的长期行为：存在${β_{i,j}}$，使$I :={1,. . . , N}$可以分为两个不相交的组$I_1$, $I_2$，分别有$N_1$和$N_2$个粒子:

其中$S$、$D$与时间$t$无关。（11）中的$S$和$D$是排斥力和吸引力。我们证明，如果粒子之间的排斥力强于吸引力，即$S>D$，则保证系统有双簇群，如下文命题2所示。对于时间$t≥0$，假设$x^{(1)}_c(t)$和$x^{(2)}_c(t)$是粒子${x^{(1)}i(t)}^{N_1}{i=1}$和${x^{(2)}j(t)}^{N_2}{j=1}$两组的特征中心，这两组粒子如上所述从整个顶点集$V$中划分出来，由以下公式给出:

假设$x^{(s)}c(t)$具有$d$维特征，让$x^{(s)}{c,k}(t), k = 1, . . . ，d$，是特征$x^{(s)}_c(t),s=1,2$的第$k$个（维）分量。

命题2 如果对于每个$k = 1, . . . . ，d$，初始$|x^{(1)}{c,k}(0) - x^{(2)}{c,k}(0)| \gg 1$，并且如果存在一个正常数$η$满足下式，则系统(5)有一个双簇群:

其中$δ$是方程（5）中双井势的权重系数。

命题3 对于具有双簇群的系统（5），存在一个常数$C > 0$和一些时间$T^∗$，使得$∀t ≥ T^∗$。

因此，如果非零的$a_{i,j}$都是正数，ACMP的Dirichlet能量就被一个正的常数所约束。

6 Experiments

Dirichlet能量 我们首先通过一个无定向的合成随机图来说明ACMP的Dirichlet能量的演变。该合成图有100个节点，有两个类和二维特征，二维特征是从正态分布中抽取的，具有相同的标准差$σ=2$和两个平均值$μ_1=-0.5$，$μ_2=0.5$。如果节点属于同一类别，则以概率$p = 0.9$随机连接，否则不同类别的节点以概率$p = 0.1$连接。我们将GNN模型的性能与四种消息传递传播器进行比较。GCNs [30], GAT [52], GRAND [15] 和ACMP-GCN。在图3中，我们以对数尺度显示了每层输出的Dirichlet能量。传统的GNN，如GCNs和GAT，由于Dirichlet能量在前十层中指数地衰减为零，因此存在过平滑的问题。GRAND通过乘以一个小常数来缓解这个问题，该常数可以延迟所有节点的特征坍缩到相同的值。对于ACMP，能量在前两层略微衰减后稳定在依靠Allen-Cahn势的根的水平（8）。

图3：由GCN、GA T、GRAND、ACMP-GCN传播的层级节点特征$X^n$的Dirichlet能量$E(X^n)$的演变。

节点分类 我们将ACMP与几种流行的GNN模型架构在各种节点分类基准上的性能进行了比较，其中包含了同源和异源的数据集。如果图中的类似节点倾向于连接在一起，那么图数据就被认为是同源的[45]。反之，如果图数据具有较小的同质性水平，当大多数邻居与源节点没有相同的标签时，就说是异源性的。**我们旨在证明ACMP是一个灵活的GNN模型，它可以通过平衡吸引力和排斥力来很好地学习两种数据集。**GCN的例子不能很好地表现出异质性数据集，因为它的信息传递只聚集了邻居（1跳）节点。神经ODE由Torchdiffeq软件包和Dormand-Prince自适应步长方案来解决。

同源数据集 我们的研究结果是针对最广泛使用的引文网络提出的。Cora [35], Citeseer [50] 和 Pubmed [40]。此外，我们在亚马逊的合作采购图Computer and Photo [40]，以及CoauthorCS [51]上评估了我们的模型。我们将我们的模型与传统的GNN模型进行比较。图卷积网络（GCN）[30]，图注意网络（GAT）[52]，混合模型网络[37]和GraphSage[29]。我们还将我们的结果与最近的基于ODE的GNN、连续图神经网络（CGNN）[54]、图神经常微分方程（GDE）[46]和图神经扩散（GRAND）[15]进行比较。为了解决[51]提出的这种评估方法的局限性，我们用100个随机分割和10个随机初始化的方法报告所有数据集的结果，并在表1中显示节点分类结果的平均值和标准偏差。

表1：在六个节点分类基准上，10个初始化和100个随机训练------测试分割的测试准确率和std。红色（第一）、蓝色（第二）和紫色（第三）是最好的三种方法。

异构数据集 我们在异构图上评估了ACMP-GCN；WebKB数据集中的康奈尔、德克萨斯和威斯康星。在这种情况下，共同邻居的假设并不成立。表2中显示的GCN和GA T模型的糟糕表现表明，许多GNN模型在这种情况下都很困难。引入斥力可以显著提高GNN在异质数据集上的性能。ACMP-GCN在德克萨斯数据集上的得分比原始GCN高30%，该数据集在表中的同质性水平最小。

吸引力和排斥力的解释 如表2和表1所示，ACMP-GCN和ACMP-GA T在同源和异源数据集上都取得了比GCN和GA T更好的性能。**同源中的大多数$a_{i,j} - β$都是正数，这意味着大多数节点是相互吸引的。相反，异亲的大多数$a_{i,j} - β$是负的，这意味着大多数节点被它们的邻居排斥。**一些利用多跳信息的GNN可以在节点分类中取得很高的性能[57, 33]。然而，**高阶邻居信息会使邻接矩阵变得密集，因此不能扩展到大型图，因为计算成本较高。**在我们的模型中，我们只考虑了一跳信息，并在信息传递中加入了排斥力（$β≥0$），在异质数据集中取得了与多跳模型相同或更高的精度。

表2：异质性数据集的节点分类结果。我们使用了[45]中的10个固定分法进行训练、验证和测试，并显示了测试精度的平均值和标准值。红色（第一）、蓝色（第二）和紫色（第三）是最好的三种方法。

β对ACMP的性能 超参数$β$是GNN中引入排斥力的关键，即当$a_{ij}-β$为负数时，两个节点会相互排斥。为了说明β对不同数据集的影响，我们用GCN作为扩散项，因为$a_{ij}$在ODE过程中不发生变化，所有的变化都与$β$有关。如图4所示，当所有节点都相互吸引时，即所有$a_{ij}-β$为正时，ACMP在Cora中表现最佳（橙色曲线）。随着$β$值的增加，该模型的性能会下降。相反，对于德克萨斯州的数据集，当所有的力都是有吸引力的，ACMP只达到70%的准确率（蓝色曲线）。随着$β$的增加，大部分$a_{ij}-β$为负值，模型的性能得到改善。当所有的力都是排斥性的时候，ACMP在德克萨斯州的数据集上取得了最高的准确率，这与我们的主张一致，即排斥性的力对异性数据集很重要。

图4：β在Cora（橙色）和Texas（蓝色）上的测试准确性的显著性图，有10个固定的随机拆分。

7 Related work

神经微分方程 自[21]和[17]以来，神经ODEs的话题成为一个新兴领域，在GNN领域有许多后续工作：[5]将连续残差模块用于图核；[46]将GNN的框架扩展到连续时间。[49]将汉密尔顿力学应用于图网络以预测未来状态。GRAND[15]将图深度学习作为一个连续扩散过程，并通过图扩散方程传播GNNs。[22]将GNNs的扩散和波浪PDEs结合起来，GraphCON[31]概括了这种方法。后者采用了一个二阶系统来征服深度图神经网络的过平滑。

基于Allen-Cahn的变分图模型 在[8, 34, 36]和其中的参考文献中，作者将Allen-Cahn的相关潜力扩展到图形框架中，并开发了一类变分算法来解决聚类、半监督学习和图形切割问题。图形神经网络的新成分使我们能够将可学习的吸引力和排斥力结合起来，使我们的方法与经典的变异图模型相区别。

8 Conclusion

我们开发了一种新的消息传递方法，实施简单。该方法以具有排斥力的Allen-Cahn粒子系统为基础。所提出的ACMP继承了粒子系统的动态特性，因此对具有高同质性难度的节点分类任务表现出适应性。此外，它还能将网络推进到几十层而不会出现过平滑的情况。理论和实验结果表明，Dirichlet能量的严格正下限保证了ACMP的非过度平滑。实验表明，该模型在各种真实数据集上表现出色。

标签：Dirichlet,能量,GCN,ACMP,Allen,Cahn,GNN,节点
From： https://blog.51cto.com/u_16346809/8278754