目录
概
作者提出了一种基于 reaction-diffusion 机制的 GNN 框架.
符号说明
- \(\mathcal{G} = \{\mathcal{V, E}\}\);
- \(\mathbf{X} \in \mathbb{R}^{|\mathcal{V}| \times F}\), 特征矩阵;
- \(\mathbf{A}^{raw} \in \{0, 1\}^{|\mathcal{V}|\times |\mathcal{V}|}\), 邻接矩阵;
- \(\mathbf{A} := \mathbf{D^{-1/2} A^{raw} D^{-1/2}}\), normalized adjacency;
- \(\mathbf{L} = \mathbf{I - D^{-1/2} A^{raw} D^{-1/2}}\), Laplacian matrix.
基本框架
-
GREAD (本文) 认为一般的基于 reaction-diffusion 的框架可以表示出如下形式
\[\mathbf{H}(0) = \mathbf{e}(X), \\ \mathbf{H}(T) = \mathbf{H}(0) + \int_0^T \mathbf{f}(\mathbf{H}(t)) dt, \\ \hat{\mathbf{y}} = \mathbf{o}(\mathbf{H}(T)). \]分别描述了:
- 特征提取阶段;
- reaction 进化部分, 其中\[\mathbf{f}(\mathbf{H}(t)) := \frac{d \mathbf{H}(t)}{dt} = -\alpha \mathbf{LH}(t) + \beta \mathbf{r}(\mathbf{H}(t), \mathbf{A}) \]为 reaction-diffusion term. 此类型的不同方法主要在于 \(\mathbf{r}\) 的设计上.
- 经过 \(\mathbf{o}\) 微调后用于下游任务.
-
作者给出了四种:
\[\mathbf{r}(\mathbf{H}(t), \mathbf{A})= \left \{ \begin{array}{ll} \mathbf{H}(t) \odot (1 - \mathbf{H}(t)) & \text{ if } \text{ Fisher (F)} \\ \mathbf{H}(t) \odot (1 - \mathbf{H}(t)^{\circ 2}) & \text{ if } \text{ Allen-Cahn (AC)} \\ \mathbf{H}(t) \odot (\mathbf{H}(t) - \mathbf{H}(t)^{\circ 2}) & \text{ if } \text{ Zeldovich (Z)} \\ (\mathbf{A - A}^2)\mathbf{H}(t) & \text{ if } \text{ Blurring-Sharpening (BS)} \end{array} \right .. \]其中 \(\odot\) 表示哈达玛乘积, \(\circ2\) 表示哈达玛幂. 前三种是前人对 reaction-diffusion 的研究结果 (应用在不同的任务上), 第四种是作者给出的.
-
第四种的思路如下:
-
首先, 我们希望对 \(\mathbf{H}(t)\) 进行扩散 (即引入平滑性):
\[\mathbf{B} \leftarrow \mathbf{H} - \mathbf{LH} = \mathbf{AH}. \] -
得到平滑后的 \(\mathbf{B}(t + h)\), 我们希望在对它进行锐化, 以避免 over-smoothing 现象的发生:
\[\tag{1} \begin{array}{ll} \mathbf{H} &\leftarrow \mathbf{B} + \mathbf{L}\mathbf{B} \\ &= 2\mathbf{B} - \mathbf{A}\mathbf{B} \\ &= 2\mathbf{AH} - \mathbf{A}^2\mathbf{H} \\ &= \mathbf{H} - \mathbf{H} + \mathbf{AH} + \mathbf{AH} - \mathbf{A}^2\mathbf{H} \\ &= \mathbf{H} - (\mathbf{I - A})\mathbf{H} + (\mathbf{A} - \mathbf{A}^2)\mathbf{H} \\ &= \mathbf{H} - \mathbf{L} \mathbf{H} + (\mathbf{A} - \mathbf{A}^2)\mathbf{H}. \\ \end{array} \] -
倘若我们取 \(\mathbf{r}(\mathbf{H}(t), \mathbf{A}) = (\mathbf{A-A^2})\mathbf{H}(t)\), 且
\[\mathbf{f}(\mathbf{H}(t)) := \frac{d \mathbf{H}(t)}{dt} = -\mathbf{LH}(t) + \mathbf{r}(\mathbf{H}(t), \mathbf{A}). \] -
利用 Euler 法 (步长为 1) 可以得到:
\[\mathbf{H}(t + h) \leftarrow \mathbf{H}(t) - \mathbf{L} \mathbf{H} + (\mathbf{A} - \mathbf{A}^2)\mathbf{H}. \]此即为 (1) 所做的事情, 故采用这种 reaction-diffusion 机制实际上进行了多次的这种 Blurring-Sharpening 过程 (具体看近似的方法和步长).
-
注: 方程的近似是通过 NODE.
标签:Diffusion,Reaction,mathbf,reaction,text,diffusion,Neural,GREAD,mathcal From: https://www.cnblogs.com/MTandHJ/p/16941955.html