首页 > 其他分享 >How Powerful are Spectral Graph Neural Networks?

How Powerful are Spectral Graph Neural Networks?

时间:2023-11-20 20:45:23浏览次数:41  
标签:Spectral mathbb Neural Graph tilde theta hat gamma lambda

目录

Wang X. and Zhang M. How powerful are spectral graph neural networks? ICML, 2022.

分析谱图网络的表达能力.

符号说明

  • \(\kappa(M) = \frac{\lambda_{\max}}{\lambda_{\min}}\), 矩阵 \(M\) 的条件数;
  • \(\mathbb{V} = \{1, 2, \ldots, n\}\), node set;
  • \(\mathbb{E} \subset \mathbb{V} \times \mathbb{V}\), edge set;
  • \(X \in \mathbb{R}^{n \times d}\), node feature matrix;
  • \(\mathcal{G} = (\mathbb{V}, \mathbb{E}, X)\), graph;
  • \(N(i)\) 结点 \(i\) 的一阶邻居;
  • \(A \in \mathbb{R}^{n \times n}\) 邻接矩阵;
  • \(D\), degree matrix;
  • \(\hat{A} = D^{-1/2} A D^{-1/2}\), normalized adjacency matrix;
  • \(\hat{L} = I - \hat{A}\), normalized Laplacian matrix;
  • \(\hat{L} = U \Lambda U^T\), 特征分解.
  • \(\tilde{X} = U^T X\), 为信号 \(X\) 的 graph Fourier transform, 并有逆变换:

    \[X = U \tilde{X}. \]

Spectral GNN

  • 我们知道, Spectral GNN 的核心是 spectral filter

    \[\tag{1} U g(\Lambda) U^T X, \]

    其中 \(g: [0, 2] \rightarrow \mathbb{R}\) 多为 element-wise 的多项式算子 (注, \(\alpha_k\) 可以是超参数, 也可以是可学习的参数):

    \[g(\lambda) := \sum_{k=0}^K \alpha_k \lambda^k. \]

    此时, (1) 可以等价的写为:

    \[U g(\Lambda) U^T X = \sum_{k=0}^K \alpha_k \hat{L}^k X. \]

    大部分的 Spectral GNN 通过引入 MLP 和非线性激活函数, 可表达为:

    \[Z = \phi(g(\hat{L}) \varphi(X)). \]

  • 下面是一些常见的 \(g(\cdot)\).

  • 下面我们主要分析 linear GNN

    \[\tag{2} Z = g(\hat{L}) XW \in \mathbb{R}^{d \times d'} \]

    的能力. 其中 \(X\) 是固定的, \(W \in \mathbb{R}^{d \times d'}\) 是可学习的参数.

  • 注意到,

    \[\tag{3} Z = g(\hat{L}) XW = U g(\Lambda) \tilde{X} W. \]

  • Theorem 4.1: 对于任意一维信号 \(z \in \mathbb{R}^n\), 我们均可以通过 linear GNN (2) 逼近, 若 \(\hat{L}\) 不存在重复的特征值, 且 \(X\) 包含所有频段的信号 (即不存在 \(\tilde{X}\) 有一行均为 0).


proof:

  • 我们要证明的是, 对于任意的一维信号 \(z \in \mathbb{R}^d\) 存在 \(w^* \in \mathbb{R}^d\) 和 \(g(\cdot)\) 使得

    \[Ug^*(\Lambda)\tilde{X} w^* = z \\ \Leftrightarrow g^*(\Lambda)\tilde{X} w^* = U^Tz. \\ \]

  • \(g(\Lambda)\) 是个对角矩阵, 根据多项式的性质, 它有着极为强大的拟合能力, 以

    \[g(\lambda) = \sum_{k=0}^{n-1} \theta_k \lambda^k \]

    为例, 此时我们有:

    \[\tag{4.1.1} g(\Lambda) = \text{diag}(B \Theta), \]

    其中

    \[B = [\lambda_i^{j-1}]_{ij}, \quad \Theta = [\theta_0, \ldots, \theta_{n-1}]. \]

    容易发现, \(B \in \mathbb{R}^{n \times n}\) 为范德蒙德矩阵, 当 \(\lambda_i \not= \lambda_j \forall i \not= j\) 成立的时候, \(B\) 可逆. 故

    \[v = B\Theta, \quad \forall v, \exist \Theta. \]

    现在我们把 (4.1.1) 拆解开来, 我们只需要证明:

    \[v_i (\tilde{X}_i^T w^*) = z_i, \forall i, \]

    即可, 倘若 \(\tilde{X}_i^T w^* \not=0 \quad \forall i\), 上面的证明就自然成立了. 对于任意 \(\tilde{X}\) 满足任一行均不全为 0, 我们都能找到这样的 \(w^*\). 令 \(V_i\) 为下列方程的解空间

    \[ \tilde{X}_i w = 0. \]

    容易发现 \(V_i\) 的维度为 \(n-1\). 只需取

    \[w^* \in \mathbb{R}^n \setminus \cup_{i=1}^n V_i, \]

    后者不为空集.


  • 很遗憾的是, 这个结论不能推广到多维信号的逼近上. 严格来说, 倘若 \(X\) 不是满秩的, 则对于任意的 \(d' > 1\), 存在 \(d'\)- 维的信号 \(Z\) 不能通过 linear gnn 完全逼近.

  • 故, 倘若想要拟合不同的信号, 最好的办法是应用多个独立的 filters.

  • 此外, 对于条件: \(X\) 包含所有频段的信号, 可以这么理解:

    • filter \(g(\cdot)\) 的作用实际上是对信号的缩放, 所以倘若 \(X\) 本身不包含那个频段的信息, 自然无法拟合对应频段的信号.
  • 需要一提的是, 倘若我们添加激活函数 \(\sigma(X)\), 某种程度上是能够缓解频段缺失的问题的.

Choice of Basis for Polynomial Filters

  • linear GNN 可以表述为如下的一般形式:

    \[\tag{7} Z = \sum_{k=0}^K \alpha_{k} g_{k}(\hat{L}) X W \]

    其中 \(g_k\) 代表多项式基.

  • 这里我们考虑如下的几种:

    • [Monomial]:

      \[g_k(\lambda) = \lambda^k. \]

    • [Chebyshev]:

      \[g_0(\lambda) = 1, \\ g_1(\lambda) = \lambda, \\ g_{n+1} (\lambda) = 2 \lambda g_n(\lambda) - g_{n-1}(\lambda). \]

    • [Bernstein]:

      \[g_k(\lambda) = g_{k,K}(\lambda) := \left ( \begin{array}{c} K \\ k \end{array} \right) \lambda^k (1 - \lambda)^{K-k}. \]

    • [Jacobi]:

      \[g_0^{a,b}(\lambda) = 1, \\ g_1^{a,b}(\lambda) = \frac{a-b}{2} + \frac{a + b + 2}{2} \lambda, \\ g_k^{a,b}(\lambda) = (\theta_k \lambda + \theta_k') g_{k-1}^{a, b}(\lambda) - \theta_k'' g_{k-2}^{a,b}(\lambda), \]

      其中

      \[\theta_k = \frac{(2k + a + b) (2k + a + b - 1)}{2k (k + a + b)}, \\ \theta_k' = \frac{(2k + a + b - 1) (a^2 - b^2)}{2k (k + a + b) (2k + a + b - 2)}, \\ \theta_k'' = \frac{(k + a - 1) (k + b - 1) (2k + a + b)}{k (k + a + b) (2k + a +b - 2)}. \]

  • 下面是作者给的一些例子:

  • 作者证明了, 在特殊的情况下 (也不算特别特殊), Jacobi 多项式基的系数 \(\alpha_k\) 相较于其它的多项式基的系数更容易收敛.

JacobiConv

  • 一般来说, \(\alpha_k\) 随着 \(k\) 增加是逐渐减小的 (绝对值), 故而直接学习可能得不到想要的结果. 所以作者把它们重参数化为:

    \[\alpha_k = \beta_k \prod_{i=1}^k \gamma_i, \]

    其中 \(\gamma_i = \gamma' \tanh(\eta_i)\) 用来保证:

    \[\gamma_i \in [-\gamma', \gamma']. \]

  • 最终的公式可以改写为:

    \[P_k^{a, b}(\hat{A}) \hat{X} = \gamma_k \theta_k \hat{A} P_{k-1}^{a, b} (\hat{A}) \hat{X} + \gamma_k \theta_k' P_{k-1}^{a, b}(\hat{A}) \hat{X} - \gamma_k \gamma_{k-1} \theta_k'' P_{k-2}^{a, b}(\hat{A}) \hat{X}. \]

代码

[official]

标签:Spectral,mathbb,Neural,Graph,tilde,theta,hat,gamma,lambda
From: https://www.cnblogs.com/MTandHJ/p/17844803.html

相关文章

  • 【略读论文|时序知识图谱补全】Adaptive Path-Memory Network for Temporal Knowledge
    会议:IJCAI,时间:2023,学校:1中国科学院计算机网络信息中心,北京2中国科学院大学,北京3澳门大学智慧城市物联网国家重点实验室,澳门4香港科技大学(广州),广州5佛罗里达大学计算机科学系,奥兰多摘要:提出一种新的具有TKG关联特征的体系结构建模方法,即自适应路径-记忆网络(DaeMon)。......
  • 【略读论文|时序知识图谱补全】Temporal Knowledge Graph Reasoning with Historical
    会议:AAAI,时间:2023,学校:上海交通大学摘要:大多数时序知识图谱的推理方法高度依赖于事件的递归或周期性,这给推断与缺乏历史交互的实体相关的未来事件带来了挑战。本文提出一种新的基于历史对比学习训练框架的对比事件网络(CENET)的新事件预测模型。1.CENET学习历史和非历史依赖来区......
  • 【略读论文|时序知识图谱补全】Logic and Commonsense-Guided Temporal Knowledge Gra
    会议:AAAI,时间:2023,学校:北京航空航天大学文中谓词可以视为关系。以往的TKG补全(TKGC)方法不能同时表示事件的时效性和因果关系。为了应对这些问题,作者提出了一个逻辑和尝试引导嵌入模型(LCGE),从常识的角度共同学习涉及事件的及时性和因果关系的时间敏感表示,以及事件的时间无关表示......
  • 神经网络入门篇:神经网络的梯度下降(Gradient descent for neural networks)
    神经网络的梯度下降在这篇博客中,讲的是实现反向传播或者说梯度下降算法的方程组单隐层神经网络会有\(W^{[1]}\),\(b^{[1]}\),\(W^{[2]}\),\(b^{[2]}\)这些参数,还有个\(n_x\)表示输入特征的个数,\(n^{[1]}\)表示隐藏单元个数,\(n^{[2]}\)表示输出单元个数。在这个例子中,只介绍过的......
  • 数据结构与算法 | 图(Graph)
    在这之前已经写了数组、链表、二叉树、栈、队列等数据结构,本篇一起探究一个新的数据结构:图(Graphs)。在二叉树里面有着节点(node)的概念,每个节点里面包含左、右两个子节点指针;比对于图来说同样有着节点(node),在图里也称为顶点(vertex),顶点之间的关联不在局限于2个(左、右),一个顶点可以与任......
  • 在Spring Boot中实现GraphQL
    1什么是GraphQLGraphQL是一种API查询语言,由Facebook开发,用于提供灵活、高效的API接入。它允许客户端准确指定需要的数据,而不是获取预设的REST接口。2优势灵活的查询方式,请求特定字段,无过度获取强类型,类型安全单一端点,避免过多端点内置Documentation...3Spring......
  • How Attentive are Graph Attention Networks?
    目录概符号说明GATv2代码BrodyS.,AlonU.andYahavE.Howattentivearegraphattentionnetworks?ICLR,2022.概作者发现了GAT的attention并不能够抓住边的重要性,于是提出了GATv2.符号说明\(\mathcal{V}=\{1,\ldots,n\}\),nodeset;\(\mathcal{E}\su......
  • linux环境安装可操作图库语言Gremlin的图框架HugeGraph
    原创/朱季谦 若你还没接触过图数据库,可能看到这个概念时,会比较蒙蔽。图是什么?图数据库又是什么?首先,在数据结构中,图是一种由顶点(vertex)集合及顶点间关系集合组成的一种非线性数据结构。而图数据库,则是以图这种具有点边结构来增、删、改、查之类操作的NoSQL数据库,它特别擅长处理大数......
  • QGraphicsLineItem的位置
     上图中红线起始位置0,0,宽度1。若想与图像起始像素重合,应该设置起始位置为0.5,0.5。若宽度为2,则起始位置为1,1。此时红线与图像的第1、2行像素重合。......
  • Decoupling the Depth and Scope of Graph Neural Networks
    目录概符号说明Shadow-GNN代码ZengH.,ZhangM.,XiaY.,SrivastavaA.,MalevichA.,KannanR.,PrasannaV.,JinL.andChenR.Decouplingthedepthandscopeofgraphneuralnetworks.NIPS,2021.概为每个结点抽取一子图作为结点的代表,然后推理过程仅限定在子......