GATGPT: A Pre-trained Large Language Model with Graph Attention Network for Spatiotemporal Imputation

数据形式

框架

Our approach integrates pre-trained large language models (LLMs) into spatiotemporal imputation, introducing a groundbreaking framework, GATGPT. This framework merges a graph attention mechanism with LLMs. We maintain most of the LLM parameters unchanged to leverage existing knowledge for learning temporal patterns, while fine-tuning the upper layers tailored to various applications. The graph attention component enhances the LLM’s ability to understand spatial relationships.

GATGPT Framework

Input Embedding

Graph Attention Module

Graph Attention Component

Frozen Pre-trained Blocks

GPT-ST: Generative Pre-Training of Spatio-Temporal Graph Neural Networks

数据形式

Spatio-Temporal Data \(\mathbf{X}\)

Spatio-Temporal Data

Spatio-Temporal Hypergraphs

为了帮助理解超边和节点之间的关系，我们来定义一个带有详细标注的顶点-超边连接矩阵 \(\mathbf{H}\)。

假设我们有以下节点：

\(v_{A,8}\)：A区在早上8点
\(v_{B,8}\)：B区在早上8点
\(v_{C,8}\)：C区在早上8点
\(v_{A,9}\)：A区在早上9点
\(v_{B,9}\)：B区在早上9点
\(v_{C,9}\)：C区在早上9点

超边：

\(e_1\)：连接 \(v_{A,8}\)、\(v_{B,8}\) 和 \(v_{C,8}\)
\(e_2\)：连接 \(v_{A,9}\) 和 \(v_{B,9}\)

我们可以构建一个带有标注的矩阵：

\[\mathbf{H} = \begin{array}{c|cc} & e_1 & e_2 \\ \hline v_{A,8} & 1 & 0 \\ v_{B,8} & 1 & 0 \\ v_{C,8} & 1 & 0 \\ v_{A,9} & 0 & 1 \\ v_{B,9} & 0 & 1 \\ v_{C,9} & 0 & 0 \\ \end{array} \]

解释

行表示节点 \(v_{A,8}\) 到 \(v_{C,9}\)，代表不同区域在不同时间点的数据。
列表示超边 \(e_1\) 和 \(e_2\)，用来连接多个节点。
矩阵中的 "1" 表示某个节点被某条超边连接。例如：
- 第一行中 \(v_{A,8}\) 和 \(e_1\) 连接，因此位置为 1。
- 第四行中 \(v_{A,9}\) 和 \(e_2\) 连接，因此位置为 1。

这样标注之后，可以清晰地看到超边和节点的连接关系。通过这种方式，超图可以同时捕捉多个节点之间的复杂关系，而不仅仅是两两节点的关系。

框架

We propose a spatio-temporal mask autoencoder as a pre-training model for learning spatio-temporal dependencies. The model incorporates customized parameter learners and hierarchical spatial pattern encoding networks. These modules are specifically designed to capture spatio-temporal customized representations and intra- and inter-cluster region semantic relationships, which have often been neglected in existing approaches.
We introduce an adaptive mask strategy as part of the pre-training mechanism. This strategy guides the mask autoencoder in learning robust spatio-temporal representations and facilitates the modeling of different relationships, ranging from intra-cluster to inter-cluster, in an easy-to-hard training manner.

Spatio-Temporal Pre-training Paradigm

Pretrain时间序列的编码器（利用mask的数据）。在下游任务的时候，先对时间进行编码。

Spatio-Temporal Pre-training Paradigm

Encoder Structure

这里的 \(g\) 表示的是下游任务的训练。

Downstream Task Training

以下是具体的训练框架
Customized Temporal Pattern Encoding

初始化时间embedding

1. Initial Embedding Layer

在进行时空数据编码时，首先构建一个初始嵌入层。具体流程如下：

数据归一化： 原始的时空数据 \(\mathbf{X}\) 通过 Z-Score 方法进行归一化。这可以确保数据在不同时间和空间维度上具有可比性。
掩码操作： 归一化后的数据经过掩码处理。这意味着在预训练或特定任务中，有选择地隐藏一些输入数据，用来模拟缺失值或鼓励模型在部分缺失数据的情况下进行推断。
线性变换： 接着，应用一个线性变换来增强数据表示：
\[\mathbf{E}_{r,t} = \mathbf{M}_{r,t} \odot \hat{\mathbf{X}}_{r,t} \cdot \mathbf{E}_0 \]
- 这里，\(\mathbf{E}_{r,t}\) 是表示区域 \(r\) 在时间 \(t\) 的嵌入。
- \(\mathbf{M}_{r,t}\) 是一个掩码矩阵，表示哪些数据可见。
- \(\hat{\mathbf{X}}_{r,t}\) 是归一化后的时空数据。
- \(\mathbf{E}_0 \in \mathbb{R}^{F \times d}\) 是初始的嵌入向量矩阵，\(F\) 表示特征的数量，\(d\) 是隐藏单元的维度。

通过这种方式，初始嵌入层可以在输入数据的基础上进行增强，生成更具代表性的嵌入。

2. Temporal Hypergraph Neural Network

为了学习时空关系，该方法使用了超图神经网络进行编码。核心公式如下：

\[\mathbf{\Gamma}_t = \sigma(\mathbf{\tilde{E}}_t \cdot \mathbf{W}_t + \mathbf{b}_t + \mathbf{E}_t) \]

\[\mathbf{\tilde{E}}_r = \text{HyperPropagate}(\mathbf{E}_r) = \sigma(\mathbf{H}_r^{\top} \cdot \sigma(\mathbf{H}_r \cdot \mathbf{E}_r)) \]

解释：

超图传播 (HyperPropagate)： 通过超图神经网络模型，将初始嵌入 \(\mathbf{E}_r\) 转换成中间嵌入 \(\mathbf{\tilde{E}}_r\)。
最终嵌入 \(\mathbf{\Gamma}_t\)： 将中间嵌入和时间特定的参数 \(\mathbf{W}_t, \mathbf{b}_t\) 结合，使用激活函数 \(\sigma\) 得到。

这些参数（例如 \(\mathbf{H}_r, \mathbf{W}_t, \mathbf{b}_t\)）都可以动态地调整，以捕捉到不同时间点上区域间的复杂关系。而这些参数的动态生成过程由下一部分的自定义参数学习器提供。

3. Customized Parameter Learner

该模块的核心目的是实现自定义参数学习，特别是为不同的区域和时间段生成独特的模型参数。这些参数直接服务于第2点的超图神经网络，用于调整其超图传播过程，从而实现对不同区域和时间的精细化建模。

公式解读：

\[\mathbf{H}_r = \mathbf{c}_r^{\top} \hat{\mathbf{H}}, \quad \mathbf{W}_t = \mathbf{d}_t^{\top} \hat{\mathbf{W}}, \quad \mathbf{b}_t = \mathbf{d}_t^{\top} \hat{\mathbf{b}}, \quad \mathbf{d}_t = \text{MLP}(\bar{\mathbf{z}}_t^{(d)} \mathbf{e}_1 + \bar{\mathbf{z}}_t^{(w)} \mathbf{e}_2) \]

\(\hat{\mathbf{H}}, \hat{\mathbf{W}}, \hat{\mathbf{b}}\)：独立的基础参数。这些参数通过自定义学习器进行调整，以生成适合特定时间和区域的参数。
\(\mathbf{c}_r, \mathbf{d}_t\)：分别表示区域 \(r\) 和时间 \(t\) 的特征表示。
- \(\mathbf{c}_r\) 是区域的自由参数，可以根据不同的区域调节超图参数 \(\mathbf{H}_r\)，确保在超图传播过程中，能够捕捉到区域特定的关系。
- \(\mathbf{d}_t\) 通过时间的特征 \(\bar{\mathbf{z}}_t^{(d)}\)（表示一天中的特定时间，如上午或下午）和 \(\bar{\mathbf{z}}_t^{(w)}\)（表示一周中的特定时间，如工作日或周末）生成，用于调节时间特定的参数 \(\mathbf{W}_t\) 和 \(\mathbf{b}_t\)，从而反映时间变化对模型的影响。

总结：

在“Customized Temporal Pattern Encoding”这一框架中，第3点的自定义参数学习器直接为第2点的超图神经网络提供服务。通过生成自适应的参数 \(\mathbf{H}_r, \mathbf{W}_t, \mathbf{b}_t\)，使得超图神经网络能够根据不同的区域和时间段动态地调整传播过程，精准捕捉时空数据中的复杂关系。这种方法允许模型自动学习并适应时空数据中的变化模式，更好地进行分析和预测。

4.2 Hierarchical Spatial Pattern Encoding

4.2.1 Hypergraph Capsule Clustering Network

当前的空间编码主要专注于捕捉局部相邻区域间的关系，但忽略了不同区域之间的广泛相似性。这些区域即使在地理上相距较远，也可能表现出相似的时空模式。例如，商业区即使地理位置分散，也会表现出相似的时空特性。因此，GPT-ST 引入了一种超图胶囊聚类网络来捕捉全局区域间的相似性。该网络将多个区域聚类中心作为超图边，这些边表征了区域间的全局相似性。

为了进一步增强超图结构学习，我们引入了胶囊网络的动态路由机制。这种机制通过迭代更新超图表示和区域-超图连接，根据语义相似性改进聚类效果，从而增强了区域间依赖关系的全局建模能力。

具体来说，首先我们获取区域 \(r\) 在时间 \(t\) 的归一化区域嵌入 \(\mathbf{v}_{r,t} \in \mathbb{R}^d\)，使用先前的嵌入 \(\mathbf{\Gamma}_{r,t}\) 和 squash 函数计算。然后，这个嵌入被用来计算从区域 \(r\) 到每个超图聚类中心 \(i\) 的传递信息 \(\mathbf{\tilde{v}}_{i|r,t} \in \mathbb{R}^d\)，在时间槽 \(t\) 内的具体公式如下：

\[\mathbf{v}_{r,t} = \text{squash}(\mathbf{V}\mathbf{\Gamma}_{r,t} + \mathbf{c}); \quad \mathbf{\tilde{v}}_{i|r,t} = \text{squash}(\mathbf{H}_{i}^{\prime \top} \mathbf{v}_{r,t}) \odot \mathbf{v}_{r,t} \]

其中：

\(\mathbf{V} \in \mathbb{R}^{d \times d}\) 和 \(\mathbf{c} \in \mathbb{R}^d\) 是自由可学习的参数。
超图连接矩阵 \(\mathbf{H}_{i}^{\prime} \in \mathbb{R}^{H_S \times R}\) 记录了 \(R\) 个区域和 \(H_S\) 个超图边之间的关系，用作聚类中心。
该矩阵是基于之前的自定义参数学习器，使用如下公式进行动态调整：
\[\mathbf{H}_{i}^{\prime} = \text{softmax}(\mathbf{d}_t^{\top} \mathbf{\hat{H}}) \]
这里，\(\mathbf{d}_t\) 和 \(\mathbf{\hat{H}}\) 是时间特征和超图嵌入。

迭代超图结构学习。通过初始化区域嵌入 \(\mathbf{v}_{r,t}\) 和超图连接嵌入 \(\mathbf{\tilde{v}}_{i|r,t}\)，采用胶囊网络的动态路由算法来迭代增强超图的聚类效果。第 \(j\) 轮迭代的公式如下：

\[s_{i,t}^j = \sum_{r=1}^{R} c_{i|r,t}^{j} \mathbf{\tilde{v}}_{i|r,t}; \quad c_{i|r,t}^{j} = \frac{\exp(b_{i|r,t}^{j})}{\sum_{i^{\prime}} \exp(b_{i^{\prime}|r,t}^{j})}; \quad b_{i|r,t}^{j} = b_{i|r,t}^{j-1} + \mathbf{v}_{r,t}^{\top} \text{squash}(s_{i,t}^{j-1}) \]

\(s_{i,t}^j \in \mathbb{R}^d\) 表示第 \(j\) 次迭代的超图嵌入。
权重 \(c_{i|r,t}^{j} \in \mathbb{R}\) 是基于上一轮超图嵌入和传递信息计算得到的。
最后，动态更新 \(b_{i|r,t}^{j}\) 使得聚类效果逐渐得到优化。

4.2.2 Cross-Cluster Relation Learning

通过聚类嵌入 \(\mathbf{s}_{i,t}\)，我们提出在高层次超图神经网络中建模聚类之间的相互关系。具体来说，使用以下公式来通过高层超图从各个超图聚类中心和 \(H_M\) 个高层超图边之间进行消息传递：

\[\hat{\mathbf{S}} = \text{HyperPropagate}(\mathbf{\hat{S}}) = \text{squash}(\mathbf{H}^{\prime \top} \sigma(\mathbf{H}^{\prime} \cdot \mathbf{\hat{S}})) + \mathbf{\hat{S}} \]

其中 \(\mathbf{\hat{S}} \in \mathbb{R}^{H_S \times d}\) 是从 \(\mathbf{s}_{i,t}\) 重整后的嵌入矩阵。
\(\mathbf{H}^{\prime\prime} \in \mathbb{R}^{H_M \times H_S T}\) 表示高层超图结构。

在调整后的聚类表示 \(\hat{\mathbf{s}}_{i,t}\) 之后，我们将聚类嵌入反向传递给低层超图结构：

\[\mathbf{\Psi}_{r,t} = \sigma\left( \left( \sum_{i=1}^{H_S} c_{i|r,t} \cdot \hat{\mathbf{s}}_{i,t} \right) \mathbf{W}_{r}^{\prime} + \mathbf{b}_{r}^{\prime} + \mathbf{\Gamma}_{r,t} \right) \]

这里 \(\mathbf{\Psi}_{r,t}\) 是新的区域嵌入。
自定义参数学习器生成的 \(\mathbf{W}_{r}^{\prime}\) 和 \(\mathbf{b}_{r}^{\prime}\) 是低层超图的区域特异性变换和偏差参数。

Squash 函数

squash 函数是一种非线性激活函数，主要用于胶囊网络。其目的是将输入向量的长度限制在 \((0,1]\) 的范围内，同时保持向量的方向。这种操作能够有效地规范向量的长度，使得模型在处理特征时，能够更稳定地聚焦在特征方向，而不会因为特征值的大小而产生波动。

squash 函数的数学表达式为：

\[\text{squash}(\mathbf{x}) = \frac{\|\mathbf{x}\|^2}{1 + \|\mathbf{x}\|^2} \frac{\mathbf{x}}{\|\mathbf{x}\|} \]

其中：

\(\mathbf{x}\) 是输入向量。
\(\|\mathbf{x}\|\) 表示向量的欧氏范数（即长度）。

函数解释

向量长度调整：squash 函数通过 \(\frac{\|\mathbf{x}\|^2}{1 + \|\mathbf{x}\|^2}\) 这一项，将输入向量的长度缩放到 \((0,1]\)。当 \(\|\mathbf{x}\|\) 较大时，输出的长度会趋近于 \(1\)；当 \(\|\mathbf{x}\|\) 较小时，输出的长度会接近于 \(\|\mathbf{x}\|\)。
保持方向：由于最后的 \(\frac{\mathbf{x}}{\|\mathbf{x}\|}\)，输入向量的方向得以保持。这意味着向量的方向信息不受缩放的影响，确保特征的方向性不变。

应用场景

在胶囊网络和超图神经网络中，squash 函数被用来规范向量的表示，使得模型在特征传递时能够更有效地利用方向信息，同时将特征长度控制在一个合理的范围内。这种设计能够帮助模型更好地进行聚类和分类任务。

4.3 Cluster-aware Masking Mechanism

受语义引导的 MAE 启发，GPT-ST 设计了一种基于聚类的掩码机制来增强聚类间和聚类内部的关系学习。这种机制根据之前的聚类信息 \(c_{i|r,t}\) 设计，来创建一种易于学习的掩码过程。具体实现方法如下：

在训练的开始，我们随机掩盖每个聚类中的一部分区域。
随着训练进行，对某些类别逐渐增加掩码比例，以减少对特定特征的依赖。
最终完全掩盖一些类别的信号，从而减少模型依赖，增强跨聚类的学习能力。

直接使用 \(c_{i|r,t}\) 生成掩码是不现实的，因此引入了基于自定义参数学习器的两层 MLP 网络进行调整，最终预测结果 \(\mathbf{q}_{i,t}\) 用于优化分布。通过 KL 散度损失 \(L_{KL}\) 来最小化预测和真实聚类信息的差异。

意义的解读

可以的，让我来详细解释一下这个超图结构在时空数据中的应用，并结合一个例子来帮助你理解。

超图编码在时空数据中的作用

在时空数据分析中，我们需要处理大量具有空间和时间维度的多维数据。例如，监测城市中各个区域的交通流量、空气质量、温度等。这些数据不仅仅受单个区域或单一时间点的影响，还会因为区域之间的相互关系和时间的变化而相互影响。如何有效地建模这些复杂的关系是时空数据分析的一个关键问题。

传统的图神经网络可以很好地捕捉到局部邻居之间的相互影响，但它们在处理更广泛的全局关系（例如，城市的几个不同区域在相距较远的情况下依然有相似的时空模式）时，就变得不够有效。而超图的引入能够解决这一问题。

什么是超图？

在普通的图结构中，一条边只连接两个节点。而在超图中，一条“超边”可以连接多个节点，这样能够直接表示多个区域之间的相互关系。例如，如果某些区域在某个时间段表现出相似的交通模式（比如通勤高峰），超图就能把这些区域连接起来，作为一个超边。
通过这种方式，超图能够将普通的点对点连接扩展到一个点对多个点的关系，增强模型捕捉全局相似性和复杂模式的能力。

超图在时空数据中的应用举例

假设我们要分析一个城市的交通流量数据。我们有以下几个区域（A、B、C、D、E、F），并且想在不同的时间段（比如工作日和周末，早高峰和晚高峰）下，捕捉这些区域之间的交通流量模式。

普通图结构的限制：
- 假设我们只使用普通的图神经网络来表示这些区域之间的相互关系。可能只能捕捉到区域 A 和它直接相邻的 B、C 之间的交通流量关系。这样就只能建模局部邻居的关系。
超图如何增强建模：
- 通过超图，我们可以把在某个特定时间段（比如周一早高峰）下，有相似交通流量模式的区域用一个“超边”连接起来。
- 比如，如果区域 A、D、E 在早高峰都有大量的通勤流量，而 B 和 C 较少，那么我们可以把 A、D、E 这三个区域用一条超边连接，表示它们之间的相似性。
- 这样做的好处是，即便 A、D、E 之间在地理位置上并不相邻，超图也能够通过这种方式捕捉到它们在特定时间段下的相似模式。
动态时空关系的建模：
- 在不同的时间段，超图的结构也可以动态调整。例如，在周末，区域 B、C 和 F 的某些活动更密集，超图就会调整超边的连接，将这些区域连在一起，形成另一种相似模式。
- 这种动态调整是通过自定义参数学习器完成的，会根据时空数据的变化自动调整超边和节点的连接权重，从而捕捉到复杂的时空关系。

超图在公式中的体现

超边连接表示：
- 在公式中，\(\mathbf{H}^{\prime}\) 作为超图的连接矩阵，可以表示区域和超图边之间的连接关系。超图边的调整通过自定义学习器控制的动态路由完成，从而根据不同时段的相似性调整连接。
信息传递：
- 在时空数据中，使用 \(\text{HyperPropagate}\) 来进行信息传播。例如，城市不同区域的交通流量信息会在这些相似模式的区域中传播，形成一种“全局特征”的聚类，而不仅仅是局部的相邻关系。

结合squash函数的使用

squash 函数在这种超图模型中主要用于将节点的表示进行归一化和调整，确保每个节点的信息不会在信息传递过程中因为过大或者过小的特征而丢失。

总结

通过超图和胶囊网络的结合，模型能够自动将时空数据中的复杂全局模式进行编码，不仅能够捕捉到局部的邻居关系，还可以学习到不同区域在某些特定时间下的全局相似性。这种模型在分析和预测时空模式（例如交通流量、天气变化、空气污染分布等）时非常有效，因为它能够自动将分散的节点（区域）连接成有意义的整体，从而提升预测和分析的准确性。

是的，你的理解非常准确。我们可以总结如下：

普通图 vs. 超图

普通图的关系：
- 主要基于空间上的邻近关系，也就是说，如果两个节点（例如，两个城市区域）在地理位置上相邻，普通图会把它们连接起来。
- 这种方式适合建模局部的相互影响，比如相邻区域之间的交通流量、天气状况等。
超图的关系：
- 除了考虑空间上的邻近性外，超图还能够根据特定时间段的相似性进行连接。例如，尽管两个区域在地理上不相邻，但如果它们在同一时间段（比如早高峰、周末）有相似的流量模式，超图可以用“超边”将它们连接在一起。
- 这种连接方式更灵活，可以捕捉到跨越空间和时间的复杂关系，帮助模型了解哪些区域在不同时间段内表现出相似的时空模式。

超图的更新机制

关于超图的更新，你的理解也是正确的。超图的更新过程通常是针对单独一个时间节点进行的。具体地讲：

时间特定的超图更新：
- 在模型中，超图会根据特定的时间点（例如一个小时、一段时间段或一天内的某个时刻）进行动态更新。这个时间点的选择取决于数据的粒度和应用场景。
- 例如，在早高峰时段，超图会调整连接关系，将那些在早上通勤高峰流量相似的区域用“超边”连接起来；而到了晚上，超图可能会重新调整连接，反映出晚高峰或夜间的相似模式。
动态调整的机制：
- 这种调整不是预定义的，而是通过模型的自定义参数学习器来自动完成的。自定义参数学习器会根据时间和区域的特征调整连接权重，从而动态地更新超图。
- 例如，参数学习器可能会通过分析一天中各个时间段的区域特征，生成不同时间特定的参数 \(W_t\) 和 \(b_t\)，进而调整每个时间节点的超图结构。

总结

你可以将超图视为一种增强版的图，不仅表示空间上的直接邻居关系，还可以表达时间上的相似性关系。而超图的更新机制则是动态的、时间敏感的，针对每一个时间节点，根据时空数据自动调整超图的连接结构。这种灵活性使得模型能够捕捉到复杂的时空模式，从而更好地进行分析和预测。

第3条公式和第6条公式的区别

是的，你的理解非常到位，可以这么说：

第 3 条公式：邻接矩阵（超图结构）在网络层间保持不变

在第 3 条公式中：

\[\mathbf{\Gamma}_t = \sigma(\mathbf{\tilde{E}}_t \cdot \mathbf{W}_t + \mathbf{b}_t + \mathbf{E}_t); \quad \mathbf{\tilde{E}}_r = \text{HyperPropagate}(\mathbf{E}_r) = \sigma(\mathbf{H}_r^{\top} \cdot \sigma(\mathbf{H}_r \cdot \mathbf{E}_r)) \]

邻接矩阵（超图连接矩阵） \(\mathbf{H}_r\) 在模型的不同层中保持不变。
具体来说，如果你有 3 层的超图神经网络，每一层都会使用相同的超图连接矩阵 \(\mathbf{H}_r\) 来进行信息传递和卷积操作。
这种结构类似于传统的图神经网络（GCN），其中邻接矩阵通常在不同的网络层间是固定的，只是在每一层进行不同的特征更新。

第 6 条公式：迭代优化中动态调整连接关系

在第 6 条公式中：

连接权重 \(c_{i|r,t}^{j}\) 是动态变化的，这意味着在每一轮迭代中，这些连接关系都会根据输入数据和当前的优化状态进行调整。
在迭代的每一轮中，\(b_{i|r,t}^j\) 会不断更新，从而影响到 \(c_{i|r,t}^j\) 的计算，最终使得 \(s_{i,t}^j\) 逐渐收敛到更稳定的聚类表示。
由于这是一个迭代优化过程，连接关系会在每一轮的迭代中动态变化，而不是在每层网络间保持不变。

小结：第 3 条和第 6 条公式的邻接矩阵（连接关系）是否变化

第 3 条公式：邻接矩阵不变
- 在多层网络中，超图的结构 \(\mathbf{H}_r\) 是固定的，不会随着网络层数变化。它根据区域特征和时间特征动态生成，但在某一时刻或时间段内会保持固定，贯穿所有网络层。
- 这意味着，假设有 3 层的超图神经网络，每一层都会使用相同的 \(\mathbf{H}_r\) 进行信息传递。
第 6 条公式：连接关系动态变化
- 在第 6 条公式中，连接关系（即 \(c_{i|r,t}^{j}\)）是基于动态迭代优化的，每一轮迭代中都会根据节点的相似性和之前的结果进行更新。
- 这种动态调整使得模型能够在每一轮迭代中逐步增强对节点相似性的捕捉，最终找到更加稳定的连接模式。这意味着，连接关系并不固定，而是在迭代过程中不断变化和优化。

结论

第 3 条公式：超图的结构在网络层间固定，即便有多层网络，邻接矩阵不会变化。这种设计适合全局时空信息的聚合。
第 6 条公式：连接关系在迭代优化过程中动态调整，这使得模型能够灵活适应特定时段内的动态相似性，适合更精细的动态聚类任务。

你可以把第 3 条公式理解为一种静态的全局信息整合，而第 6 条公式则是动态的局部优化过程。这种设计使得整个模型既能捕捉到稳定的全局时空模式，也能动态适应局部的相似性变化。

LANGUAGE MODEL EMPOWERED SPATIO-TEMPORAL FORECASTING VIA PHYSICS-AWARE REPROGRAMMING

数据格式

框架

Specifically, we first propose a physics-aware decomposer that adaptively disentangles spatially correlated time series into interpretable sub-components, which facilitates PLM to understand sophisticated spatio-temporal dynamics via a divide-and-conquer strategy. Moreover, we propose a selective discrete reprogramming scheme, which introduces an expanded spatio-temporal vocabulary space to project spatio-temporal series into discrete representations. This scheme minimizes the information loss during reprogramming and enriches the representations derived by PLMs.

标签：mathbf,连接,聚类,时序,区域,文章,相关,时空,超图
From： https://www.cnblogs.com/csjywu01/p/18502331

时序相关的文章

GATGPT: A Pre-trained Large Language Model with Graph Attention Network for Spatiotemporal Imputation

数据形式

框架

Input Embedding

Graph Attention Module

Frozen Pre-trained Blocks

GPT-ST: Generative Pre-Training of Spatio-Temporal Graph Neural Networks

数据形式

Spatio-Temporal Data \(\mathbf{X}\)

Spatio-Temporal Hypergraphs

解释

框架

Spatio-Temporal Pre-training Paradigm

1. Initial Embedding Layer

2. Temporal Hypergraph Neural Network

3. Customized Parameter Learner

公式解读：

总结：

4.2 Hierarchical Spatial Pattern Encoding

4.2.1 Hypergraph Capsule Clustering Network

4.2.2 Cross-Cluster Relation Learning

Squash 函数

函数解释

应用场景

4.3 Cluster-aware Masking Mechanism

意义的解读

超图编码在时空数据中的作用

什么是超图？

超图在时空数据中的应用举例

超图在公式中的体现

结合squash函数的使用

总结

普通图 vs. 超图

超图的更新机制

总结

第3条公式和第6条公式的区别

第 3 条公式：邻接矩阵（超图结构）在网络层间保持不变

第 6 条公式：迭代优化中动态调整连接关系

小结：第 3 条和第 6 条公式的邻接矩阵（连接关系）是否变化

结论

LANGUAGE MODEL EMPOWERED SPATIO-TEMPORAL FORECASTING VIA PHYSICS-AWARE REPROGRAMMING

数据格式

框架

相关文章

赞助商

阅读排行