标签：frac convolution neural 卷积模型 TCN based LSTM sum

Dynamic graph convolution neural network based on spatial-temporal correlation for air quality prediction

总结

用GCN提取特征后，用多通道的TCN处理时空图，得到预测，亮点在于结合了多种信息。

动机

利用时空信息预测空气污染

文章贡献

dynamic distance gray relation analysis (DD-GRA)模型被提出
混了了动态GCN和多通道TCN（DGC-MTCN）模型被提出
两个真实数据集上的实验

先前工作

现有的空气质量预测算法可被分为三类：统计法、机器学习法和深度学习法。

比较经典的时序图算法有LSTM和GRU。

这里回顾一下经典的几个模型。

RNN

这些模型每次出现的激活函数中都套有全连接层。

上层的结果和下层输入合并过tanh。但这样模型很容易遗忘较早的信息。

LSTM

可以看作强化版RNN，最上排是细胞状态，用于保留信息。\(\sigma\)指的是Sigmoid。从左往右第一个是忘记门，二三合起来是输入门，更新细胞状态，左边确定更新的值，右边提供基础值。最后是输出门，根据细胞状态，输出指定的过滤后的信息。

GRU

LSTM的变体，把忘记门和输入门合成单个更新门。GRU比LSTM简单，同时效果不会差太多。

TCN

利用attention来决定历史信息中记忆和忘记的内容。

文中称TCN会好于LSTM和GRU。

以上这些方法只能基于单个站点的信息进行预测，还有很多变体模型，如C-LSTME, CR-LSTM, ConvLSTM, ST-CausalConvNet等，可以考虑更多站点信息的时空图卷积，来预测PM2.5。

此外还有和GCN联合的模型GC-LSTM，多尺度时空图卷积网络MST-GCN将特征和构造图相结合，对于每个时空块做卷积层。

以上方法只考虑了静态的节点间距离，没考虑他们之间的动态关系，文中指的是空气质量和气候信息。

算法

定义

模型需要根据过去长度为T的时间内的情况，预测未来S长度的时间内的事情，因此模型整体可以抽象为：

\[[X_{t+1}, \dots, X_{t+S}] = f([X_{t-T}, \dots, X_t]) \]

对于一张有N个点，T时长的图 \(G=(V,A)\) 而言，MP2.5数据矩阵为：\(X\in \mathbb{R}^{N \times T}\)，\(X^{(t)} \in X\)表示t时刻的特征。

辅助元素矩阵\(X_A\in \mathbb{R}^{P \times T}\)，也就是每个时刻有P个辅助元素。

最终使用的特征向量为\(X_I=[X;X_A]\)。

此外，\(A^{(t)}[i,j]\)表示的是t时两点之间的相似度（文中没具体说是什么的相似度。既然有时间戳，应该是结合各动态数据后的相似度）

\[\{[(X^{(t-T):(t)};G \oplus X^{(t-T):(t)})];TC\} \to f[X^{(t+1):(t+S)}] \]

t-T到t内的特征用于预测t+1到t+S。这里的分号说是指特征提取方式，G则是空间特征提取，TC则是时间特征提取。

空间特征提取模型

对于每个观测节点的每个时刻，都能有一个PM2.5的记录值，我们可以得到

\[\Delta_{i,j}(t)=X_i(t)-X_j(t) \]

再去求这两个点相关性

\[\Phi_{i,j}(t)=\frac{\Delta_{min} + \rho \Delta_{max}}{\Delta_{i,j}(t) + \rho\Delta_{max}} \]

这里的最大最小，文中用了level一词，不知道到底什么是两个level，也不是很清楚具体值的是哪两个之间的最大最小。\(\rho\)为区分系数，一般取0.5。这个值越大，会使得分子分母越接近，不同点之间的\(\Phi\)也会越相近。

得到了所有时刻的相关性后，就可以得到平均相关性：

\[r_{i,j}=\frac{1}{T}\sum_{t=1}^T\Phi_{i,j}(t) \]

除了考虑PM2.5值的相近度，还需要考虑各个站点物理上的实际距离：

\[S_{i,j}=2arcsin \sqrt{sin^2A+cos(lat_i) \times cos(lat_j) \times sin^2B} \times R \]

这个公式应该是球体上两点距离的公式。
这里的\(S_{i,j}\)就是两点之间的距离，\(A=\frac{lat_i-lat_j}{2}\)， \(B=\frac{lon_i-lon_j}{2}\)是经纬度的距离，\(R\)是地球的半径6378KM。

有了S后，可以得到逆距离权重

\[w_{ij}=1-\frac{S_{ij}}{\sum^{iN,j=N}_{i=1,j=1}S_{ij}/N} \]

最后动态邻接矩阵：

这里的肯定是哈达玛积，不然就乱套了。首先所有点自己和自己的权重都是1，保证自身信息不会在卷积中丢失。然后PM2.5的相似度会乘上一个距离越近值越大的权重。

时序特征提取模型

多通道的TCN中，每个通道都有多层计算块，这些块里都有两种卷积层和一个结构，分别为casual卷积用于防止信息遗漏，扩张卷积用于分析图像语义信息，剩余结构用于缓解梯度消失。

模型整体伪代码

公式9就是加权的MP2.5相似度邻接矩阵

公式10是GCN，使用的特征是最后合成的含有PM2.5和辅助元素的X。

整体的模型解释得挺潦草的，细节都不怎么明确。。。。

实验

数据集

其中八成用于训练，两成用于测试。

实验设置

TCN的通道数为3，每个通道有6个块，卷积核的大小为3，优化器选择SGD。这里其实每个块具体的算法都不清楚，不怎么好分析。。。

评价指标

文中没有使用常见的精度评价指标，而是衡量回归的指标
Root Mean Square Error (RMSE), Mean Absolute Error (MAE)以及coefficient of determination (\(R^2\))

\[RMSE=\sqrt{\frac{1}{n}\sum^n_{i=1}(y_i-\hat{y}_i)^2};\\ MAE=\frac{1}{N}\sum^N_{i=1}||y_i-\hat{y}_i||;\\ R^2=1-\frac{\sum^N_{i=1}(y_i-\hat{y}_2)^2}{\sum^N_{i=1}(y_i-\bar{y})} \]

其中\(\bar{y}\)表示真实值的均值。这里作者笔误了，均值是没下标的。

由于RMSE是先平方再开方，实际是放大了误差，所以通常结果会比MAE大。这两个方法都是越小模型越好，不过都没上下限。

相比之下，\(R^2 \in [0,1)\)就会有上下限。这个算法实际上就是拿我们的模型和全都取平均为预测结果的baseline之间的差距。那自然是分母越大，分子越小越好，整个值就是越大越接近1越好。

实验结果

标签：frac,convolution,neural,卷积,模型,TCN,based,LSTM,sum
From： https://www.cnblogs.com/yujianke100/p/16791884.html

[Ecological Informatics 2022]Dynamic graph convolution neural network based on spatial-temporal corr