首页 > 其他分享 >[Ecological Informatics 2022]Dynamic graph convolution neural network based on spatial-temporal corr

[Ecological Informatics 2022]Dynamic graph convolution neural network based on spatial-temporal corr

时间:2022-10-14 16:15:00浏览次数:58  
标签:frac convolution neural 卷积 模型 TCN based LSTM sum

Dynamic graph convolution neural network based on spatial-temporal correlation for air quality prediction

总结

用GCN提取特征后,用多通道的TCN处理时空图,得到预测,亮点在于结合了多种信息。

动机

利用时空信息预测空气污染

文章贡献

  1. dynamic distance gray relation analysis (DD-GRA)模型被提出
  2. 混了了动态GCN和多通道TCN(DGC-MTCN)模型被提出
  3. 两个真实数据集上的实验

先前工作

现有的空气质量预测算法可被分为三类:统计法、机器学习法和深度学习法。

比较经典的时序图算法有LSTM和GRU。

这里回顾一下经典的几个模型。

RNN

img

这些模型每次出现的激活函数中都套有全连接层。

上层的结果和下层输入合并过tanh。但这样模型很容易遗忘较早的信息。

LSTM

img

可以看作强化版RNN,最上排是细胞状态,用于保留信息。\(\sigma\)指的是Sigmoid。从左往右第一个是忘记门,二三合起来是输入门,更新细胞状态,左边确定更新的值,右边提供基础值。最后是输出门,根据细胞状态,输出指定的过滤后的信息。

GRU

img

LSTM的变体,把忘记门和输入门合成单个更新门。GRU比LSTM简单,同时效果不会差太多。

TCN

image.png

利用attention来决定历史信息中记忆和忘记的内容。

文中称TCN会好于LSTM和GRU。

以上这些方法只能基于单个站点的信息进行预测,还有很多变体模型,如C-LSTME, CR-LSTM, ConvLSTM, ST-CausalConvNet等,可以考虑更多站点信息的时空图卷积,来预测PM2.5。

此外还有和GCN联合的模型GC-LSTM,多尺度时空图卷积网络MST-GCN将特征和构造图相结合,对于每个时空块做卷积层。

以上方法只考虑了静态的节点间距离,没考虑他们之间的动态关系,文中指的是空气质量和气候信息。

算法

img

定义

模型需要根据过去长度为T的时间内的情况,预测未来S长度的时间内的事情,因此模型整体可以抽象为:

\[[X_{t+1}, \dots, X_{t+S}] = f([X_{t-T}, \dots, X_t]) \]

对于一张有N个点,T时长的图 \(G=(V,A)\) 而言,MP2.5数据矩阵为:\(X\in \mathbb{R}^{N \times T}\),\(X^{(t)} \in X\)表示t时刻的特征。

辅助元素矩阵\(X_A\in \mathbb{R}^{P \times T}\),也就是每个时刻有P个辅助元素。

最终使用的特征向量为\(X_I=[X;X_A]\)。

此外,\(A^{(t)}[i,j]\)表示的是t时两点之间的相似度(文中没具体说是什么的相似度。既然有时间戳,应该是结合各动态数据后的相似度)

\[\{[(X^{(t-T):(t)};G \oplus X^{(t-T):(t)})];TC\} \to f[X^{(t+1):(t+S)}] \]

t-T到t内的特征用于预测t+1到t+S。这里的分号说是指特征提取方式,G则是空间特征提取,TC则是时间特征提取。

空间特征提取模型

对于每个观测节点的每个时刻,都能有一个PM2.5的记录值,我们可以得到

\[\Delta_{i,j}(t)=X_i(t)-X_j(t) \]

再去求这两个点相关性

\[\Phi_{i,j}(t)=\frac{\Delta_{min} + \rho \Delta_{max}}{\Delta_{i,j}(t) + \rho\Delta_{max}} \]

这里的最大最小,文中用了level一词,不知道到底什么是两个level,也不是很清楚具体值的是哪两个之间的最大最小。\(\rho\)为区分系数,一般取0.5。这个值越大,会使得分子分母越接近,不同点之间的\(\Phi\)也会越相近。

得到了所有时刻的相关性后,就可以得到平均相关性:

\[r_{i,j}=\frac{1}{T}\sum_{t=1}^T\Phi_{i,j}(t) \]

除了考虑PM2.5值的相近度,还需要考虑各个站点物理上的实际距离:

\[S_{i,j}=2arcsin \sqrt{sin^2A+cos(lat_i) \times cos(lat_j) \times sin^2B} \times R \]

这个公式应该是球体上两点距离的公式。
这里的\(S_{i,j}\)就是两点之间的距离,\(A=\frac{lat_i-lat_j}{2}\), \(B=\frac{lon_i-lon_j}{2}\)是经纬度的距离,\(R\)是地球的半径6378KM。

有了S后,可以得到逆距离权重

\[w_{ij}=1-\frac{S_{ij}}{\sum^{iN,j=N}_{i=1,j=1}S_{ij}/N} \]

最后动态邻接矩阵:

img

这里的肯定是哈达玛积,不然就乱套了。首先所有点自己和自己的权重都是1,保证自身信息不会在卷积中丢失。然后PM2.5的相似度会乘上一个距离越近值越大的权重。

时序特征提取模型

img

多通道的TCN中,每个通道都有多层计算块,这些块里都有两种卷积层和一个结构,分别为casual卷积用于防止信息遗漏,扩张卷积用于分析图像语义信息,剩余结构用于缓解梯度消失。

模型整体伪代码

img

公式9就是加权的MP2.5相似度邻接矩阵

公式10是GCN,使用的特征是最后合成的含有PM2.5和辅助元素的X。

整体的模型解释得挺潦草的,细节都不怎么明确。。。。

实验

数据集

img
img
其中八成用于训练,两成用于测试。

实验设置

TCN的通道数为3,每个通道有6个块,卷积核的大小为3,优化器选择SGD。这里其实每个块具体的算法都不清楚,不怎么好分析。。。

评价指标

文中没有使用常见的精度评价指标,而是衡量回归的指标
Root Mean Square Error (RMSE), Mean Absolute Error (MAE)以及coefficient of determination (\(R^2\))

\[RMSE=\sqrt{\frac{1}{n}\sum^n_{i=1}(y_i-\hat{y}_i)^2};\\ MAE=\frac{1}{N}\sum^N_{i=1}||y_i-\hat{y}_i||;\\ R^2=1-\frac{\sum^N_{i=1}(y_i-\hat{y}_2)^2}{\sum^N_{i=1}(y_i-\bar{y})} \]

其中\(\bar{y}\)表示真实值的均值。这里作者笔误了,均值是没下标的。

由于RMSE是先平方再开方,实际是放大了误差,所以通常结果会比MAE大。这两个方法都是越小模型越好,不过都没上下限。

相比之下,\(R^2 \in [0,1)\)就会有上下限。这个算法实际上就是拿我们的模型和全都取平均为预测结果的baseline之间的差距。那自然是分母越大,分子越小越好,整个值就是越大越接近1越好。

实验结果

img
img
img
img
img
img
img
img

标签:frac,convolution,neural,卷积,模型,TCN,based,LSTM,sum
From: https://www.cnblogs.com/yujianke100/p/16791884.html

相关文章