上篇 | 使用 - IPS99技术分享

标签：概率 Transformers features start field length FieldName 序列

介绍

时间序列预测是一个重要的科学和商业问题，因此最近通过使用基于深度学习而不是经典方法的模型也涌现出诸多创新。ARIMA 等经典方法与新颖的深度学习方法之间的一个重要区别如下。

概率预测

通常，经典方法针对数据集中的每个时间序列单独拟合。这些通常被称为“单一”或“局部”方法。然而，当处理某些应用程序的大量时间序列时，在所有可用时间序列上训练一个“全局”模型是有益的，这使模型能够从许多不同的来源学习潜在的表示。

一些经典方法是点值的 (point-valued)(意思是每个时间步只输出一个值)，并且通过最小化关于基本事实数据的 L2 或 L1 类型的损失来训练模型。然而，由于预测经常用于实际决策流程中，甚至在循环中有人的干预，让模型同时也提供预测的不确定性更加有益。这也称为“概率预测”，而不是“点预测”。这需要对可以采样的概率分布进行建模。

所以简而言之，我们希望训练全局概率模型，而不是训练局部点预测模型。深度学习非常适合这一点，因为神经网络可以从几个相关的时间序列中学习表示，并对数据的不确定性进行建模。

在概率设定中学习某些选定参数分布的未来参数很常见，例如高斯分布 (Gaussian) 或 Student-T，或者学习条件分位数函数 (conditional quantile function)，或使用适应时间序列设置的共型预测 (Conformal Prediction) 框架。方法的选择不会影响到建模，因此通常可以将其视为另一个超参数。通过采用经验均值或中值，人们总是可以将概率模型转变为点预测模型。

时间序列 Transformer

正如人们所想象的那样，在对本来就连续的时间序列数据建模方面，研究人员提出了使用循环神经网络 (RNN) (如 LSTM 或 GRU) 或卷积网络 (CNN) 的模型，或利用最近兴起的基于 Transformer 的训练方法，都很自然地适合时间序列预测场景。

在这篇博文中，我们将利用传统 vanilla Transformer (参考 Vaswani 等 2017 年发表的论文) 进行单变量概率预测 (univariate probabilistic forecasting) 任务 (即预测每个时间序列的一维分布) 。由于 Encoder-Decoder Transformer 很好地封装了几个归纳偏差，所以它成为了我们预测的自然选择。

首先，使用 Encoder-Decoder 架构在推理时很有帮助。通常对于一些记录的数据，我们希望提前预知未来的一些预测步骤。可以认为这个过程类似于文本生成任务，即给定上下文，采样下一个词元 (token) 并将其传回解码器 (也称为“自回归生成”) 。类似地，我们也可以在给定某种分布类型的情况下，从中抽样以提供预测，直到我们期望的预测范围。这被称为贪婪采样 (Greedy Sampling)/搜索，此处有一篇关于 NLP 场景预测的精彩博文。

其次，Transformer 帮助我们训练可能包含成千上万个时间点的时间序列数据。由于注意力机制的时间和内存限制，一次性将所有时间序列的完整历史输入模型或许不太可行。因此，在为随机梯度下降 (SGD) 构建批次时，可以考虑适当的上下文窗口大小，并从训练数据中对该窗口和后续预测长度大小的窗口进行采样。可以将调整过大小的上下文窗口传递给编码器、预测窗口传递给 causal-masked 解码器。这样一来，解码器在学习下一个值时只能查看之前的时间步。这相当于人们训练用于机器翻译的 vanilla Transformer 的过程，称为“教师强制 (Teacher Forcing)”。

Transformers 相对于其他架构的另一个好处是，我们可以将缺失值 (这在时间序列场景中很常见) 作为编码器或解码器的额外掩蔽值 (mask)，并且仍然可以在不诉诸于填充或插补的情况下进行训练。这相当于 Transformers 库中 BERT 和 GPT-2 等模型的 attention_mask，在注意力矩阵 (attention matrix) 的计算中不包括填充词元。

由于传统 vanilla Transformer 的平方运算和内存要求，Transformer 架构的一个缺点是上下文和预测窗口的大小受到限制。关于这一点，可以参阅 Tay 等人于 2020 年发表的调研报告。此外，由于 Transformer 是一种强大的架构，与其他方法相比，它可能会过拟合或更容易学习虚假相关性。

标签：概率,Transformers,features,start,field,length,FieldName,序列
From： https://www.cnblogs.com/huggingface/p/17144606.html

上篇 | 使用

介绍

概率预测

时间序列 Transformer

相关文章

赞助商

阅读排行