Lag-Llama
lagllama是为单变量概率预测而构建的。它使用不依赖于频率的通用方法来标记时间序列数据。这样模型可以很好地推广到不可见的频率。
它利用Transformer体系结构和分布头来解析输入令牌,并将它们映射到具有置信区间的未来预测。
一、具有滞后特征的标记
laglllama的标记策略是使用一组指定的滞后来构造序列的滞后特征。
它将从这个列表中为给定的数据集选择所有合适的频率:
季度、月、周、天、小时、秒
也就是说,如果以每日频率提供数据集,lag - llama将尝试使用每日滞后(t-1),每周滞后(t-7),每月滞后(t-30)等构建特征。
策略如下图所示。
从上图中,我们还可以看到模型构建了其他静态协变量,例如秒/分、小时/天等等,直到季度/年。虽然这可以很好地推广到所有类型的时间序列,但它有一个致命的缺点:由于固定的滞后指数列表,输入令牌可能会变得非常大。
例如,查看每小时数据的每月频率需要730个时间步。这意味着除了所有静态协变量之外,输入令牌的长度至少为730。
二、Lag-Llama架构
Lag-Llama是一个基于transformer的纯解码器模型,其灵感来自大型语言模型LLaMA的体系结构。
从图中可以看到输入标记是滞后时间步长和静态协变量的拼接。输入序列通过线性投影层将特征映射到解码器内部注意力模块的隐藏维度。另外就是在最后的输出,序列被发送到一个分布头负责输出一个概率分布。
在推理过程中,输入序列生成下一个时间点的分布。然后通过自回归,模型逐个生成剩余的预测序列,直到达到设置的长度。
生成预测的自回归过程有效地允许模型为其预测生成不确定性区间。但是这里的问题就是如果序列很长,自回归的方式会将错误扩大。
三、Lag-Llama分布头
Lag-Llama的分布头负责输出概率分布。这样模型就能够生成预测区间。
在模型的迭代中,最后一层使用Student 's t分布来构造不确定性区间。
四、Lag-Llama的训练
作为一个基础模型,Lag-Llama显然是在大量的时间序列数据语料库上训练的,因此该模型可以很好地泛化未见过的时间序列并进行零样本预测。
论文中说:Lag-Llama在来自不同领域的27个时间序列数据集上进行了训练,如能源、交通、经济等。
数据包含7965个单变量时间序列,总计约3.52亿个令牌。
所有数据集都是开源的,包括ethth, Exchange和Weather等。
五、Lag-Llama的零样本预测
1.环境设置
!git clone https://github.com/time-series-foundation-models/lag-llama/
cd lag-llama
pip install -r requirements.txt --quiet
Cloning into 'lag-llama'... remote: Enumerating objects: 167, done. remote: Counting objects: 100% (68/68), done. remote: Compressing objects: 100% (27/27), done. remote: Total 167 (delta 45), reused 50 (delta 40), pack-reused 99 Receiving objects: 100% (167/167), 198.32 KiB | 4.84 MiB/s, done. Resolving deltas: 100% (75/75), done.