一、基本信息
- 题目:Timer: Generative Pre-trained Transformers Are Large Time Series Models
- 会议:ICML 2024
- 原文:https://arxiv.org/abs/2402.02368
- 源码:https://github.com/thuml/Timer
二、基本内容
1、解决什么问题
- 虽然深度学习对时间序列的分析做出了显著的贡献,但在数据稀缺的真实世界场景中,深度模型可能会遇到性能瓶颈,而这些瓶颈可能由于当前基准测试中小模型的性能饱和而被掩盖。
- 现有的小模型缺乏大模型所展示的少样本泛化(few-shot generalization)、可扩展性(scalability)和任务通用性(task generality)。
2、怎么解决
- 构建了统一的时间序列数据集 (Unified Time Series Dataset ——UTSD)
本文建立了筛选高质量数据和堆叠的时间序列语料库的层次标准,通过对公开的时间序列数据集进行聚合,并对聚合后的数据进行协同处理,构建了具有层次化能力的统一时间序列数据集(UTSD)如图所示。包含7个域,10亿个时间点(UTSD-12G),涵盖了时间序列分析的典型场景。
数据集链接:https://huggingface.co/datasets/thuml/UTSD
- 训练策略——单序列序列(S3)格式
采用生成式预训练方法,将单序列序列(S3)作为不同时间序列的标准语句,如下图所示。不同于自然语言 ,序列的幅度、频率、平稳性、数据集的变量数、序列长度等差异使得构造统一的时间序列并非易事。本文提出将异构时间序列转换为单序列序列(S3),保留了具有统一上下文长度的序列变化模式。模型观察了不同时间段、不同数据集的序列,增加了预训练的难度,使模型更关注时间变化。S3不需要时间对齐,这适用于广泛的单变量和不规则时间序列。
- 采用生成式的预训练目标
采用了GPT风格的生成式预训练目标,通过预测下一个时间点来进行预训练。将时间序列的预测、插补和异常检测转化为一个统一的生成式任务,允许模型学习时间序列的生成过程,从而在下游任务中展现出更好的泛化能力。
- Timer(a large-scale pre-trained Time Series Transformer)的提出
基于以上几点,论文提出了Timer,采用与大语言模型类似的解码器结构,具备灵活的上下文长度和自回归生成能力。在多个数据集和多种任务中表现出色。
3、取得了什么效果
1、时间序列预测
数据集:ETT、ECL、Traffic、Weather、PEMS
SOTA: iTransformer (ICLR 2024)
实验:在不同的数据稀缺性(100%,75%,50%,25%,20%.......1%)下 ,对比了从头开始训练的Timer(虚线)和在UTSD(USTD-12G)上预训练后的Timer(实线)的性能。
结果:
Timer的性能受数据量减少的影响小于基线,随着数据数量的下降,Timer的性能均超过基线,且预训练之后的模型表现比从头训练的好。
2、 插补
数据集:ETT、ECL、Traffic、Weather、PEMS
baseline: TimesNet (ICLR 2023)
实验:在数据稀缺度为5%,20%,100%的情况下,Timer在44个插补任务中表现分别优于TimesNet100%,86.4%,56.8%。
对于预训练的有效性,以插补错误减少率来表示促进作用,其中,预训练在下游样本只有5%的情况下始终产生积极影响。
3、 异常检测
数据集:UCR Anomaly Archive(包含250个时间序列数据集)
baseline: TimesNet (ICLR 2023)、Anomaly Transformer(ICLR 2022)
实验:首先在训练集上训练一个预测模型,并计算预测序列和真实值之间的MSE。将置信度高于α的分段标记为异常的潜在位置。
结果:图7右侧表面,Timer优于其他两个异常检测模型。此外,图9左图显示了预训练模型的有效性。
未完待续......
标签:Pre,Transformers,训练,模型,Timer,2024,时间,序列,数据 From: https://blog.csdn.net/weixin_52531647/article/details/140707871