BasicTS: 探索多元时间序列预测的进展：综合基准和异质性分析(综述、长序列预测、时空预测、异质性、模型数据处理、训练流程、分布漂移)

标签：预测模型异质性分布序列数据漂移

2024年10月29日，在读一篇长序列预测&时空预测的综述的博客，记录一下自己需要的内容。

原博客链接：「万字长文」长序列预测 & 时空预测，你是否被这些问题困扰过？一文带你探索多元时间序列预测的研究进展！

论文：Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis

GitHub：https://github.com/GestaltCogTeam/BasicTS

TKDE 2023的综述论文。

以下为具体内容：

1. 以长序列预测为例，相关工作通常在归一化之后的数据上计算MAE、MSE，其误差非常小，只有零点几，但是把预测结果反归一化回原来的尺度上，并计算MAPE、WAPE等更直观的相对指标的时候，误差能达到百分之几十，差距非常大。

因此更合理的选择是，在报告上述指标的同时，计算MAPE、WAPE等相对误差指标，甚至同时计算反归一化之后的MAE和MSE，可以更直观地从数值中理解预测结果的好坏。

2. 模型数据处理阶段对原始时间序列数据进行归一化，采用Min-Max归一化和Z-Score归一化，每种方法对预测性能的影响不同。训练流程阶段，许多研究使用了带掩码的MAE损失函数进行模型训练，这种方法排除了异常值，避免了异常值对正常值预测的不利影响。相反，一些研究采用了简单的MAE作为优化函数，通常会导致较差的结果。此外，训练技巧的加入，如梯度剪裁和课程学习，也会显著影响性能。然而，这些配置却经常不会在论文中提及。

3. 多变量时间序列(MTS)数据集的异质性：

4. 相比时间维度，空间依赖关系更难以理解和量化，提出了空间不可区分性这个概念，揭示空间依赖的核心问题。空间不可区分性意味着在某个时刻，历史数据相似但未来数据不同，普通的回归模型(如MLP或更复杂的Transformer)无法通过相似的历史数据准确预测出不同的未来——即不可区分。

以下为个人(个人与GPT沟通)的一些理解和观点(可能不正确，瞎扯)：

2. 时序数据的分布漂移

分布漂移（Distribution Shift）是指时间序列数据的统计分布随时间发生变化的现象。在时序数据分析中，分布漂移是一个重要的挑战，因为它会导致模型对未来数据的预测不准确，甚至完全失效。分布漂移常见于金融市场、气象、交通流量等应用中，在这些领域中，数据的特征往往随时间而改变。

1. 分布漂移的类型

分布漂移可分为不同类型，主要包括以下几类：

a. 协变量漂移（Covariate Shift）

协变量漂移是指特征变量的分布发生了变化，而目标变量的分布没有发生变化。例如在股票市场中，宏观经济指标的分布可能会随时间改变，但投资回报率的关系可能保持不变。在这种情况下，模型可能因为特征分布的改变而预测不准确。

b. 概念漂移（Concept Drift）

概念漂移是指目标变量的分布随时间变化，导致特征和目标之间的关系改变。例如在客户行为预测中，消费者的偏好随季节变化，模型需要调整才能捕捉新的关系。这种漂移可能是逐渐发生的（渐变漂移），也可能是突然的（突变漂移）。

c. 标签漂移（Label Shift）

标签漂移指的是目标变量的边际分布发生了变化，而特征分布保持不变。标签漂移在时序数据中较少见，但在某些异常检测或分类任务中会发生。例如在疾病监测中，特定疾病的流行率可能随季节变化而变化。

2. 分布漂移的成因

环境变化：例如季节变化、政策调整会影响数据的生成过程。
用户行为改变：用户偏好、需求等随时间发生变化，导致数据分布漂移。
系统更新或升级：在工业和生产环境中，数据生成设备的更新、检测设备的精度提高等也会引起分布漂移。

3. 分布漂移对时序模型的影响

分布漂移对时序模型的影响可能体现在以下几个方面：

预测精度下降：模型在训练集上的表现无法延续到测试集，因为数据分布的变化导致模型在新的数据上表现不佳。
模型稳定性降低：模型需要频繁更新才能适应新数据，增加了维护成本。
增加训练难度：分布漂移可能会导致模型在训练过程中出现较大的偏差，影响模型的收敛性。

4. 应对分布漂移的方法

应对分布漂移的方法主要有以下几种：

a. 模型重训练（Retraining）

定期收集新数据并对模型进行重训练，是应对分布漂移最直接的方法。通过更新模型参数，使得模型更好地适应当前的数据分布。然而，重训练的频率需要根据漂移的频率和幅度来平衡模型的维护成本。

b. 自适应模型（Adaptive Models）

自适应模型能够在线更新参数，以动态地调整模型对漂移的适应。例如使用在线学习方法（如自适应神经网络、贝叶斯更新）逐步调整模型。

c. 漂移检测方法

使用漂移检测算法可以识别分布漂移的发生。例如：

监控统计量：监控特征和目标变量的统计量（如均值、方差），识别分布的变化。
漂移检测算法：如Kullback-Leibler（KL）散度、Kolmogorov-Smirnov（KS）测试、Page-Hinkley检测等，检测新数据和历史数据之间的分布差异。

d. 领域自适应方法（Domain Adaptation）

如果有先验知识，模型可以通过领域自适应方法对新的分布进行调整。例如使用迁移学习，在目标领域的数据较少时，可以借助源领域的数据来进行微调。

5. 实际应用中的分布漂移实例

金融市场：金融市场中，经济事件、政策变化都会引起数据分布的改变，因此股票和期货预测模型需经常更新。
电力负荷预测：随着季节变化和能源政策的调整，电力负荷的分布会发生变化，导致原有的预测模型失效。
医疗诊断：随着新病原体的出现和季节变化，疾病流行情况会发生变化，因此诊断模型也需随时间调整。

总结

分布漂移是时间序列数据中不可忽视的现象，尤其在需要高精度预测的领域中，识别并适应分布漂移是确保模型准确性和稳定性的关键。

3. 异质性

道阻且长，行则将至，行而不辍，未来可期。

标签：预测,模型,异质性,分布,序列,数据,漂移
From： https://www.cnblogs.com/ZERO-/p/18512616

BasicTS: 探索多元时间序列预测的进展：综合基准和异质性分析(综述、长序列预测、时空预测、异质性、模型数据处理、训练流程、分布漂移)

1. 分布漂移的类型

a. 协变量漂移（Covariate Shift）

b. 概念漂移（Concept Drift）

c. 标签漂移（Label Shift）

2. 分布漂移的成因

3. 分布漂移对时序模型的影响

4. 应对分布漂移的方法

a. 模型重训练（Retraining）

b. 自适应模型（Adaptive Models）

c. 漂移检测方法

d. 领域自适应方法（Domain Adaptation）

5. 实际应用中的分布漂移实例

总结

相关文章

赞助商

阅读排行

BasicTS: 探索多元时间序列预测的进展： 综合基准和异质性分析(综述、长序列预测、时空预测、异质性、模型数据处理、训练流程、分布漂移)

1. 分布漂移的类型

a. 协变量漂移（Covariate Shift）

b. 概念漂移（Concept Drift）

c. 标签漂移（Label Shift）

2. 分布漂移的成因

3. 分布漂移对时序模型的影响

4. 应对分布漂移的方法

a. 模型重训练（Retraining）

b. 自适应模型（Adaptive Models）

c. 漂移检测方法

d. 领域自适应方法（Domain Adaptation）

5. 实际应用中的分布漂移实例

总结

相关文章

赞助商

阅读排行

BasicTS: 探索多元时间序列预测的进展：综合基准和异质性分析(综述、长序列预测、时空预测、异质性、模型数据处理、训练流程、分布漂移)