首页 > 其他分享 >BasicTS: 探索多元时间序列预测的进展: 综合基准和异质性分析(综述、长序列预测、时空预测、异质性、模型数据处理、训练流程、分布漂移)

BasicTS: 探索多元时间序列预测的进展: 综合基准和异质性分析(综述、长序列预测、时空预测、异质性、模型数据处理、训练流程、分布漂移)

时间:2024-10-30 20:10:19浏览次数:1  
标签:预测 模型 异质性 分布 序列 数据 漂移

2024年10月29日,在读一篇长序列预测&时空预测的综述的博客,记录一下自己需要的内容。

原博客链接:「万字长文」长序列预测 & 时空预测,你是否被这些问题困扰过?一文带你探索多元时间序列预测的研究进展!

论文:Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis

GitHub:https://github.com/GestaltCogTeam/BasicTS

TKDE 2023的综述论文。

 

以下为具体内容:

1. 以长序列预测为例,相关工作通常在归一化之后的数据上计算MAE、MSE,其误差非常小,只有零点几,但是把预测结果反归一化回原来的尺度上,并计算MAPE、WAPE等更直观的相对指标的时候,误差能达到百分之几十,差距非常大。

因此更合理的选择是,在报告上述指标的同时,计算MAPE、WAPE等相对误差指标,甚至同时计算反归一化之后的MAE和MSE,可以更直观地从数值中理解预测结果的好坏。

2. 模型数据处理阶段对原始时间序列数据进行归一化,采用Min-Max归一化和Z-Score归一化,每种方法对预测性能的影响不同。训练流程阶段,许多研究使用了带掩码的MAE损失函数进行模型训练,这种方法排除了异常值,避免了异常值对正常值预测的不利影响。相反,一些研究采用了简单的MAE作为优化函数,通常会导致较差的结果。此外,训练技巧的加入,如梯度剪裁和课程学习,也会显著影响性能。然而,这些配置却经常不会在论文中提及。

3. 多变量时间序列(MTS)数据集的异质性:

4. 相比时间维度,空间依赖关系更难以理解和量化,提出了空间不可区分性这个概念,揭示空间依赖的核心问题。空间不可区分性意味着在某个时刻,历史数据相似但未来数据不同,普通的回归模型(如MLP或更复杂的Transformer)无法通过相似的历史数据准确预测出不同的未来——即不可区分。

5. 

6.

7. 

8.

 

以下为个人(个人与GPT沟通)的一些理解和观点(可能不正确,瞎扯):

1. 

 

2. 时序数据的分布漂移

分布漂移(Distribution Shift)是指时间序列数据的统计分布随时间发生变化的现象。在时序数据分析中,分布漂移是一个重要的挑战,因为它会导致模型对未来数据的预测不准确,甚至完全失效。分布漂移常见于金融市场、气象、交通流量等应用中,在这些领域中,数据的特征往往随时间而改变。

1. 分布漂移的类型

分布漂移可分为不同类型,主要包括以下几类:

a. 协变量漂移(Covariate Shift)

协变量漂移是指特征变量的分布发生了变化,而目标变量的分布没有发生变化。例如在股票市场中,宏观经济指标的分布可能会随时间改变,但投资回报率的关系可能保持不变。在这种情况下,模型可能因为特征分布的改变而预测不准确。

b. 概念漂移(Concept Drift)

概念漂移是指目标变量的分布随时间变化,导致特征和目标之间的关系改变。例如在客户行为预测中,消费者的偏好随季节变化,模型需要调整才能捕捉新的关系。这种漂移可能是逐渐发生的(渐变漂移),也可能是突然的(突变漂移)。

c. 标签漂移(Label Shift)

标签漂移指的是目标变量的边际分布发生了变化,而特征分布保持不变。标签漂移在时序数据中较少见,但在某些异常检测或分类任务中会发生。例如在疾病监测中,特定疾病的流行率可能随季节变化而变化。

2. 分布漂移的成因

  • 环境变化:例如季节变化、政策调整会影响数据的生成过程。
  • 用户行为改变:用户偏好、需求等随时间发生变化,导致数据分布漂移。
  • 系统更新或升级:在工业和生产环境中,数据生成设备的更新、检测设备的精度提高等也会引起分布漂移。

3. 分布漂移对时序模型的影响

分布漂移对时序模型的影响可能体现在以下几个方面:

  • 预测精度下降:模型在训练集上的表现无法延续到测试集,因为数据分布的变化导致模型在新的数据上表现不佳。
  • 模型稳定性降低:模型需要频繁更新才能适应新数据,增加了维护成本。
  • 增加训练难度:分布漂移可能会导致模型在训练过程中出现较大的偏差,影响模型的收敛性。

4. 应对分布漂移的方法

应对分布漂移的方法主要有以下几种:

a. 模型重训练(Retraining)

定期收集新数据并对模型进行重训练,是应对分布漂移最直接的方法。通过更新模型参数,使得模型更好地适应当前的数据分布。然而,重训练的频率需要根据漂移的频率和幅度来平衡模型的维护成本。

b. 自适应模型(Adaptive Models)

自适应模型能够在线更新参数,以动态地调整模型对漂移的适应。例如使用在线学习方法(如自适应神经网络、贝叶斯更新)逐步调整模型。

c. 漂移检测方法

使用漂移检测算法可以识别分布漂移的发生。例如:

  • 监控统计量:监控特征和目标变量的统计量(如均值、方差),识别分布的变化。
  • 漂移检测算法:如Kullback-Leibler(KL)散度、Kolmogorov-Smirnov(KS)测试、Page-Hinkley检测等,检测新数据和历史数据之间的分布差异。

d. 领域自适应方法(Domain Adaptation)

如果有先验知识,模型可以通过领域自适应方法对新的分布进行调整。例如使用迁移学习,在目标领域的数据较少时,可以借助源领域的数据来进行微调。

5. 实际应用中的分布漂移实例

  • 金融市场:金融市场中,经济事件、政策变化都会引起数据分布的改变,因此股票和期货预测模型需经常更新。
  • 电力负荷预测:随着季节变化和能源政策的调整,电力负荷的分布会发生变化,导致原有的预测模型失效。
  • 医疗诊断:随着新病原体的出现和季节变化,疾病流行情况会发生变化,因此诊断模型也需随时间调整。

总结

分布漂移是时间序列数据中不可忽视的现象,尤其在需要高精度预测的领域中,识别并适应分布漂移是确保模型准确性和稳定性的关键。

3. 异质性

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

道阻且长,行则将至,行而不辍,未来可期。

 

标签:预测,模型,异质性,分布,序列,数据,漂移
From: https://www.cnblogs.com/ZERO-/p/18512616

相关文章

  • 时间序列预测---Prophet
    更多细节可见官网地址:https://facebook.github.io/prophet/docs/quick_start.html#python-api一、模型介绍Prophet是facebook开源的的一个时间序列预测算法,特别适合于处理具有季节性和趋势的数据。主要思想是将数据分解为如下三个部分:趋势、季节性、节假日和特殊事件。y......
  • OpenCV与AI深度学习 | 实战 | YOLO11自定义数据集训练实现缺陷检测 (标注+训练+预测
    本文来源公众号“OpenCV与AI深度学习”,仅用于学术分享,侵权删,干货满满。原文链接:实战|YOLO11自定义数据集训练实现缺陷检测(标注+训练+预测保姆级教程)导 读   本文将手把手教你用YOLO11训练自己的数据集并实现缺陷检测。安装环境YOLO11的介绍和使用这里不再赘......
  • 时间序列分析:一种二次指数平滑法构建的纺织生产布料年产量线性预测模型 | 基于SQL语言
    目录0问题描述1 符号规定与基本假设 2模型的分析与建立 3模型的求解【基于SQL语言实现】3.1数据准备3.2问题分析步骤1:计算初始值。步骤2:计算一次平滑值。步骤3:计算二次平滑值 步骤4:计算直线趋势模型的系数 及步骤5:构建线性预测模型进行结果预测3.3结......
  • ISSA+CNN+BIGRU+attention时间序列预测代码
    1.ISSA(改进的麻雀优化算法)功能:ISSA用于优化模型参数(如CNN和BIGRU的超参数),帮助提高模型的性能和准确性。机制:寻食策略:模拟麻雀在觅食过程中如何探索和利用资源,通过随机游走和局部搜索,寻找最优解。自适应权重:ISSA可以根据搜索空间动态调整探索和利用的权重......
  • 基于模型预测算法的混合储能微电网双层能量管理系统研究(Matlab代码实现)
      ......
  • 采用线性回归实现训练和预测(Python)
    已知测得某块地,当温度处于15至40度之间时,数得某块草地上小花朵的数量和温度值的数据如下表所示。现在要来找出这些数据中蕴含的规律,用来预测其它未测温度时的小花朵的数量。测得数据如下图所示:importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.linear_model......
  • CDFormer:当退化预测包含盲图像超分辨率的扩散模型时
    CDFormer:当退化预测包含盲图像超分辨率的扩散模型时   现有的盲图像超分辨率(BSR)方法侧重于估计核或退化信息,但长期以来忽视了基本的内容细节。提出了一种新的BSR方法,即内容感知退化驱动变换器(CDFormer),用于捕获退化和内容表示。然而,低分辨率图像无法提供足够的内容细节,因此引......
  • Fastjson枚举序列化和反序列化的推荐实现
    一、背景项目中定义了很多dto,包含枚举类型,而且这些枚举全都自定义标志码。比如7001对应某种操作。返回前台时,需要转化为对应的7001,前台传入后台时也希望7001转化为枚举。二、研究思路一开始,研究了fastjson的默认实现。发现只有不自定义类似7001这种默认值的时候,可以自动转化......
  • 基于图论的时间序列数据平稳性与连通性分析:利用图形、数学和 Python 揭示时间序列数据
    时间序列数据表示了一个随时间记录的值的序列。理解这些序列内部的关系,尤其是在多元或复杂的时间序列数据中,不仅仅局限于随时间绘制数据点(这并不是说这种做法不好)。通过将时间序列数据转换为图,我们可以揭示数据片段内部隐藏的连接、模式和关系,帮助我们发现平稳性和时间连通......
  • 0基础读顶会论文—面向应用的云工作负载预测:调查和新视角
    原文链接Abstract准确的工作负载预测对于云用户和提供商来说非常有价值,因为它可以有效指导许多实践,例如性能保证、降低成本和能耗优化。然而,由于工作负载的复杂性和动态性,云工作负载预测非常具有挑战性,并且已经提出了各种解决方案来增强预测行为,与现有调查不同,我们首次从一个新......