基于不变学习的分布外泛化时间序列预测

标签：suf 基于 mathbf 泛化预测 boldsymbol 序列 mathcal mathrm

论文学习：基于不变学习的分布外泛化时间序列预测

论文：Time-Series Forecasting for Out-of-Distribution Generalization Using Invariant Learning
代码：https://github.com/AdityaLab/FOIL?tab=readme-ov-file

来自 ICML（CCF—A会议）

1 摘要（Abstract）

文章的主要研究内容是针对时间序列预测（Time-series forecasting—TSF）中的分布外（Out-of-Distribution—OOD）泛化问题，通过不变学习（Invariant Learning）来减轻这种固有的OOD问题。其中，分布外泛化主要有以下两个问题：

由于时间序列预测中的核心变量未被观测到，输入可能无法充分确定时间序列预测中的目标变量，从而打破了传统的不变学习假设。
时间序列数据集缺乏足够的环境标签，而现有的环境推理方法并不适合时序预测。

与此同时，文章也指出了时间序列预测中OOD泛化的重要性，并介绍了文章提出的方法：基于不变学习的分布外泛化时间序列预测（Forecasting for Out-of-distribution generalization via Invariant Learning， FOIL）及其主要贡献。

分布外（Out-of-Distribution—OOD) 是指那些与模型训练时使用的数据分布不同的样本。具体来说，分布外OOD样本可能是在训练数据中没有出现过的、或具有不同特征、类别或属性的数据。

不变学习（Invariant Learning) 是一种机器学习方法，旨在通过识别和利用数据中的不变性或稳定特征，提高模型的泛化能力。它关注的是在不同环境或条件下保持不变的特征，从而帮助模型更好地理解和处理数据，有助于提高模型在新环境中的鲁棒性和可靠性，使其能够在多种条件下表现良好，从而在实际应用中更具适用性。

2 引言（Introduction）

时序预测是分析时间序列数据的一项基础任务，涉及基于历史时间序列数据预测未来事件或趋势，一直是研究的重点。由于时间序列数据的动态性和复杂性，时序预测面临着一定的挑战：

首先，时间序列数据的分布随时间而变化。
其次，比如在流感预测的背景下，政策干预和气候变化等不可预见的外生因素加剧了时间序列预测固有的复杂性。

考虑到时间序列数据的动态特性，在历史训练数据和未来测试数据之间可能发生不可预见的分布变化，时间序列预测任务要求具有鲁棒的分布外(OOD)泛化能力。

相反，当前的时间序列预测模型通常都采用 经验风险最小化(ERM) 来将数据中的所有相关性最小化，以最小化平均训练误差。由于并非所有的相关性都存在于未知的测试分布中，这些模型可能缺乏OOD泛化能力。与此同时，现有的关于时间分布变化的研究仅仅专注于缓解输入的边际分布偏移。这些方法对于OOD问题的通用性不够，因为OOD问题包含各种类型的分布移位，如条件分布移位等。

经验风险最小化（Empirical Risk Minimization, ERM）是统计学习理论中的一个基本原则，用于指导机器学习模型的训练过程。它的核心思想是通过最小化训练数据上的预测错误（即经验风险）来找到最佳的模型参数。

在本文中，我们提出通过不变学习来缓解时间序列预测的OOD泛化问题，识别和利用在不同环境中与目标保持稳定关系的不变特征，同时丢弃由变特征引入的不稳定相关性。

虽然不变学习在各个领域取得了广泛的理论和经验成功，但是由于以下挑战，将不变学习应用于时间序列预测仍然未被探索，但也不容忽视——即不变学习在时间序列预测上存在一定的问题：

首先，时间序列数据打破了不变学习的传统假设。在时间序列数据中，总是存在一些直接影响目标但未被观察到的变量，如疫情的爆发、气温的突然变化、政策的调整等。不变学习没有考虑到这些未观察到的核心变量，导致时间序列预测中的OOD泛化能力较差。
其次，时间序列数据通常在没有明确环境标签的情况下收集。虽然已经提出了一些具有环境推理的通用IL方法，但它们忽略了时序数据的特征，导致了次优的引入时间序列环境。

因此，我们提出了一种新的用于分布外泛化的时间序列预测方法，即基于不变学习的分布外泛化的时间序列预测（FOIL——Forecasting for Out-of-distribution generalization via Invariant Learning）。我们的贡献总结如下:

我们研究了时间序列预测的分布外泛化问题。据我们所知，我们是第一个将不变学习引入时间序列预测并确定两个基本差距的人，包括不符合不变学习的传统假设和缺乏环境标签。
我们提出了FOIL，一个实用的和模型无关的时序预测不变学习框架。FOIL利用一个简单的替代损失，以确保IL的适用性，并设计了一个高效的环境推理模块量身定制的时间序列数据。
我们对不同的数据集以及三种先进的预测模型进行了广泛的实验。FOIL通过在更好的预测准确性方面均匀地优于所有基线来证明有效性。

3 前言和问题定义

我们将倾斜的大写字母（如 X ）表示为随机变量

将书法字体字母（如 X \mathcal{X} X ）表示为样本空间

直立的粗体大写字母（如 X ）粗体小写字母（如 x ）和常规小写字母（如 x ）分别表示确定性矩阵、向量和标量。

3.1 时间序列预测:分布外泛化观点

时序预测模型将时间序列作为输入，并输出其部分或全部特征的未来值。

令输入时间序列变量表示为 X ∈ R l × d i n X\in\mathbb{R}^{\mathcal{l×d_in}} X∈Rl×din，其中 l l l 是由领域专家决定的回顾窗口的长度，并且 d i n d_{in} din 是每个时间步长处的特征维度。时域窗口长度 h h h 的预测输出变量记为 Y ∈ R h × d o u t Y\in\mathbb{R}^{\mathcal{h×d_out}} Y∈Rh×dout，其中 d o u t d_{out} dout 是目标在每个时间步的维数。

对于时间步长为 t 的样本，记为 ( X t , Y t ) , X t ∈ X = [ x t − l + 1 , x t − l + 2 , … , x t ] (\mathbf{X}_t,\mathbf{Y}_t),\mathbf{X}_t\in\boldsymbol{X}=[\mathbf{x}_{t-l+1},\mathbf{x}_{t-l+2},\ldots,\mathbf{x}_t] (Xt,Yt),Xt∈X=[xt−l+1,xt−l+2,…,xt] 和 Y t ∈ Y = [ y t + 1 , y t + 2 , … , y t + h ] \mathbf{Y}_{t} \in \mathbf{Y} = [\mathbf{y}_{t+1},\mathbf{y}_{t+2},\ldots,\mathbf{y}_{t+h}] Yt∈Y=[yt+1,yt+2,…,yt+h]。因此，用 θ 参数化的时序预测模型 f_θ ： X \mathcal{X} X → Y \mathcal{Y} Y。

在本文中，我们关注的是带有协变量的单变量预测，即 d o u t d_{out} dout = 1 和 d i n d_{in} din ≥ 1，但我们的方法可以很容易地通过使用多个单变量预测推广到多变量预测设置。

目前已有的时序预测模型通常假设训练分布与测试分布相同，并使用经验风险最小化（ERM）进行模型训练。然而，TSF的训练集和测试集分别代表历史和未来的数据。考虑到时间序列的动态性，测试分布可能会偏离训练分布，导致在OOD场景下的泛化能力较差。

本文考虑更现实的情况下的时序预测，即 P^train( X, Y ) ≠ \neq = P^test( X, Y )，即未知 P^test( X, Y )，其定义如下：

问题1。时间序列预测的分布外泛化（Out-of-Distribution Generalization for Time-Series Forecasting，OOD-TSF）：

给定一个时间序列训练数据集 D \mathcal{D} D^train ={ ( X_t，Y_t ) }^T_t=1，任务是学习一个以 θ 参数化的分布外泛化预测模型 f_θ^*： X \mathcal{X} X → Y \mathcal{Y} Y，使其在未知分布 P^test( X, Y ) 的测试集 D \mathcal{D} D^test上达到最小误差。

3.2 不变学习:环境下的分布外泛化

环境标签不变学习（IL）——由不变原理支持，是OOD泛化的一种流行解决方案。

不变学习假定观测数据的异质性：数据集从多个环境中收集，公式为 D = ∪ e D e = ∪ e { ( X i e , Y i e ) } i = 1 ∣ D e ∣ \mathcal{D}=\cup_e\mathcal{D}^e=\cup_e\{(\mathbf{X}_i^e,\mathbf{Y}_i^e)\}_{i=1}^{|\mathcal{D}^e|} D=∪eDe=∪e{(Xie,Yie)}i=1∣De∣；每个环境 e \mathcal{e} e 都有不同的分布 P^e( X, Y )，称为异构环境。在时间序列数据中，时间环境可以是季节、温度、政策等。设 supp(E) 表示所有环境，目标函数表示为：

R I L ( f θ ) = max ⁡ e ∈ s u p p ( E ) E P ( X , Y ∣ e ) [ ℓ ( f θ ( X ) , Y ) ) ∣ e ] ( 1 ) \mathcal{R}_{\mathrm{IL}}(f_\theta)=\max_{e\in\mathrm{supp}(\boldsymbol{E})}\mathbb{E}_{P(\boldsymbol{X},\boldsymbol{Y}|e)}\left[\ell(f_\theta(\mathbf{X}),\mathbf{Y}))|e\right] \quad(1) RIL(fθ)=maxe∈supp(E)EP(X,Y∣e)[ℓ(fθ(X),Y))∣e](1)

其中OOD泛化是通过最小化最差环境下的经验风险来实现的。

不变特征。 为了优化Eq. 1, 不变学习提出识别和利用在不同环境中与目标变量保持稳定关系的不变特征。例如，在预测流感病例数时，温度变化属于不变特征，而医院记录则属于变异特征，因为流感病例占所有记录的比例在不同季节可能会有所不同。

充分性和不变性假设。 大多数不变学习方法是基于以下传统假设提出的：

假设 3.1 不变学习的传统假设（Conventional Assumption of Invariant Learning）。输入特征 X X X 是不变特征 X I X_{I} XI 和变特征 X V X_{V} XV 的混合， X I X_{I} XI 拥有以下属性：

充分性： Y = g ( X I ) + ϵ Y = g(X_{\mathrm{I}}) + \epsilon Y=g(XI)+ϵ ，其中 g ( ⋅ ) g(\cdot) g(⋅) 可以是任意映射函数，且 ϵ \epsilon ϵ 是随机噪声。
不变性性质： 对于所有 e i , e j ∈ s u p p ( E ) e_{i},e_{j}\in\mathrm{supp}(\boldsymbol{E}) ei,ej∈supp(E)，我们有 P e i ( Y ∣ X I ) = P e j ( Y ∣ X I ) P^{e_{i}}(\boldsymbol{Y}|\boldsymbol{X}_{\mathrm{I}})=P^{e_{j}}(\boldsymbol{Y}|\boldsymbol{X}_{\mathrm{I}}) Pei(Y∣XI)=Pej(Y∣XI) 成立。

因此，假设 X I X_{I} XI 为 Y Y Y 提供了足够且不变的预测能力，并在理论上证明可以保证Eq. 1的最佳OOD性能。

结构因果模型（Structural Causal Model，SCM）是一种用于表示和分析因果关系的模型。SCM的主要特点是通过结构方程的形式明确变量之间的因果关系，从而提供了一种系统的方法来理解复杂系统中的因果机制。在这个图中，节点代表变量，边（箭头）表示因果影响。每个变量的值可以通过其直接影响的父节点的值来定义。

为了更好地理解上述内容，我们采用图 1(a) 所示的 结构因果模型（SCM）。我们将不变特征 X I X_{I} XI 定义为直接导致 Y {Y} Y 的输入特征 X X X 的子集。环境 E E E 可以被解释为 X I X_{I} XI 和 X V X_{V} XV 之间的混杂因素。具体来说， X V X_{V} XV 和 Y {Y} Y 之间的相关性是虚假的，中介是 X V ← E → X I → Y X_{\mathrm{V}} \leftarrow E \rightarrow X_{\mathrm{I}} \rightarrow Y XV←E→XI→Y。相反，因果关系 X I → Y X_{\mathrm{I}}\to Y XI→Y 是不变的，一般来说，不变学习的目的是通过 X I X_{\mathrm{I}} XI 来预测 Y Y Y，达到OOD泛化。

结构因果模型（SCM）（a）现有的不变学习方法和（b）我们提出的方法。关键的区别在于，我们的方法针对目标的充分可预测部分，即， Y s u f {Y^{suf}} Ysuf 而不是原始 Y {Y} Y，从而使不变学习变得可行。

3.3 挑战

考虑到不变学习的理论和经验成功，一个自然的问题出现了：我们可以直接将不变学习应用于 OOD-TSF 吗？

显然是不可以的，因为有两个主要原因导致直接应用出现问题：

首先，时间序列数据中不可观测变量的存在打破了传统的假设3.1。
其次，时间序列数据集通常缺乏足够的环境标签。

时序数据打破了不变学习的传统假设

回想假设3.1，其中假设不变特征 X I X_{I} XI 为不变学习中的 Y Y Y 提供了足够且不变的预测能力。然而，在时序预测任务中，总是存在直接影响 Y Y Y 但未包含在输入特征 X X X 中的变量，例如新型流行病的爆发，温度的突然变化，政策调整等。这些未被观察到的核心变量，记为 Z Z Z ，由于它们不在整个数据集或回看窗口中而存在。

在图1(a)所示的结构因果模型SCM中，我们分别使用 Z → Y Z\to Y Z→Y 和虚线圈来描述 Z Z Z 对 Y Y Y 的核心影响和 Z Z Z 的未观察问题。显然，由于 Z Z Z 的存在，由现有不变学习方法建模的SCM与SCM底层时序数据之间存在差距。

未观测到的 Z Z Z 的存在打破了IL传统假设3.1的两个部分：

首先， Z Z Z 显然打破了充分性部分。因此，现有的IL方法实际上吸收了 Z Z Z 对 Y Y Y 的影响，导致了过拟合问题，特别是对于深度模型。
其次，当 Z Z Z 和 E E E 不是独立的时候， Z Z Z 打破了不变性部分，例如，流感爆发在冬季更频繁。形式上，如果存在 e i , e j ∈ s u p p ( E ) e_{i},e_{j}\in\mathrm{supp}(\boldsymbol{E}) ei,ej∈supp(E)，我们有 P e i ( Z ∣ X I ) ≠ P e j ( Z ∣ X I ) P^{e_{i}}(\boldsymbol{Z}|\boldsymbol{X}_{\mathrm{I}})\neq P^{e_{j}}(\boldsymbol{Z}|\boldsymbol{X}_{\mathrm{I}}) Pei(Z∣XI)=Pej(Z∣XI) ，那么我们有 P e i ( Y ∣ X I ) = ∑ Z P ( Y ∣ X I , Z ) P e i ( Z ∣ X I ) ≠ P e j ( Y ∣ X I ) P^{e_{i}}(\boldsymbol{Y}|\boldsymbol{X}_{\mathrm{I}}) = \sum_{\mathbf{Z}}P(\boldsymbol{Y}|\boldsymbol{X}_{\mathrm{I}},\mathbf{Z})P^{e_{i}}(\mathbf{Z}|\boldsymbol{X}_{\mathrm{I}}) \neq P^{e_{j}}(\boldsymbol{Y}|\boldsymbol{X}_{\mathrm{I}}) Pei(Y∣XI)=∑ZP(Y∣XI,Z)Pei(Z∣XI)=Pej(Y∣XI)。因此，现有的IL方法对TSF缺乏可靠的OOD泛化能力。

时序数据集通常缺少环境标签

首先，大多数 IL 方法需要明确的环境标签作为输入，这在时序预测数据集中通常是不可用的。由于时间环境的复杂性，手动标注通常是困难的、昂贵的，有时甚至是次优的。

其次，现有的具有环境推理方法的 IL 基本上不适用于TSF：

现有 IL 方法在应用于TSF任务时存在一定的局限性：例如研究是基于低维的原始特征，而时序数据通常是高维的；或是需要精细的初始化；或者需要满足特定条件的附加信息；还有则是为分类任务设计的。
现有 IL 方法主要针对静态数据，忽略了时间序列数据的特征，导致推断环境次优。

4 方法（Method）

基于上述的问题，我们提出了 FOIL，这是一个模型不可知的环境感知不变学习框架，作为OOD-TSF问题的实际解决方案。

4.1 概述（Overview）

4.1.1 高层次的想法

我们的主要思想是使用不变学习和环境推理，针对目标中足够可预测的部分(我们称之为 Y s u f Y^{suf} Ysuf )，见图1(b)。具体来说，受Wold分解定理的启发，我们假设 Y Y Y 可以相对于输入 X X X 分解为确定性和不确定性部分，形式为 Y = q ( Y s u f , X ) Y = q(Y^{suf},X) Y=q(Ysuf,X)，其中 q ( ⋅ , ⋅ ) q(\cdot,\cdot) q(⋅,⋅)为任意映射函数。这里，由输入 X X X 决定的 Y s u f ∈ Y Y^{suf} \in \mathcal{Y} Ysuf∈Y 是确定性的，即具有足够的可预测性。因此，针对 Y s u f Y^{suf} Ysuf，充分性和不变性的假设3.1成立，使得不变学习可行。此外，考虑到未观察到的 Z Z Z 的不可预测性，如果我们能够通过不变特征 X I X_{I} XI 发现 Y s u f Y^{suf} Ysuf，则可以实现最佳的OOD预测。为此，我们提出了FOIL，它是将IL应用于OOD-TSF问题的实用解决方案。

Wold分解定理：它指出任何平稳随机过程都可以唯一分解为一个可预测部分和一个不可预测部分。具体来说，对于一个平稳过程 X t X_{t} Xt，可以用过去的信息来预测其值，同时存在一个白噪声序列， Z t Z_{t} Zt 代表随机性和不确定性。公式如下：

X t = E [ X t ∣ F t − 1 ] + Z t X_t=\mathbb{E}[X_t|\mathcal{F}_{t-1}]+Z_t Xt=E[Xt∣Ft−1]+Zt

其中 F t − 1 \mathcal{F}_{t-1} Ft−1 是在时间 t − 1 t-1 t−1 时已知的信息集合， E [ X t ∣ F t − 1 ] \mathbb{E}[X_t|\mathcal{F}_{t-1}] E[Xt∣Ft−1] 表示在已知过去信息的情况下对 X t X_{t} Xt 的最佳线性预测。

4.1.2 总体框架

如图2所示，FOIL由三部分组成：

标签分解组件（ C L D \mathcal{C}_{\mathrm{LD}} CLD），从观测到的 Y Y Y 中分解出足够可预测的 Y s u f Y^{suf} Ysuf。
时间序列环境推理模块(Time-Series EnvironmentInference Module, M T E I \mathcal{M}_{\mathrm{TEI}} MTEI)，该模块基于从 M T E I \mathcal{M}_{\mathrm{TEI}} MTEI 中学习到的表示来推断时间环境。
时间序列不变学习模块（The Time-Series Invariant Learning Module, M T I L \mathcal{M}_{\mathrm{TIL}} MTIL），从 M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 中学习跨推断环境的不变表示。

在 FOIL 中， C L D \mathcal{C}_{\mathrm{LD}} CLD 是 M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 和 M T E I \mathcal{M}_{\mathrm{TEI}} MTEI的初步步骤，然后通过交替更新对 M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 和 M T E I \mathcal{M}_{\mathrm{TEI}} MTEI 进行联合优化。在测试阶段，只有 M T I L \mathcal{M}_{\mathrm{TIL}} MTIL被用于预测。

作为不变学习用于时序预测的第一个工作，FOIL被设计为一个模型不可知的框架，它无缝地集成了各种现成的深度时序预测模型。具体来说，主干模型可以是任意深度时序预测模型，表示为 ϕ ( X ) \phi(X) ϕ(X) 。我们在主干模型 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅) 的学习输出表示之上附加一个回归量 ρ ( ⋅ ) \rho(\cdot) ρ(⋅) ，通常是一个完全连接的层。我们将组合模型简洁地表示为 f θ ( X ) = ρ ( ϕ ( X ) ) f_{\theta}(\boldsymbol{X}) = \rho (\phi(\boldsymbol{X})) fθ(X)=ρ(ϕ(X)) 。 M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 和 M T E I \mathcal{M}_{\mathrm{TEI}} MTEI 利用输出表示 ϕ ( X ) \phi(X) ϕ(X) 来实现模型不可知和容纳时序预测的高维输入。

4.2 损失函数设计（Loss Function Design）

C L D \mathcal{C}_{\mathrm{LD}} CLD 用于从观察到的 Y Y Y 分解出充分可预测的 Y s u f Y^{suf} Ysuf。然而，准确地获得 Y s u f Y^{suf} Ysuf 几乎是不可行的，由于缺乏有关基本生成函数和未观测变量 Z Z Z 的信息。相比于引入额外的数据，例如外部数据集作为 Z Z Z 的代理，我们的目标是通过替代损失来减轻 Z Z Z 的影响，从而更实际地缓解这个问题。首先，我们添加以下假设：

Y = q ( Y s u f , Z ) = α ( Z ) ( Y s u f ) + β ( Z ) 1 ( 2 ) \boldsymbol{Y}=q(\boldsymbol{Y^\mathrm{suf}},\boldsymbol{Z})=\alpha(\boldsymbol{Z})(\boldsymbol{Y^\mathrm{suf}})+\beta(\boldsymbol{Z})\boldsymbol{1} \quad(2) Y=q(Ysuf,Z)=α(Z)(Ysuf)+β(Z)1(2)

其中， α ( ⋅ ) : R d Z → R a n d β ( ⋅ ) : R d Z → R \alpha(\cdot):\mathbb{R}^{d_{Z}}\to\mathbb{R}\mathrm{~and~}\beta(\cdot):\mathbb{R}^{d_{Z}}\to\mathbb{R} α(⋅):RdZ→R and β(⋅):RdZ→R 可以是任何映射函数， 1 ∈ R h × d o u t 1\in\mathbb{R}^{h\times d_{\mathrm{out}}} 1∈Rh×dout 是一个全1矩阵。

这个假设遵循观察到的 Y Y Y 分布的动态性。具体来说，这一假设包含两个方面：

Z Z Z 和 Y s u f Y^{suf} Ysuf 之间的关系是加法和乘法，这是关于未观测变量的广泛采用的假设。
Z Z Z 在一个层位窗口中施加一致的影响，这可以通过将层位窗口划分为多个段来容易地扩展。因此，实际值 Y Y Y 和预测的 Y ^ \hat{Y} Y^ 之间的残差 R e s Res Res，即， R e s = Y − Y ^ Res=Y-\hat{Y} Res=Y−Y^ ，通过平均值 μ ( R e s ) \mu(Res) μ(Res) 和标准差 σ ( R e s ) \sigma(Res) σ(Res) 吸收 Z Z Z 对 Y Y Y 的影响。

因此，我们提出了一个实例残差归一化（IRN）方法来减轻 Z Z Z 的影响。对于实例 t t t 的残差 R e s t Res_{t} Rest ，IRN 方法可以公式化为：

R e s t ~ = Y t − μ ( Y t ) σ ( Y t ) − Y ^ t − μ ( Y ^ t ) σ ( Y ^ t ) = Y ~ t − Y ^ ~ t ( 3 ) \tilde{\mathbf{Res}_t}=\frac{\mathbf{Y}_t-\mu\left(\mathbf{Y}_t\right)}{\sigma(\mathbf{Y}_t)}-\frac{\hat{\mathbf{Y}}_t-\mu\left(\hat{\mathbf{Y}}_t\right)}{\sigma(\hat{\mathbf{Y}}_t)}=\tilde{\mathbf{Y}}_t-\tilde{\hat{\mathbf{Y}}}_t \quad(3) Rest~=σ(Yt)Yt−μ(Yt)−σ(Y^t)Y^t−μ(Y^t)=Y~t−Y^~t(3)

IRN方法在公式3中确保残差均值为0，方差为2 - 2 c o v ( Y ^ , Y ) \mathrm{cov}(\hat{\mathbf{Y}},\mathbf{Y}) cov(Y^,Y)，其中 cov 表示协方差。

协方差是描述两个随机变量之间关系的统计量，表示这两个变量如何共同变化。具体来说，协方差可以用来衡量一个变量的变化是否会导致另一个变量的变化。协方差的计算公式为：

C o v ( X , Y ) = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) \mathrm{Cov}(X,Y)=\frac1{n-1}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y}) Cov(X,Y)=n−11∑i=1n(Xi−Xˉ)(Yi−Yˉ)

其中 X X X 和 Y Y Y 是两个随机变量，n 是样本大小， X ˉ \bar{X} Xˉ 和 Y ˉ \bar{Y} Yˉ 分别是 X X X 和 Y Y Y 的样本均值。

最后，我们推导出以下简单有效的替代损耗来减轻 Z Z Z 的影响，而不是直接解耦 C L D \mathcal{C}_{\mathrm{LD}} CLD 中的 Y s u f Y^{suf} Ysuf ：

ℓ s u f ( Y ^ , Y ) = M S E ( R e s ~ , 0 ) = ℓ ( Y ^ ~ , Y ~ ) ( 4 ) \ell_{\mathrm{suf}}(\hat{\boldsymbol{Y}},\boldsymbol{Y})=\mathrm{MSE}(\tilde{\boldsymbol{Res}},\boldsymbol{0})=\ell(\tilde{\hat{\boldsymbol{Y}}},\tilde{\boldsymbol{Y}}) \quad(4) ℓsuf(Y^,Y)=MSE(Res~,0)=ℓ(Y^~,Y~)(4)

其中， M S E ( R e s ~ , 0 ) = 1 h ∑ j = 1 h ( R e s ~ t + j ) 2 \mathrm{MSE}(\tilde{\boldsymbol{Res}},\mathbf{0})=\frac{1}{h}\sum_{j=1}^{h}(\tilde{\mathbf{Res}}_{t+j})^{2} MSE(Res~,0)=h1∑j=1h(Res~t+j)2 。

请注意，我们的 IRN 从根本上不同于现有的实例规范化(IN)方法。现有的方法采用 IN 到 X X X ，并基于 μ ( X ) \mu(X) μ(X) 和标 σ ( X ) \sigma(X) σ(X) 将 IN 反向到 Y ^ \hat{Y} Y^，旨在解决 X X X 非平稳问题。但是，我们的 IRN 方法直接对齐 Y ^ = f ( X ) \hat{\boldsymbol{Y}}=f(\boldsymbol{X}) Y^=f(X) 和 Y Y Y 之间的均值和方差，从而消除了引入假设下由 Z Z Z 引起的误差。因为 Z Z Z 不包含在 X X X 中，所以现有的方法通常不能实现我们的目标。

非平稳问题：通常是指在时间序列分析中，数据的统计特性（如均值、方差等）随着时间的变化而变化。这种情况会影响模型的预测能力和推断结果

4.3 时间序列环境推断模块（The Time-Series Environment Inference Module）

M T E I \mathcal{M}_{\mathrm{TEI}} MTEI 旨在推断环境 E i n f e r E_{\mathrm{infer}} Einfer ，从而为时间序列不变学习模块 M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 提供环境标签。我们考虑推断有效和合理的时间环境有两个目标：

对编码不变特征敏感。在FOIL中， M T E I \mathcal{M}_{\mathrm{TEI}} MTEI 和 M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 是对立的： M T E I \mathcal{M}_{\mathrm{TEI}} MTEI 根据 M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 未丢弃的变体特征推断环境； M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 根据 M T E I \mathcal{M}_{\mathrm{TEI}} MTEI 推断的环境丢弃变体特征。最终，当 M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 只利用不变的功能， M T E I \mathcal{M}_{\mathrm{TEI}} MTEI 是无法推断有效的环境。因此，我们建议推断对当前学习的表示中编码的变体特征敏感的信息环境，公式化为：

min ⁡ E i n f e r H ( Y s u f ∣ ϕ ∗ ( X ) , E i n f e r ) − H ( Y s u f ∣ ϕ ∗ ( X ) ) ( 5 ) \min_{\boldsymbol{E_{\mathrm{infer}}}}H\left(\boldsymbol{Y^\mathrm{suf}}|\phi^*(\boldsymbol{X}),\boldsymbol{E_\mathrm{infer}}\right)-H\left(\boldsymbol{Y^\mathrm{suf}}|\phi^*(\boldsymbol{X})\right) \quad(5) minEinferH(Ysuf∣ϕ∗(X),Einfer)−H(Ysuf∣ϕ∗(X))(5)

其中 H H H 是香农条件熵， ϕ ∗ ( X ) \phi^{*}(X) ϕ∗(X) 是从 M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 中学习到的表示，并冻结在 M T E I \mathcal{M}_{\mathrm{TEI}} MTEI 中。
保留时间邻接结构。为了确保在时序预测背景下推断的环境是合理的，我们考虑保留时间序列数据的固有特征，即时间邻接结构。具体来说，时间邻接的实例应该具有相似的时间环境。这也可以被视为一种正则化，以防止推断环境过度拟合到随机噪声。直观地说，推断环境的方法是优化Eq. 5，并使用一个插件来保留时间邻接结构。为此，我们在表示空间中提出了一种基于EM的聚类解决方案，通过多头神经网络实现。每个头部都是一个特定于环境的回归量，扮演着每个集群中心的角色。具体来说，回归量 ρ ( e ) \rho^{(e)} ρ(e) 是特定于环境 e e e 的。表示 ϕ ∗ ( X ) \phi^{*}(X) ϕ∗(X) 被共享并冻结在 M T E I \mathcal{M}_{\mathrm{TEI}} MTEI 来我们描述 M 步和 E 步。
M步：优化环境特定回归

在M步骤中，我们优化 { ρ ( e ) } \{\rho^{(e)}\} {ρ(e)} 以更好地拟合来自 E 步骤的当前环境分区 E i n f e r E_{\mathrm{infer}} Einfer 的数据，如下所示：

min ⁡ { ρ ( e ) } L T E I = E e ∈ E i n f e r R s u f ( e ) ( ρ ( e ) , ϕ ∗ ) = ∑ e ∈ E i n f e r 1 ∣ D e ∣ ∑ ( X , Y ) ∈ D e ℓ s u f ( ρ ( e ) ( ϕ ∗ ( X ) ) , Y ) ( 6 ) \begin{aligned}&\min_{\{\rho^{(e)}\}}\mathcal{L}_{\mathrm{TEI}}=\mathbb{E}_{e\in\boldsymbol{E}_{\mathrm{infer}}}\mathcal{R}_{\mathrm{suf}}^{(e)}(\rho^{(e)},\phi^{*})=\sum_{e\in\boldsymbol{E}_{\mathrm{infer}}}\frac{1}{|\mathcal{D}_{e}|}\sum_{(\mathbf{X},\mathbf{Y})\in\mathcal{D}_{e}}\ell_{\mathrm{suf}}\left(\rho^{(e)}\left(\phi^{*}(\mathbf{X})\right),\mathbf{Y}\right)\end{aligned} \text \quad {(6)} {ρ(e)}minLTEI=Ee∈EinferRsuf(e)(ρ(e),ϕ∗)=e∈Einfer∑∣De∣1(X,Y)∈De∑ℓsuf(ρ(e)(ϕ∗(X)),Y)(6)

E步：估计环境标签(estimate Environment Labels)

接下来在 E 步中，我们重新分配环境分区。例如 ( X t , Y t ) (\mathbf{X}_{t},\mathbf{Y}_{t}) (Xt,Yt) ，我们通过以下两个步骤重新分配其环境标签 E i n f e r ( t ) E_{\mathrm{infer}}(t) Einfer(t):
- 步骤1：基于与每个集群(环境)中心的距离重新分配。我们使用相对于回归量 ρ ( e ) \rho^{(e)} ρ(e) 的损失来描述与聚类 e e e 中心的距离，因此，我们根据最短距离重新分配 E i n f e r ( t ) E_{\mathrm{infer}}(t) Einfer(t) ，如下所示：
  
  E i n f e r ( t ) ← arg ⁡ min ⁡ e ∈ E i n f e r { ℓ s u f ( ρ ( e ) ( ϕ ∗ ( X t ) ) , Y t ) } (7) E_{\mathrm{infer}}(t)\leftarrow\arg\min_{e\in E_{\mathrm{infer}}}\left\{\ell_{\mathrm{suf}}\left(\rho^{(e)}\left(\phi^{*}(\mathbf{X}_{t})\right),\mathbf{Y}_{t}\right)\right\} \quad \text{(7)} Einfer(t)←argmine∈Einfer{ℓsuf(ρ(e)(ϕ∗(Xt)),Yt)}(7)
- 步骤2：重新分配，以保持时间邻接结构。我们提出了一个环境标签传播解决方案来实现这一目标，如下：
  
  E i n f e r ( t ) ← m o d e { E i n f e r ( t + j ) } j = − r r (8) \boldsymbol{E}_{\mathrm{infer}}(t)\leftarrow\mathrm{mode}\left\{\boldsymbol{E}_{\mathrm{infer}}(t+j)\right\}_{j=-r}^{r} \quad\text{(8)} Einfer(t)←mode{Einfer(t+j)}j=−rr(8)
  
  其中，模式通过半径 r ∈ Z + r\in\mathbb{Z}^{+} r∈Z+ 选择考虑时间邻居的多数票决定结果。
总之，我们迭代地执行 M 步和 E 步来获得推断的环境 E i n f e r ( t ) E_{\mathrm{infer}}(t) Einfer(t) 。由于Eq. 5的第二项是固定的，我们的解代表了Eq. 5的一个实际实例。

4.4 时间序列不变学习模块（The Time-Series Invariant Learning Module）

详细描述了FOIL中的不变学习模块，该模块旨在学习跨不同推断环境的不变表示，从而提高模型的OOD泛化能力。

M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 用于从 M T E I \mathcal{M}_{\mathrm{TEI}} MTEI 跨推断环境 E i n f e r ( t ) E_{\mathrm{infer}}(t) Einfer(t) 学习不变表示 ϕ ∗ ( X ) \phi^{*}(X) ϕ∗(X) 。具体来说， M T I L \mathcal{M}_{\mathrm{TIL}} MTIL 主要是学习 ϕ ∗ ( X ) \phi^{*}(X) ϕ∗(X) ，它编码并单独编码不变特征的所有信息 X I X_{I} XI ，从而实现针对 Y s u f Y^{suf} Ysuf 的不变和足够的预测能力。理论上已经证明可以通过优化以下目标函数获得这样的 ϕ ∗ ( X ) \phi^{*}(X) ϕ∗(X) ：

ϕ ∗ = arg ⁡ max ⁡ ϕ I ( Y s u f ; ϕ ( X ) ) − I ( Y s u f ; E l e a r n ∗ ∣ ϕ ( X ) ) (9) \phi^{*}=\arg\max_{\phi}I(\mathbf{Y}^{\mathrm{suf}};\phi(\mathbf{X}))-I(\mathbf{Y}^{\mathrm{suf}};\boldsymbol{E}_{\mathrm{learn}}^{*}|\phi(\mathbf{X})) \quad \text{(9)} ϕ∗=argmaxϕI(Ysuf;ϕ(X))−I(Ysuf;Elearn∗∣ϕ(X))(9)

其中， I ( ⋅ ; ⋅ ) I(\cdot;\cdot) I(⋅;⋅) 衡量香农互信息。第一项和第二项分别对应于确保 ϕ ( X ) \phi(X) ϕ(X) 的充分性和不变性。考虑到 Y s u f Y^{suf} Ysuf 的不可用性，我们通过Eq. 4中的代理损失，给出了以下实际损失函数作为Eq. 9的实例化：

min ⁡ ρ , ϕ L T I L = E e ∈ E i n f e r ∗ R s u f ( e ) ( ρ , ϕ ) + λ 1 R E R M ( ρ , ϕ ) + λ 2 V a r e ∈ E i n f e r ∗ [ R s u f ( e ) ( ρ , ϕ ) ] (10) \begin{aligned}\operatorname*{min}_{\rho,\phi}\mathcal{L}_{\mathrm{TIL}}=&\mathbb{E}_{e\in E_{\mathrm{infer}}^{*}}\mathcal{R}_{\mathrm{suf}}^{(e)}(\rho,\phi)+\lambda_{1}\mathcal{R}_{\mathrm{ERM}}(\rho,\phi)+\lambda_{2}\mathrm{Var}_{e\in\boldsymbol{E}^{*}_\mathrm{infer}}\left[\mathcal{R}_{\mathrm{suf}}^{(e)}(\rho,\phi)\right] \quad\text{(10)}\end{aligned} ρ,ϕminLTIL=Ee∈Einfer∗Rsuf(e)(ρ,ϕ)+λ1RERM(ρ,ϕ)+λ2Vare∈Einfer∗[Rsuf(e)(ρ,ϕ)](10)

其中， λ 1 , λ 2 \lambda_{1},\lambda_{2} λ1,λ2 是超参数， R E R M ( ρ , ϕ ) = E X , Y [ ℓ ( ρ ( ϕ ( X ) ) , Y ) ] \begin{array}{rcl}\mathcal{R}_{\mathrm{ERM}}(\rho,\phi)=\mathbb{E}_{\mathbf{X},\mathbf{Y}}\left[\ell(\rho(\phi(\mathbf{X})),\mathbf{Y})\right]\end{array} RERM(ρ,ϕ)=EX,Y[ℓ(ρ(ϕ(X)),Y)] 是原始 Y Y Y 上的ERM损失，公式10中定义的 R s u f e ( ρ , ϕ ) \mathcal{R}_{\mathrm{suf}}^{e}(\rho,\phi) Rsufe(ρ,ϕ) 是在 Y s u f Y^{suf} Ysuf 上推断的环境 e e e 的损失，并且 V a r e ∈ E i n f e r ∗ [ R s u f ( e ) ( ρ , ϕ ) ] \mathrm{Var}_{e\in\boldsymbol{E}_{\mathrm{infer}}^{*}}\left[\mathcal{R}_{\mathrm{suf}}^{(e)}(\rho,\phi)\right] Vare∈Einfer∗[Rsuf(e)(ρ,ϕ)] 表示跨推断环境的损失方差。第一项和第二项共同用于确保 ϕ ( X ) \phi(X) ϕ(X) 对 Y s u f Y^{suf} Ysuf 有足够的预测能力，其中 λ 1 \lambda_{1} λ1 控制引入 μ ( Y s u f ) \mu(Y^{suf}) μ(Ysuf) 、 σ ( Y s u f ) \sigma(Y^{suf}) σ(Ysuf) 信息和 Z Z Z 影响之间的权衡。第三项进一步由 λ 2 \lambda_{2} λ2 平衡，确保了不变性，并且对输入的边际分布位移具有鲁棒性。

总体算法总结如图所示。与主干相比，FOIL由于增加了多个回归量而略微增加了参数数。

5 实验（Experiments）

每日报告的汇率数据集(exchange)，每周报告的流感样疾病患者比例数据集(ILI)，以及两个每小时报告的变压器温度数据集(ETTh1和ETTh2) 。

如表1所示，我们给出了原始版本和相应的配备FOIL版本的脊柱的结果，得出以下观察结果：

总体而言，FOI在所有数据集和预测长度上一致且显著地提高了各种TSF主干的性能，MSE的改进幅度高达85%，从而证明了FOIL的有效性。对于最先进的PatchTST,FOI始终如一地提高性能，实现高达30%的改进。对于表现较差的告密者，FOIL显示出更显著的改进，通常是一个数量级，从而产生具有竞争力的结果。
FOIL短期预测方面优于长期预测，因为后者的不确定性较高，阻碍了学习不变特征。此外，FOIL在ILI数据集中取得的最显著进步归功于其检测数据的严重OOD变化，特别是在未见过的COVID-19期间。

6 结论与讨论（Conclusion and Discussion）

在本文中，我们正式研究了时间序列预测任务(OOD—TSF)中的基本分布外挑战。在将现有的不变学习方法应用于OOD-TSF时，我们确定了具体的差距，包括理论违反充充性和不变性假设以及时间序列数据集中经验缺乏环境标签。为了应对这些挑战，我们引入了一个名为FOIL的模型不可知框架，它采用了一种创新的替代损失来减轻未观察到的变量的影响。FOI具有联合优化策略，该策略学习不变表示并保留时间邻接结构。实证评估通过不断提高不同TSF模型的性能并优于其他OOD解决方案，证明了FOIL的有效性。

在FOIL的范围之外，重要的是要认识到，不变学习并不是TSF任务中增强OOD泛化的唯一解决方案。替代方法或解释可能需要高级因果分析、特征选择或学习动态时间模式。使用附加信息来增强预测的充分性也值得探索。我们还强调，在现实世界场景中实施我们的方法以促进子群体之间的公平性时，需要对代表性不足的子群体进行认真评估。我们期望未来的研究将深入研究这些悬而未决的问题，在理论和实践上都有助于促进对OOD-TSF挑战的理解并获得更可靠的时序预测模型。

标签：suf,基于,mathbf,泛化,预测,boldsymbol,序列,mathcal,mathrm
From： https://blog.csdn.net/weixin_58682959/article/details/144926631