InfoTS: 具有信息感知增强的时间序列对比学习《Time Series Contrastive Learning with Information-Aware Augmentations》

标签：Information 增强 Series 学习实例 Augmentations 标签序列数据

现在是2024年5月23日，14:30，开始看论文。

论文：Time Series Contrastive Learning with Information-Aware Augmentations

或者是：Time series contrastive learning with information-aware augmentations

GitHub：https://github.com/chengw07/InfoTS

AAAI 2023的论文。

摘要

近年来，人们提出了各种对比学习方法，并取得了显著的实证成功。对比学习方法虽然有效且普遍，但对时间序列数据的探索却较少。对比学习的一个关键组成部分是选择适当的增强，施加一些先验来构建可行的正样本，这样就可以训练编码器学习稳健且具有鉴别力的表征。在图像和语言领域，"所需的 "增强样本可以在人类预制先验的指导下根据经验法则生成，而时间序列增强样本的临时人工选择则不同，它们的时间结构多种多样，人类无法识别。如何找到对特定对比学习任务和数据集有意义的所需时间序列数据增强，仍然是一个未决问题。在这项工作中，我们以信息论为基础，通过鼓励高保真和多样性来解决这个问题。通过理论分析，我们得出了选择可行数据增强的标准。在此基础上，我们提出了一种新的具有信息感知增强功能的对比学习方法--InfoTS，它能为时间序列表示学习自适应地选择最佳增强功能。在各种数据集上进行的实验表明，该方法的性能极具竞争力，与领先的基线方法相比，预测任务的 MSE 降低了 12.0%，分类任务的准确率相对提高了 3.7%。

引言

现实世界中的时间序列数据具有高维、非结构化和复杂等独特特性，给数据建模带来了挑战（Yang 和 Wu，2006 年）。此外，由于没有人类可识别的模式，在现实世界的应用中，对时间序列数据进行标注要比对图像和语言进行标注难得多。这些标注限制阻碍了深度学习方法在时间序列数据上的应用，而深度学习方法通常需要大量标注数据进行训练(时序上不需要标注，因为时序数据就是自己和自己)（Eldele 等人，2021 年）。表征学习从原始时间序列中学习固定维度的嵌入，以保持其固有特征。与原始时间序列数据相比，这些表征具有更好的转移性和泛化能力。为了解决标记的局限性，对比学习方法在视觉、语言和图结构数据等多个领域的表征学习中表现出色，被广泛采用（陈等人，2020；谢等人，2019；游等人，2020）。简而言之，对比学习方法通常是训练编码器，将实例映射到一个嵌入空间，在这个空间中，不同（负）实例与相似（正）实例很容易区分开来，并对预测进行建模，使其不受应用于输入实例或隐藏状态的微小噪声的影响。

尽管对比学习有效且普遍，但在时间序列领域的探索却较少（Eldele 等人，2021 年；Franceschi、Dieuleveut 和 Jaggi，2019 年；Fan、Zhang 和 Gao，2020 年；Tonekaboni、Eytan 和 Goldenberg，2021 年）。现有的对比学习方法通常采用特定的数据增强策略，在不改变标签的情况下创建新颖、逼真的训练数据，为任何输入样本构建正向替代数据。它们的成功依赖于在领域专业知识指导下精心设计的经验法则。用于对比学习的常规数据增强技术主要是针对图像和语言数据设计的，如颜色变形、翻转、单词替换和反向翻译（Chen 等，2020 年；Luo 等，2021 年）。这些增强技术一般不适用于时间序列数据。最近，一些研究人员提出了时间序列增强技术，以提高训练数据的大小和质量（Wen 等，2021 年）。例如，TS-TCC（Eldele 等人，2021 年）和 Self-Time（Fan、Zhang 和 Gao，2020 年）采用抖动、缩放和排列策略生成增强实例。Franceschi 等人提出提取子序列用于数据增强（Franceschi、Dieuleveut 和 Jaggi，2019 年）。尽管目前取得了进展，但现有方法仍有两大局限。首先，与具有人类可识别特征的图像不同，时间序列数据往往与无法解释的潜在模式相关联。强增强（如置换）可能会破坏这种模式(我同意，实际上本质就是找一种平衡，既能增强数据，又不会完全破坏数据的特性)，因此，模型会将负面手工误认为正面手工。而抖动等弱增强方法可能会生成与原始输入过于相似的增强实例，从而无法为对比学习提供足够的信息。另一方面，来自不同领域的时间序列数据集可能具有不同的性质。针对所有数据集和任务采用一种通用的数据扩增方法，如子序列（Xie 等人，2019 年），会导致性能达不到最优。其他研究则遵循经验规则，从昂贵的试错中选择合适的增强方法。与手工制作特征类似，从学习的角度来看，手工选择数据增强也是不可取的。现实生活中时间序列数据的多样性和异质性进一步阻碍了这些方法的广泛应用。

为了应对这些挑战，我们首先介绍了在对比学习中选择良好数据增强的标准。数据扩增通过将输入训练空间正确外推到更大的区域，有利于可泛化、可迁移和稳健的表征学习（Wilk 等人，2018 年）。正向实例包围着一个判别区域，在这个区域中，所有数据点都应与原始实例相似。对比性表征学习所需的数据增强应该同时具有高保真和高多样性。高保真鼓励增强数据保持语义特征，而语义特征对转换是不变的（Wilk 等人，2018 年）。例如，如果下游任务是分类，那么生成的输入增强数据就应该是保留类别的。同时，生成具有高多样性的增强样本可以提高泛化能力，从而有利于表征学习（Chen 等人，2020 年）。从动机出发，我们基于信息论从理论上分析了数据增强中的信息流，并推导出选择所需的时间序列增强的标准。由于实际时间序列数据的不可解释性，我们假定语义标识由下游任务中的目标呈现。因此，通过最大化下游标签和增强数据之间的互信息，可以实现高保真。在无监督设置中，当下游标签不可用时，会为每个实例分配一个一次性伪标签。这些伪标签促使不同实例的扩增能够相互区分。我们证明，保留这些伪标签的数据扩增可以在不降低保真度的情况下增加新信息。同时，我们最大限度地提高了增强数据在原始实例条件下的熵，从而增加了数据增强的多样性。(我有疑问！！！这种假设是基于下游任务的目标来推导的标签生成过程。因此，这并不是一种通用的方法，是一种针对特定下游任务的策略。这种方法依赖于下游任务的目标来生成和调整标签，也就是说，在应用这种方法之前，需要明确下游任务的具体目标，并基于此设计标签生成策略和数据增强方法。不是通用的标签生成方法。一般这种打标签的，多多少少都不是通用的吧。(个人理解，勿喷))

根据得出的标准，我们提出了一种自适应数据增强方法--InfoTS（如图 1 所示），以避免临时选择或艰苦的试错调整。具体来说，我们利用另一个神经网络（用元学习器表示）来学习增强先验和对比学习。元学习器会自动从候选增强中选择最佳增强，以生成可行的正样本。然后，将增强实例与随机抽样的负实例一起输入时间序列编码器，以对比方式学习表征。通过重新参数化技巧，元学习器可以根据建议的标准通过反向传播进行有效优化。因此，元学习器可以根据数据集和学习任务自动选择数据增强，而无需借助专家知识或繁琐的下游验证。我们的主要贡献包括：

我们提出了指导对比式时间序列表示学习选择数据增强的标准，而无需预制知识。
我们提出了一种针对不同时间序列数据集自动选择可行数据增强的方法，该方法可通过反向传播进行有效优化。
我们通过实证验证了所提出的标准在寻找最佳数据扩增方面的有效性。广泛的实验证明，InfoTS 可以实现极具竞争力的性能，与领先的基线相比，预测任务的 MSE 降低了 12.0%，分类任务的准确率相对提高了 3.7%。

图 1：InfoTS 由三部分组成：(1) 候选变换，用于生成原始输入的不同增强；(2) 元学习器网络，用于选择最佳增强；(3) 编码器，用于学习时间序列实例的表征。元学习器的学习与对比编码器的学习同步进行。

方法论

术语和问题定义

时间序列实例 x 的维度为 T × F，其中 T 是序列长度，F 是特征维度。给定一组时间序列实例 X，我们的目标是学习一个编码器 f θ (x)，将每个实例 x 映射到一个固定长度的向量 z∈R D，其中 θ 是编码器网络的可学习参数，D 是表示向量的维度。在半监督设置中，标签集 X L ⊆ X 中的每个实例 x 都与下游任务的标签 y 相关联。特别是，在完全监督设置中，X L = X 成立。在工作中，我们使用无衬线小写字母（如 x）表示随机时间序列变量，使用斜体小写字母（如 x）表示采样实例。

良好扩增的信息感知标准

对比学习的数据扩增目标是创建现实合理的实例，并通过不同的转换方法保持语义。与视觉和语言领域的实例不同，人类无法识别时间序列数据的基本语义，因此很难甚至不可能将人类知识纳入时间序列数据的数据增强。例如，旋转图像不会改变其内容或标签。而改变一个时间序列实例可能会破坏其信号模式，生成一个毫无意义的时间序列实例。此外，现实生活中的时间序列数据集具有极大的异质性，这进一步使得基于试验和错误的选择变得不切实际。虽然针对时间序列数据已经提出了多种数据增强方法，但对于什么是对特定学习任务和数据集有意义的好的增强方法，而没有预制人为先验的讨论较少。从我们的角度来看，用于对比表示的理想数据增强应该保持高保真度、多样性和对不同数据集的适应性。图 2 举例说明了这一点。

图 2：标准说明。(a) 提议的标准有两个组成部分：高保真和多样性。保真度用 A+B 表示，A+B 是增强数据 v 和标签 y 之间的互信息；多样性用 A+D 表示，A+D 是 v 在原始输入 x 条件下的熵。在无监督环境下，使用基于单次热处理的伪标签，生成的实例会被限制在原始输入周围的区域。这样，它们仍能与其他实例区分开来。

高保真。高保真的扩增数据能保持语义的一致性，不受变换的影响。考虑到实际时间序列数据的不可解释性，直观检查增强的保真度是一项挑战。因此，我们假定时间序列实例的语义标识是由其在下游任务中的标签呈现的，而在训练期间，标签可能是可用的，也可能是不可用的。在此，我们从有监督的情况开始分析，稍后将扩展到无监督的情况。受信息瓶颈（Tishby、Pereira 和 Bialek，2000 年）的启发，我们将保持高保真的目标定义为增强 v 和标签 y 之间的大互信息（MI），即 MI（v; y）。

我们将增强 v 视为 x 的概率函数和随机变量，即 v = g(x;)。根据互信息的定义，我们有 MI(v; y) = H(y) - H(y|v)，其中 H(y) 是 y 的（香农）熵，H(y|v) 是以增强 v 为条件的 y 的熵。由于 H(y) 与数据增强无关，因此目标等同于最小化条件熵 H(y|v)。考虑到高效优化，我们按照（Ying 等人，2019 年）和（Luo 等人，2020 年）的方法，用 y 和 ˆy 之间的交叉熵来近似它，其中 ˆy 是以增强 v 为输入的预测，计算方法是

其中，z 是表示，h w (-) 是以 w 为参数的预测投影器。那么，有监督或半监督情况下的高保真目标就是最小化

其中 C 是标签的数量。

在 y 不可用的无监督设置中，利用单点编码 y s∈R |X|作为伪标签来替代公式 (2) 中的 y。这样做的动机是，增强后的实例仍然可以通过分类器与其他实例区分开来。我们从理论上证明，保留伪标签的增强具有以下特性。

特性 1（保真）。如果增强 v 保留了单次编码伪标签，那么 v 与下游任务标签 y（虽然训练时看不到）之间的互信息等同于原始输入 x 与 y 之间的互信息，即 MI(v; y) = MI(x; y)。

特性 2（添加新信息）。通过保留单次编码伪标签，与原始输入 x 相比，增量 v 包含新信息，即 H(v) ≥ H(x)。

详细证明见附录。这些特性表明，在无监督环境下，保留单次编码伪标签可以保证生成的增强不会降低保真度，而不管增强中固有的下游任务和差异如何。同时，它还能为对比学习引入新的信息。

由于在无监督情况下，标签数等于数据集 X 中的实例数，直接优化公式 (2) 既低效又不可扩展。因此，我们进一步放宽限制，用批量单热编码 y B 来近似 y，从而将标签数 C 从数据集大小减小到批量大小。

高多样性。增量的充分差异可提高对比学习模型的泛化能力。在信息论中，随机变量可能结果中固有的不确定性由其熵来描述。考虑到扩增实例是根据原始输入 x 生成的，我们要最大化 v 在 x 条件下的熵 H(v|x)，以保持扩增的多样性。根据条件熵的定义，我们可以得出

我们不考虑第一部分，因为 v 的无约束熵可能被无意义的噪声所支配。考虑到 v 和 x 的连续性，我们通过最小化留空上限（L1Out）来最小化 v 和 x 之间的互信息（Poole 等人，2019 年）。其他互信息上限，如互信息的对比对比率上限（Cheng 等，2020 年），也可以方便地成为我们框架中的即插即用组件。那么，鼓励高多样性的目标就是最小化 v 和 x 之间的 L1Out：

其中v是输入实例x的扩充实例。zx、zv和zv分别是实例x、v和v的表示。sim（z1，z2）=zT1z2是向量z1和z2的内积。

标准。结合高保真度和多样性的信息感知定义，我们提出了在没有先验知识的情况下选择良好增强的标准，

其中，β 是一个超参数，用于权衡保真度和多样性。请注意，在无监督设置中，y 被单次编码伪标签所取代。

与信息瓶颈的关系。虽然形成过程与数据压缩中的信息瓶颈（min p(e|x) MI(x; e) - βMI(e;y)）类似，但我们的标准在以下几个方面有所不同。首先，信息瓶颈中的 e 代表输入 x，而公式（5）中的 v 代表增强实例。其次，信息瓶颈的目的是为数据压缩保留最少且足够的信息，而我们的标准是为对比学习中的数据增强而设计的。第三，在信息瓶颈中，压缩后的表示 e 是输入 x 的一个确定性函数，不存在方差。MI(e; y) 和 MI(e; x) 受 MI(x; y) 和 H(x) 约束，即 MI(e; y) ≤ MI(x; y) 和 MI(e; x) = H(e)，其中 H(e) 是 e 的熵。在我们的标准中，v 是输入 x 的概率函数，因此，在信息瓶颈中，v 的方差使得增强空间远大于压缩表示空间。

与 InfoMin 的关系。 InfoMin 是基于信息瓶颈设计的，即好的视图应从原始输入中保留最少且足够的信息（Tian 等，2020 年）。与信息瓶颈类似，InfoMin 假设增强视图是输入的函数，这就在很大程度上限制了数据增强的方差。此外，高保真特性在无监督设置中也被否定了。由于人类知识的可用性，它适用于图像数据集。但是，它可能无法为时间序列数据生成合理的增强。此外，他们还采用了对抗学习，即最小化 MI 的下限，以增加增强的多样性。而为了最小化统计依赖性，我们更倾向于使用上限，如 L1Out，而不是下限。

(以上内容没看懂，...)

时间序列元对比学习

我们的目标是设计一种可学习的增强选择器，学会以数据驱动的方式选择可行的增强。有了这种自适应数据增强，对比损失就可以用来训练编码器，从而从原始时间序列中学习表征。

架构采用的编码器 f θ (x) ： R T×F → R D 由两部分组成：一个全连接层和一个 10 层扩张 CNN 模块（Franceschi、Dieuleveut 和 Jaggi，2019 年；Yue 等，2021 年）。为了探索时间序列的内在结构，我们在对比学习框架中加入了全局损失（实例级）和局部损失（子序列级）来训练编码器。

全局对比损失旨在捕捉时间序列数据集中的实例级关系。形式上，给定一批时间序列实例 X B ⊆ X，对于每个实例 x ∈ X B，我们用自适应选择的变换生成一个增强实例 v，这将在后面介绍。(x, v) 被视为正对，而其他 (B-1) 组合 {(x, v )}（其中 v' 是 x' 的增强实例且 x' /= x）被视为负对。按照（Chen 等人，2020 年；You 等人，2020 年），我们基于 InfoNCE（Hjelm 等人，2018 年）设计了全局对比损失。batch-size实例级对比损失为

局部对比损失提出的目的是探索时间序列中的时间内关系。对于时间序列实例 x 的增强实例 v，我们首先将其拆分为一组子序列 S，每个子序列的长度为 L。对于每个子序列 s∈ S，我们按照（Tonekaboni、Eytan 和 Goldenberg，2021 年）的方法，通过选择与之相近的另一个子序列来生成一个正对（s，p）。我们采用非相邻样本 ¯ N s 来生成负数对。详细说明见附录。那么，实例 x 的局部对比损失为

(现在是2024年5月24日，17:33，今天事情有点多，现在继续看.)

标签：Information,增强,Series,学习,实例,Augmentations,标签,序列,数据
From： https://www.cnblogs.com/ZERO-/p/18208103

InfoTS: 具有信息感知增强的时间序列对比学习《Time Series Contrastive Learning with Information-Aware Augmentations》

相关文章

赞助商

阅读排行