目录
摘要
零样本学习(ZSL)是一种有希望的方法,通过利用类别属性将模型推广到训练期间未见过的类别,但仍然存在挑战。最近,利用生成模型来解决对训练期间已见类别的偏见的方法推动了技术的进步,但这些生成模型可能训练速度较慢或计算成本较高。此外,这些生成模型假设每个未见类别的属性向量在训练时是事先可用的,但这并不总是切实可行的。另外,许多先前的ZSL方法假设对未见类别进行一次性适应,但实际上,世界总是在变化,需要不断调整已部署的模型。无法处理数据的顺序流的模型可能会经历灾难性遗忘。我们提出了一种用于持续ZSL的元学习属性自相互作用网络(MAIN)。通过使用元学习训练的属性自相互作用与属性编码器的反向正则化相结合,我们能够在不使用未见类别属性的情况下超越最先进的结果,同时还能够比昂贵的生成式方法快速训练我们的模型(>100倍)。我们通过在五个标准ZSL数据集(CUB、aPY、AWA1、AWA2和SUN)上进行实验来证明这一点,在广义零样本学习和持续(固定/动态)零样本学习设置中。广泛的消融和分析证明了所提出的各种组件的有效性。
介绍
深度学习已经证明,在有足够大、标记的预定义类别集合数据集的情况下,能够学习到强大的模型[17,27]。然而,这样的模型通常对训练期间未见过的类别泛化能力较差。在一个不断发展的世界中,新概念或应用的出现是可以预期的,这种脆弱性可能是一个不可取的特征。近年来,零样本学习(ZSL)[1,16,20,50]被提出作为一种将新类别数据进行分类的替代框架。ZSL 方法旨在利用关于这些新类别的辅助信息,通常以类别属性的形式存在。这些附加信息允许对类别之间的关系进行推理,从而使模型能够适应识别来自其中一个新类别的样本。在更一般的情况下,ZSL 模型应能够对来自已见和未见类别的输入进行分类;这种困难的情况通常被称为广义零样本学习(GZSL)[51,59]。在 GZSL 中,一些最强大的结果[16,29,46,50,51,61]来自利用生成模型。通过学习类别属性与数据之间的生成映射,可以从未见类别属性条件生成合成样本。然后,可以在已见和(生成的)未见类别数据的联合集上以通常的监督方式学习模型,减轻模型对已见类别的偏见。虽然有效,但训练所需的生成模型、生成数据以及在这个组合数据集上训练模型可能成本较高[33,40,50]。此外,这些生成方法在训练期间需要未见类别的属性;如果未见类别尚未知晓,定义未见类别的属性是具有挑战性且容易出错的。因此,在训练期间需要知道未见类别属性的要求使得这些方法的实用性较低,限制了它们在实际应用中的适用性。
如果假设一次性从预先确定的训练类别进行一次性适应,那么这种一次性过程的成本可能被认为是可以接受的,但如果模型需要重复进行适应,则可能会面临挑战。大多数 ZSL 方法通常只考虑一次适应,但实际上环境往往是动态的,新的类别数据可能会按顺序出现。例如,如果一个模型能够对以前未见过的类别进行分类是很重要的,那么未来的数据收集工作可能会随后提供这些类别的标记数据[20]。或者,不断变化的需求可能需要模型从全新的已见和未见类别中学习并推广[12]。在这种情况下,即使较旧的数据不再完整可用,模型也应该能够从新数据集中学习而不会发生灾难性的遗忘[38]。因此,ZSL 方法能够在持续学习设置中工作也是很重要的。为了解决这些问题,我们提出了适用于广义零样本学习(GZSL)的元学习属性自互作用网络(MAIN),它既不需要先验未见类别属性,也不需要任何昂贵的模型适应。MAIN 框架学习了一个统一的视觉嵌入空间,用于存储特定类别的属性以及属于该类别的相应图像。为了提取属性嵌入,MAIN 学习了一个将属性中的语义信息映射到视觉嵌入空间的属性编码器。MAIN 中的属性编码器使用了一个新颖的自互作用模块和元学习来推广编码器到未见类别属性。此外,MAIN 还包含一个理论上有意义的反正则化损失,用于保持视觉嵌入空间中的语义属性信息。在实验中,我们讨论了作为 MAIN 框架一部分引入的各种组件的重要性。我们展示了在 MAIN 中训练比使用生成模型的先前方法快 100 倍。我们将 MAIN 扩展到连续的 GZSL 设置,使用少量样本库,并展示 MAIN 在 CZSL 的最近提出的替代方案中表现优异。在 CUB、aPY、AWA1、AWA2 和 SUN 数据集上进行的大量实验表明,MAIN 在 ZSL、GZSL 和连续 GZSL 设置中实现了最先进的结果。
releated work
zero-shot learning
ZSL 的文献庞大,方法大致可分为 (i) 非生成式方法 和 (ii) 生成式方法。最初的研究主要集中在非生成式方法上,主要目标是学习一个从已见类别中可以衡量图像嵌入(通常是从预训练模型中提取的特征)和属性嵌入之间相似度的函数。一些方法衡量图像和属性嵌入之间的线性兼容性;然而,线性映射的假设并不适用于两个空间之间的复杂关系。另一些作品专注于使用双线性函数来建模关系。这些方法在 ZSL 设置下表现出了良好的结果(仅评估未见类别),但在 GZSL 设置下表现不佳(推断时同时出现已见和未见类别)。近来,生成式方法在 GZSL 中变得流行起来。由于生成建模的快速进展(例如 VAE 和 GANs),生成式方法能够合成越来越高质量的样本。例如,一些研究利用条件 VAE 或 GANs 生成根据类别属性进行条件生成的未见类别样本,这些样本可以与已见类别样本一起用于训练。由于这些方法能够生成所需数量的样本,它们可以轻松处理模型对已见类别的偏见,从而在 ZSL 和 GZSL 方面取得了有希望的结果。然而,这些生成模型假设在训练期间所有已见和未见类别属性都是可用的。在许多实际情况下,这可能是一个强假设,因为模型可能无法提前知道未见类别是什么。此外,基于生成模型的 ZSL 框架所需的完整流程包括学习生成模型、合成未见类别样本和在给定的和合成的数据上训练分类器,使得成本较高。生成模型存在的问题以及非生成式模型的最新有希望的结果,激励我们重新审视非生成式方法。一项研究提出了一种廉价的 GZSL 方法,并表明归一化和初始化可能对 GZSL 起到关键作用,并且优于昂贵的生成模型。这些归一化技术可能很棘手:对超参数的高敏感性意味着小的变化会迅速降低模型性能。我们提出了一种自门控机制、基于元学习的训练和多模态正则化的非生成式框架。即使没有棘手和不稳定的归一化,我们也能在很大程度上优于最近的生成或基于归一化的模型。
零样本持续学习
持续学习技术的一个期望是将先前的知识向未来的任务进行前向传递,这些任务可能事先并不知晓;同样,广义零样本学习方法旨在使模型适应新的、未见过的类别,同时仍能够对已见类别进行分类。因此,这两种问题设置之间存在明显的联系。一些最近的工作越来越受到人们对持续零样本学习(CZSL)的关注。例如,[57]考虑了一个任务增量学习的设置,在该设置中,每个样本的任务 ID 在训练和测试期间都提供,这导致了一个更简单、可能 less realistic 的设置,而不是类别增量学习。A-GEM 提出了一种基于正则化的模型,旨在克服灾难性遗忘并最大程度地实现前向传递。[20]提出了一种简单的类别归一化作为零样本学习的高效解决方案,并将其扩展到 CZSL,其中未来任务的未见类别的属性是事先已知的。这种设置被称为固定的持续广义零样本学习。同时,[12,13,28]提出了一种基于重播的方法,在更加真实的动态持续广义零样本学习设置中展示了最新的研究结果,其中未来任务的未见类别的属性不是事先已知的。
提出的方法
我们提出的持续零样本学习模型 Meta-Learned Attribute self-Interaction Network (MAIN) 可分为三个主要组成部分:(i) 使用我们的新型自我交互模块设计的属性编码器,将结构化的类别特定属性映射到视觉特征空间中的属性嵌入,(ii) 逆正则化(Inverse Regularization,IR),在视觉特征空间中保留语义信息,防止过拟合到已见类别,(iii) 采用元学习框架对属性编码器进行训练,采用水库抽样来防止对先前任务的灾难性遗忘,同时学习一个可以泛化到新类别的模型,而无需微调。
bibtex格式参考文献
@InProceedings{Verma_2024_WACV,
author = {Verma, Vinay and Mehta, Nikhil and Liang, Kevin J. and Mishra, Aakansha and Carin, Lawrence},
title = {Meta-Learned Attribute Self-Interaction Network for Continual and Generalized Zero-Shot Learning},
booktitle = {Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)},
month = {January},
year = {2024},
pages = {2721-2731}
}