论文提出一种新颖的
POA
自监督学习范式,通过弹性分支设计允许同时对多种尺寸的模型进行预训练。POA
可以直接从预训练teacher
生成不同尺寸的模型,并且这些模型可以直接用于下游任务而无需额外的预训练。这个优势显著提高了部署灵活性,并有助于预训练的模型在各种视觉任务中取得SOTA
结果。来源:晓飞的算法工程笔记 公众号
论文: POA: Pre-training Once for Models of All Sizes
Abstract
大规模自监督预训练为一个基础模型处理多种不同的视觉任务铺平了道路。大多数预训练方法在一次训练中训练一个特定大小的单一模型。然而,在现实世界的场景中,由于各种计算或存储限制,需要大量的工作来开发一系列不同大小的模型进行部署。因此,在这项研究中,我们提出了一种新颖的三分支自监督训练框架,称为POA
(Pre-training Once for All
),来解决上述问题。我们的方法在现代自蒸馏范式中引入了一种创新的弹性student
分支。在每个预训练步骤中,我们随机从原始student
中抽样一个子网络来形成弹性student
,并以自蒸馏的方式训练所有分支。一旦预训练完成,POA
允许提取不同大小的预训练模型用于下游任务。值得注意的是,弹性student
促进了多个不同大小模型的同时预训练,同时也作为各种大小模型的额外集合,增强了表示学习。大量实验证明了我们的POA
的有效性和优势,包括k最近邻、线性探测评估以及多个下游任务的评估。它使用ViT
、Swin Transformer
和ResNet
骨干网络实现了最先进的性能,并通过一次预训练会话生成了大约一百个不同大小的模型。代码可在以下链接找到:https