最近自我监督学习被重视起来。昨天我通过LinkedIn发现了这项工作,我觉得它很有趣。kaiming大神的MAE为ViT和自监督的预训练创造了一个新的方向,本篇文章将介绍Masked Siamese Networks (MSN),这是另一种用于学习图像表示的自监督学习框架。MSN 将包含随机掩码的图像视图的表示与原始未遮蔽的图像的表示进行匹配。
考虑一个大的未标记图像集D = (x_i)和一个小的带注释图像集S = (x_si, y_i),其中len(D) >> len(S)。这里,S中的图像可能与数据集D中的图像重叠。我们的训练目标是通过对D进行预训练来学习视觉表示,然后使用S将表示转移/微调到监督任务中。
Masked Siamese Networks
如果你对 ViT比较熟悉,下面要讨论的内容应该很熟悉。我们通过将每个视图转换为一系列不重叠的 NxN 块“Patchs”。然后论文作者介绍了通过一些随机的掩码来遮蔽图像并获得一个该图像的增强。在上图中可以看到两种策略,无论使用那种策略我们得到了分块(Patch)后的目标序列 x{+}_i 及其对应的掩码序列 x_i,m,其中后者会明显短于目标。
编码器 ViT 的目标是学习掩码的表示。 最后通过[CLS] token 得到一个序列的表示。
作者引入了一个矩阵q,它由K (K>1)个可学习原型(prototypes)组成,每个原型的维数为d。首先,我们分别得到掩码序列(patchfied & mask)和目标序列(patchfied only)的表示,z_i,m和z_i。然后使用L2归一化该表示,相应的预测(p)通过测量原型矩阵q的余弦相似度来计算。Tau表示一个温度参数,在(0,1)之间。注意,作者在计算目标预测时使用了一个更大的温度值,这隐式地引导网络产生自信的低熵锚预测。
完整文章:
https://avoid.overfit.cn/post/52333da7b60b4d079d829a8435073f13
标签:表示,孪生,论文,学习,序列,监督,图像,掩码 From: https://www.cnblogs.com/deephub/p/16626894.html