分形几何是一个数学分支,主要应用于作图方面。一般来说,分形经过无数次递归迭代后的结果。比如取一条线段,抹去中间的三分之一,会得到长度是原三分之一长的两条线段,中间隔着相同长度的间隙。然后重复这个动作,直到所有的线段都被抹掉,就将会得到被以固定模式出现的间隙隔开的无限多的点,这就是康托尔集合。
目前有许多研究通过生成分形图像进行模型的预训练,完全不用真实图片甚至训练图片与下游任务完全不相干的,也能达到大规模数据集的预训练效果。
论文寻找一个最小的、纯合成的预训练数据集,这个数据集能够实现与
ImageNet-1k
的100
万张图像相当的性能。论文从单一的分形中生成扰动来构建这样的数据集,仅包含1
张分形图片。来源:晓飞的算法工程笔记 公众号
论文: Scaling Backwards: Minimal Synthetic Pre-training?
Abstract
预训练和迁移学习是当前计算机视觉系统的重要构建块。虽然预训练通常是在大规模的真实世界图像数据集上进行的,但在本论文中,我们提出了一个重要的问题——是否真正有必要使用这样的数据集。为此,我们通过这些工作,我们的主要贡献表现如下三个发现。
(i)即使具有非常有限的合成图像,我们也能证明预训练仍然有效,全量微调时性能与使用大规模预训练数据集如ImageNet-1k
相当。
(ii
)我们研究了在构建数据集的单个参数中用于构建人工类别的方式。我们发现尽管形状差异在人类看来几乎无法区分,但正是这些差异对于获得强大性能至关重要。
(iii
)最后,我们研究了成功的预训练的最小要求。令人惊讶的是,从1k
个合成图像大幅减少到仅1
个,甚至可能使预训练性能得到提升,这激发了我们进一步探索“逆向缩放”的可能性。
最后,我们从合成图像扩展到真实图像尝试发现,即使单张真实图像通过形状增强也能展现类似的预训练效果。我们发现使用灰度图像以及仿射变换甚至使真实图像也能够进行有效的“逆向缩放”。源代码已开放在https