1p-frac：已开源，仅用单张分形图片即可媲美ImageNet的预训练效果 | ECCV 2024

时间：2024-09-04 09:49:47浏览次数：10

标签：1p frac 训练 ECCV mathcal 图像分形 Delta mathbf

分形几何是一个数学分支，主要应用于作图方面。一般来说，分形经过无数次递归迭代后的结果。比如取一条线段，抹去中间的三分之一，会得到长度是原三分之一长的两条线段，中间隔着相同长度的间隙。然后重复这个动作，直到所有的线段都被抹掉，就将会得到被以固定模式出现的间隙隔开的无限多的点，这就是康托尔集合。

目前有许多研究通过生成分形图像进行模型的预训练，完全不用真实图片甚至训练图片与下游任务完全不相干的，也能达到大规模数据集的预训练效果。

论文寻找一个最小的、纯合成的预训练数据集，这个数据集能够实现与ImageNet-1k的100万张图像相当的性能。论文从单一的分形中生成扰动来构建这样的数据集，仅包含1张分形图片。

来源：晓飞的算法工程笔记公众号

论文: Scaling Backwards: Minimal Synthetic Pre-training?

论文地址：https://arxiv.org/abs/2408.00677
论文代码：https://github.com/SUPER-TADORY/1p-frac

Abstract

预训练和迁移学习是当前计算机视觉系统的重要构建块。虽然预训练通常是在大规模的真实世界图像数据集上进行的，但在本论文中，我们提出了一个重要的问题——是否真正有必要使用这样的数据集。为此，我们通过这些工作，我们的主要贡献表现如下三个发现。

（i）即使具有非常有限的合成图像，我们也能证明预训练仍然有效，全量微调时性能与使用大规模预训练数据集如ImageNet-1k相当。

（ii）我们研究了在构建数据集的单个参数中用于构建人工类别的方式。我们发现尽管形状差异在人类看来几乎无法区分，但正是这些差异对于获得强大性能至关重要。

（iii）最后，我们研究了成功的预训练的最小要求。令人惊讶的是，从1k个合成图像大幅减少到仅1个，甚至可能使预训练性能得到提升，这激发了我们进一步探索“逆向缩放”的可能性。

最后，我们从合成图像扩展到真实图像尝试发现，即使单张真实图像通过形状增强也能展现类似的预训练效果。我们发现使用灰度图像以及仿射变换甚至使真实图像也能够进行有效的“逆向缩放”。源代码已开放在https

标签：1p,frac,训练,ECCV,mathcal,图像,分形,Delta,mathbf
From： https://www.cnblogs.com/VincentLee/p/18395860

AI学会“视听”新语言，人大北邮上海AI Lab引领多模态理解革命 | ECCV2024亮点
你是否想过，AI是如何“理解”我们这个多彩世界的呢？最近，一项由中国人民大学高瓴GeWu-Lab、北京邮电大学、上海AILab等机构联合研究的成果，为AI的“感官”升级提供了一种新思路。这项研究被收录于即将召开的计算机视觉顶级会议ECCV2024。AI的“视听盛宴”想象一下，你正在观......
POA：已开源，蚂蚁集团提出同时预训练多种尺寸网络的自监督范式 | ECCV 2024
1.概述ApacheHive是一款建立在Hadoop之上的数据仓库工具，它提供了类似于SQL的查询语言，使得用户能够通过简单的SQL语句来处理和分析大规模的数据。本文将深入分析ApacheHive的源代码，探讨其关键组件和工作原理，以便更好地理解其在大数据处理中的角色。2.内容在开始源代码分析之前......
POA：已开源，蚂蚁集团提出同时预训练多种尺寸网络的自监督范式 | ECCV 2024
论文提出一种新颖的POA自监督学习范式，通过弹性分支设计允许同时对多种尺寸的模型进行预训练。POA可以直接从预训练teacher生成不同尺寸的模型，并且这些模型可以直接用于下游任务而无需额外的预训练。这个优势显著提高了部署灵活性，并有助于预训练的模型在各种视觉任务中取得SOTA结......
ECCV24｜全局式SfM最新SOTA，GLOMAP重新定义SfM！
前言 ETH&微软最新开源-全局式GLOMAP，它与以前的全局SfM系统相比，其核心区别在于全局定位步骤。不是先执行不适定的平移平均然后进行全局三角测量，而是进行联合相机和点位置估计。GLOMAP不仅在鲁棒性和准确性方面达到增量式COLMAP系统相当或更优的水平，同时还比COLMAP快几个数量级。......
RFFT：数据与代码已开源，京东推出广告图生成新方法 | ECCV 2024
论文将多模态可靠反馈网络（RFNet）结合到一个循环生成图片过程中，可以增加可用的广告图片数量。为了进一步提高生产效率，利用RFNet反馈进行创新的一致条件正则化，对扩散模型进行微调（RFFT），显著增加生成图片的可用率，减少了循环生成中的尝试次数，并提供了高效的生产过程，而不牺牲视觉吸引力。......
PCSR：已开源，三星提出像素级路由的超分辨率方法 | ECCV 2024
基于像素级分类器的单图像超分辨率方法（PCSR）是一种针对大图像高效超分辨率的新方法，在像素级别分配计算资源，处理不同的恢复难度，并通过更精细的粒度减少冗余计算。它还在推断过程中提供可调节性，平衡性能和计算成本而无需重新训练。此外，还提供了使用K均值聚类进行自动像素分配以及后......
FlexAttention：解决二次复杂度问题，将大型视觉语言模型的输入提升至1008 | ECCV 2024
\({\ttFlexAttention}\)是一种旨在增强大型视觉语言模型的方法，通过利用动态高分辨率特征选择和分层自注意机制，使其能够有效地处理并从高分辨率图像输入中获得优势，\({\ttFlexAttention}\)在性能和效率方面超越了现有的高分辨率方法。来源：晓飞的算法工程笔记公众号论文:F......
One-for-All：上交大提出视觉推理的符号化与逻辑推理分离的新范式 | ECCV 2024
通过对多样化基准的严格评估，论文展示了现有特定方法在实现跨领域推理以及其偏向于数据偏差拟合方面的缺陷。从两阶段的视角重新审视视觉推理：（1）符号化和（2）基于符号或其表示的逻辑推理，发现推理阶段比符号化更擅长泛化。因此，更高效的做法是通过为不同数据领域使用分离的编码器来实现符......
Python程序设计现代方法1课后习题1Python 开发概述
Python程序设计现代方法1课后习题1Python开发概述1.整数求和。输入整数n，计算1~n之和。defsum_of_integers(n):returnsum(range(1,n+1))n=int(input("请输入整数n："))print(f"1~{n}的和为：{sum_of_integers(n)}")2.整数排序。输入三个整数，把这三个数由......
2788647047_111py
importrequestsfromopenpyxlimportWorkbook#创建一个工作簿wb=Workbook()#添加一个工作表ws=wb.active#读取文件中的域名withopen("domains.txt","r")asf:domains=f.readlines()#遍历域名，获取对应的IP地址fordomainindomains:#去除注释和空格......

1p-frac：已开源，仅用单张分形图片即可媲美ImageNet的预训练效果 | ECCV 2024

Abstract

相关文章

赞助商

阅读排行