首页 > 其他分享 >论文解读:EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything(2024 CVPR满分论文)

论文解读:EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything(2024 CVPR满分论文)

时间:2024-03-19 16:02:01浏览次数:29  
标签:Pretraining SAM 论文 编码器 2024 SAMI 解码器 图像 掩码

EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

文章汇总

前提必读(本文的基础模型):论文解读:Segment Anything-CSDN博客

问题

SAM功能强大的原因是一个数据大,另一个encoder足够大足够强,但是也由于encoder足够的大所以不能做到实时分割,如Segment Anything | Meta AI中加载demo图片为encoder的过程,需要2-4s左右。

动机

提出一种轻量级的SAM模型,它既表现出良好的性能,与SAM效果相当,而且能够大大降低了encoder网络结构复杂性

解决办法

其实相当于知识蒸馏,让SAM生成的图像特征作为伪标签给轻量级的encoder学习,类似于让SAM做teacher,轻量级的Light-weight Encoder做student。

maks自动化编码

类似于bert,mask掉其中一个词,模型的目标是通过其他词也能把被mask掉的词还原回来。而在视觉当中,也是通过mask某一块特征,通过附件的特征来还原回原来的特征。

这里掩码比率(如75%),即mask比例达到了75%,也就是一个图片3/4将会被mask掉,等待被还原。比如上面的总体结构图中 Masked image就mask了6个图片区域,剩3未被mask的图片区域。

摘要

细分一切模型(SAM)已经成为许多视觉应用的强大工具。驱动零样本迁移和高通用性令人印象深刻的性能的关键组件是在广泛的高质量SA-1B数据集上训练的超大Transformer模型(me:SAM功能强大的原因是一个数据大,另一个encoder足够大足够强)。虽然SAM模型是有益的,但其巨大的计算成本限制了其在实际应用中的广泛应用。

为了解决这个限制,我们提出了efficientsam,这是一种轻量级的SAM模型,它表现出良好的性能,同时大大降低了复杂性。我们的想法是基于利用mask图像预训练SAMI,它学习从SAM图像编码器中重建特征,以实现有效的视觉表征学习。此外,我们采用sami预训练的轻量级图像编码器和掩码解码器来构建高效sams,并对SA-1B上的模型进行微调以进行分段任何任务。我们对多个视觉任务进行了评估,包括图像分类、目标检测、实例分割和语义目标检测,并发现我们提出的预训练方法SAMI始终优于其他掩模图像预训练方法。在分割任何任务(如零镜头实例分割)上,我们的高效sams与sami预训练的轻量级图像编码器相比其他快速SAM模型表现良好,具有显着增益(例如,在COCO/LVIS上约4 AP)。

(me:类似知识蒸馏,通过训练好的大encoder即SAM,想办法训练出一个小的SAM)

图1所示。对比分析结果。(上)通过采用经过良好预训练的轻量级图像编码器进行实例分割,大大降低了复杂性的effentsam模型概述。(下)效率SAM、MobileSAM、FastSAM和SAM在COCO上进行零射击实例分割的吞吐量/参数/性能比较。我们在单个NVIDIA A100上对所有型号的吞吐量(每秒图像)进行基准测试,并给出一个框提示。输入图像分辨率为1024 × 1024。我们的efficientsam在相当复杂的情况下,比MobileSAM和FastSAM的性能高出约4 AP。我们的EfficientSAM-S将SAM的推理时间减少了约20倍,参数大小减少了约20倍,性能下降很小,分别为44.4 AP和46.5 AP。

3. 方法

图2。EfficientSAM框架概述。我们提出的EfficientSAM包含两个阶段:ImageNet上的SAMI预训练(上)和SA-1B上的SAM调优(下)。对于SAMI预训练,掩码自编码器以SAM图像编码器的特征嵌入作为重建目标。SAMI预训练完成后,丢弃解码器,将轻量级编码器作为EfficientSAM的图像编码器,在SA-1B上进行微调。

3.1. 准备

maks自动化编码

掩码自动编码器(MAE)模型有两个组成部分,一个编码器和一个解码器。编码器和解码器都建立在Transformer层上[55]。MAE将图像标记,即来自输入图像的非重叠patch作为输入。这些输入令牌按给定的屏蔽比率分组为未屏蔽令牌和被屏蔽令牌。在自监督学习(MIM)过程中,将未被屏蔽的token作为MAE解码器需要重构的学习目标,以供编码器提取特征。MAE[26]采用了较高的掩码比率(如75%),防止了预训练阶段的信息泄露(如简单地根据邻域推断掩码像素)。

me:类似于bert,mask掉其中一个词,模型的目标是通过其他词也能把被mask掉的词还原回来。而在视觉当中,也是通过mask某一块特征,通过附件的特征来还原回原来的特征。

这里掩码比率(如75%),即mask比例达到了75%,也就是一个图片3/4将会被mask掉,等待被还原。

3.2. SAM杠杆蒙面图像预训练

我们现在采用MAE框架来获得分割任意模型的高效图像编码器。由于SAM的高通用性[31],我们探索来自SAM图像编码器的潜在特征作为利用MAE的重建目标。我们的方法强调传递嵌入在SAM中的知识。图2(上)说明了所提出的利用sam的掩膜图像预训练SAMI的概述。编码器将未掩码标记转换为潜在特征表示,解码器通过从编码器嵌入的输出特征来重建被掩码标记的表示。重构的表示学习是由SAM的潜在特征引导的。

Cross-Attention解码器

在SAM特征的监督下,我们观察到只有掩码令牌需要通过解码器重建,而编码器的输出可以在重建期间充当锚点。在交叉注意解码器中,查询来自掩码令牌,键和值来自编码器和掩码特征的非掩码特征。我们将来自交叉注意解码器的掩码令牌的输出特征与来自编码器的未掩码令牌的输出特征进行合并,用于MAE的输出嵌入。然后,这些组合的特征将被重新排序到最终MAE输出的输入图像标记的原始位置。

线性投影头

我们通过编码器和交叉注意解码器获得图像输出。然后我们将这些特征输入到一个小的项目头中,用于对齐来自SAM图像编码器的特征。为了简单起见,我们只使用线性投影头来解决SAM图像编码器和MAE输出之间的特征维度不匹配

重建的损失

在每次训练迭代中,SAMI由SAM图像编码器的前馈特征提取和MAE的前馈和反向传播过程组成。比较了SAM图像编码器和MAE线性投影头的输出,计算了重建损失。

SAMI是高效的SAM

经过预训练,我们的编码器提取各种视觉任务的特征表示,解码器被放弃修改。特别是,为了为分割任何任务构建有效的SAM模型,我们将sami预训练的轻量级编码器(如viti - tiny和viti - small)作为我们的EfficientSAM的图像编码器和SAM的默认掩码解码器,如图2(底部)所示。我们对SA-1B数据集上的EfficientSAM模型进行了优化,以用于分段任何任务。我们的EfficientSAM框架的概述如图2所示。

4. 实验

4.1. 实验设置

准备的数据集

我们的遮罩图像预训练方法SAMI是在包含120万张图像的ImageNet-1K训练集上进行的。在蒙面图像预训练[26]之后,我们不使用标签信息。我们使用来自[31]的SAM ViT- h图像编码器在预训练我们的ViT模型、vittiny、ViTSmall和vitbase时生成重建特征。

4.2. 主要结果

图像分类

为了评估我们提出的技术在图像分类任务上的有效性,我们将提出的SAMI思想应用于ViT模型,并在ImageNet-1K的基线上比较它们的性能。如表1所示,我们的SAMI与MAE、iBOT、CAE、BEiT等预训练方法以及DeiT、SSTA等蒸馏方法进行了对比。SAMI-B达到了84.8%的top1准确率,比预训练基线、MAE、DMAE、iBOT、CAE和BEiT分别高出1.2%、0.8%、1.1%、0.9%和0.4%。与DeiT和SSTA等蒸馏方法相比,SAMI也有较大的改进。对于轻量级模型,如viti - tiny和viti - small,与DeiT、SSTA、DMAE和MAE相比,SAMI报告了显著的增益。

表1。ImageNet-1K图像分类结果。IN是ImageNet的缩写。

4.4. 消融实验

现在,我们通过ViT主干的一系列消融研究来分析SAMI和efficientsam。

Reconstruction Loss的设计

在ImageNet-1K上研究了重建损失对SAMI性能的影响。我们比较了均方误差(MSE)重建损失余弦相似度损失。我们发现MSE重构损失表现更好,如表6所示。这建议直接重建SAM特征,而不是具有高角度相似性的目标。

表6所示。消融术对SAMI训练损失的影响。MSE损失在ImageNet-1K上给出了更好的分类结果

Cross-Attention译码器

为了重建SAM特征,我们直接使用编码器的输出令牌,只使用解码器对交叉注意的掩码令牌进行转换。我们研究了通过解码器作为MAE的所有令牌的性能变化[26]。当查询解码器中的掩码令牌时,我们发现SAMI-Ti在ImageNet-1K上的性能比将所有令牌作为MAE馈送到解码器中进行目标重建要好3%[26]。与AnchorDETR中的锚点类似[58],编码器的输出标记已经通过直接对齐SAM特征学习得很好,SAM特征可以作为锚标记,通过交叉注意解码器帮助屏蔽标记对齐

调优步骤对efficientsam的影响

我们将探讨调优步骤对efficientsam的影响。如图7所示,即使在0.1 epoch, EfficientSAM-Ti和EfficientSAM-S也能取得不错的性能。对于1 epoch,性能增益大于2.5 mIoU。EfficientSAM-S的最终性能达到76.9 mIoU,仅比SAM低1.5 mIoU。这些结果证明了sami预训练图像编码器和我们的高效sams的优势。

图7。MS COCO数据集上高效sams训练步骤的消融研究。零样本单点有效掩模评估与一个单一的框提示进行消融。

5. 结论

我们提出了一种掩膜图像预训练方法SAMI,在SAM基础模型的指导下,探索ViTs的潜力。SAMI通过重建SAM图像编码器的潜在特征来改进掩膜图像的预训练,将视觉基础模型中的知识转移到vit中。在图像分类、目标检测和实例分割、语义分割以及任意分割任务上的大量实验一致验证了SAMI的优势。我们还证明了SAMI有助于使用预训练的轻量级编码器构建高效的SAMs。我们的初步工作表明,SAMI在高效分段任何任务之外具有潜在的应用。

参考资料

论文下载(2024 CVPR满分论文)

https://arxiv.org/abs/2312.00863

代码地址

GitHub - yformer/EfficientSAM: EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

标签:Pretraining,SAM,论文,编码器,2024,SAMI,解码器,图像,掩码
From: https://blog.csdn.net/weixin_50917576/article/details/136845512

相关文章

  • 基于Java中的SSM框架实现宝康药房销售管理系统项目【项目源码+论文说明】
    基于Java中的SSM框架实现宝康药房销售管理系统演示摘要随着我国市场经济的蓬勃发展和人们对医药产品需求的迅速增加,医药销售行业正处于一个高速发展的时期。行业的快速发展必然导致竞争的加剧,面对药品销售业日益严酷的竟争现实,加强管理、提高工作效率和改善服务质量成了急......
  • 腾讯春招内参:2024最全Spring Boot面试题解析,技术精英必备!
    随着2024年春季招聘季的来临,腾讯再次开启了对富有才华和创新精神的技术人才的寻找之旅。作为一家全球领先的互联网科技公司,腾讯在寻找那些不仅拥有扎实的技术基础,而且能够适应快速发展和变化的行业环境的候选人。在众多技术栈中,SpringBoot作为简化Spring应用开发的工具,因其......
  • Learning Disentangled Graph Convolutional Networks Locally and Globally论文阅读
    LearningDisentangledGraphConvolutionalNetworksLocallyandGlobally论文阅读笔记Abstract存在的问题:​ 尽管现有的gcn取得了成功,但它们通常忽略了现实世界图中通常出现的纠缠潜在因素,这导致了无法解释的节点表示。更糟糕的是,虽然重点放在局部图信息上,但整个图的全局知......
  • 深度观察2024中国系统架构师大会(SACC)
    今年的中国系统架构师大会(SACC)在我所在的城市广州举办,很荣幸受邀参加。这次能接触到国内最优秀的架构师,学习他们的架构思想和行业经验。对我而言非常有意义。大会分为上下午共4场,我参加了上午的多云多活架构设计专场和下午的AIGC专场。本篇文章就多云多活架构设计专场,我选取几......
  • 亚洲唯一!京东荣获2024年度Gartner供应链技术创新奖背后的创新探索
    导语:2月14日晚间,Gartner公布了2024年度GartnerPoweroftheProfession供应链大奖,京东集团荣获供应链技术创新奖,成为获得该奖项的唯一亚洲企业。GartnerPoweroftheProfession供应链奖项已经举办十年,是衡量企业供应链创新能力的国际权威奖项。据悉,入围决赛的共有5家企业,另外4......
  • 算法模板 v1.10.1.20240319
    算法模板v1.1.1.20240115:之前历史版本已不可寻,创建第一份算法模板。v1.2.1.20240116:删除“编译”-“手动开栈”;删除“编译”-“手动开O优化”;修改“编译”-“CF模板”;删除“读写”;删除“图论”-“欧拉图”-“混合图”;删除“图论”-“可达性统计”;删除“数据类型”-“高精类”。......
  • 音视频技术的未来:即构、声网、腾讯云、网易云信2024年度对比
    ​引言随着2024年的到来,实时通讯(RTC)技术已成为推动数字经济发展的关键因素。从最基础的文本、音频和视频通信扩展到即时消息、文件共享、语音呼叫、直播互动以及视频会议等多元化功能,RTC技术在各个行业中的应用日益广泛。根据最新的市场研究,预计到2024年,中国实时音视频(RTC)PaaS市......
  • NOI2024前训练-一些有趣的国内外比赛资源库 #2
    NOI2024前训练-一些有趣的国内外比赛资源库#2QOJ#4399.[CEOI2022]AbracadabraTin是一位著名的魔术师,他的一个经典魔术与洗牌有关。Tin会准备一套牌,总共\(n\)张(保证\(n\)为偶数),各编号为\(1\simn\),一开始的时候牌是乱的且倒扣在桌子上。紧接着他开始表演洗牌,在洗牌......
  • 2024-03-19 闲话
    最近看了十几集friends,非常尴尬的是这里也太多成人内容了。今天上英语课slides上出现了:开幕雷击。虽然本来就是六个成年人的故事,出现成人关注的题材也很正常,但是感觉这个内容占比,充分说明了激素是行为调节的关键因素。上周六心血来潮去看了一下未删减wolfofwallstreet......
  • 2024年公共管理、心理健康与教育国际学术会议
    2024年应用经济学与财务管理国际学术会议(PMMHE2024)2024InternationalAcademicConferenceonPublicManagement,MentalHealth,andEducation【会议简介】 2024年公共管理、心理健康与教育国际学术会议将于美丽的杭州隆重召开。本次会议旨在汇聚全球公共管理、心理......