【ACMMM2024】Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection

时间：2024-08-28 13:14:24浏览次数：12

标签：Multi Scale SOD SAM Detail Module Anything

论文：https://arxiv.org/pdf/2408.04326

代码：https://github.com/BellyBeauty/MDSAM

论文的研究动机就是使用SAM来解决显著性检测（SOD）问题，主要有两个改进：

提出了Lightweight Multi-Scale Adapter, LMSA来微调SAM
提出了Multi-Level Fusion Module, MLFM 和 Detail Enhancement Module, DEM，分别改善了SAM在多尺度和细粒度感知方面的性能。

网络的整体架构如下图所示，关键模块是标红的部分，下面分别进行介绍。

1、Lightweight Multi-Scale Adapter，LMSA

作者认为，SAM编码器的参数过多，同时 SOD训练数据不足会影响网络的全面微调，因此，使用Adaptor可以让SAM应用于SOD，同时，应用多尺度特征提取能够提升性能。LMSA结构如下图所示，本质上就是在 Adpator 里把特征池化成多个尺度分别处理。

2、Multi-Level Fusion Module, MLFM

在 SAM 的 encoder 中，每一层都包含不同的信息，因此多层信息融合对于 SOD 来说是必要的。如下图所示，作者提出的 MLFM 使用 Weight Distributors（WD）生成 weight 并将它们分配给不同的层。

3、Detail Enhancement Module， DEM

为了增强边缘细节信息，作者又提出了DEM，具体结构如下图所示。包含一个主分支和一个辅助分支。下图中下面是主分支，输入分别是VIT的特征 \(F^d\) 和 SAM 中 decoder 生成的 mask \(F^m\)。上面是辅助分支的输入是原始图像，本质是通过不断池化，和输入做差的方式得到 edge enhancement，得到的结果再和主分支进行特征拼接。

实验部分可以参考作者论文，这里不过多介绍。

标签：Multi,Scale,SOD,SAM,Detail,Module,Anything
From： https://www.cnblogs.com/gaopursuit/p/18384462

一次搞懂数据大屏适配方案 (vw vh、rem、scale)
当接到可视化大屏需求时，你是否会有以下疑问......
Multipass虚拟机ssh登录（密码方式）
Multipass虚拟机ssh登录（密码方式）[!NOTE]以Ubuntu24,04LTS为例准备工作为了演示新建一个示例虚拟机。multipasslaunch--namevm01-c4-m4G-d100G--networkbridged操作步骤进入虚拟机multipassshellvm01设置密码multipass默认会给所有实例生......
DocKylin: A Large Multimodal Model for Visual Document Understanding with Effici
DocKylin:ALargeMultimodalModelforVisualDocumentUnderstandingwithEfficientVisualSlimmingarxiv:http://arxiv.org/abs/2406.19101视觉处理器+LLM：视觉处理器：SwinTransformer创新点：通过：1、去除图片冗余像素；2、去除冗余token。来减小模型中的视觉处理器的参数量......
Vulkan入门系列17 - 多重采样（ Multisampling）
一：概述我们的程序现在可以加载多个级别的纹理，从而解决了在渲染远离观察者的物体时出现的伪影问题。现在图像变得平滑多了，但仔细观察，你会发现绘制的几何图形边缘呈现锯齿状。这在我们早期渲染一个四边形的程序中尤为明显：这种不希望有的效果......
论文解读Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation
Multi-PromptAlignmentforMulti-SourceUnsupervisedDomainAdaptationNeurlIPS2023摘要大多数现有的无监督域适应(UDA)方法依赖于共享网络来提取领域不变特征。无论如何，当面对多个源域时，优化这样的网络涉及更新整个网络的参数，这样既昂贵又有挑战性，特别是与最小最大......
[oeasy]python031_[趣味拓展]unix起源_Ken_Tompson_Ritchie_multics
[趣味拓展]unix起源_Ken_Tompson_Ritchie_multics......
【xilinx】解决 I/O 时钟布局器错误：UltraScale 示例
示例详细信息：设备： xcvu9p-flga2104-2-e问题：尽管使用GCIO引脚作为时钟，但该工具仍返回I/OClockPlacer错误错误：<spanstyle="background-color:#f3f3f3"><spanstyle="color:#333333"><code>ERROR:[Place30-675]Sub-optimalplacementforaglobalcloc......
【0316】Postgres内核之VACUUM （FULL）运行 portal multi query （11）
上一篇文章：【0315】Postgres内核之VACUUM（FULL）运行portalquery（10）1.执行portalmultiquery在【0315】Postgres内核之VACUUM（FULL）运行portalquery（10）一文中讲解了Postgres内核运行portal查询的实现。之后通过判断portal->strategy的值（PORTAL_MULTI_QUERY）走到了Po......
读论文《Behavior Pattern Mining-based Multi-Behavior Recommendation》
论文地址：arxiv.org/pdf/2408.12152v1项目地址：GitHub-rookitkitlee/BPMR基于行为模式挖掘的多行为推荐：论文提出了一种新颖的多行为推荐算法（BPMR），旨在通过分析用户和项目之间的复杂交互模式来提高推荐系统的有效性。这种方法特别关注于用户除了购买之外的其他行为，例如页面浏览......

【ACMMM2024】Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection

1、Lightweight Multi-Scale Adapter，LMSA

2、Multi-Level Fusion Module, MLFM

3、Detail Enhancement Module， DEM

相关文章

赞助商

阅读排行