Semantic-SAM: Segment and Recognize Anything at Any Granularity论文阅读笔记

时间：2024-06-17 19:00:14浏览次数：18

标签：分割 Semantic SAM Anything 语义 prompt mask 粒度 query

Motivation & Abs

现有的结构限制了模型以端到端的方式预测多粒度分割mask；同时目前没有大规模的语义感知&粒度感知数据集，同时不同数据集之间语义和粒度的固有差异给联合训练工作带来了重大挑战。

本文提出通用图像分割模型，能够以任何粒度分割识别任何内容，给一个点作为prompt能够生成多种粒度的mask。

Dataset

7个包含不同粒度级别mask的数据集：SA-1B, COCO panoptic, ADE20k panoptic, PASCAL part, PACO, PartImageNet, Objects365。

截屏2024-06-17 16.50.36

Method

截屏2024-06-17 17.06.31

Model

Semantic-SAM基于Mask dino，利用基于query的mask decoder来生成语义感知和多粒度mask。相比于通常的query，Semantic-SAM还支持两种promot：点以及边界框。对于点，作者用极小的边界框进行近似，因此可以用一种统一的形式表示。为了捕获不同粒度的mask，每一次click首先被编码为position prompt以及K个content prompt，每一个content prompt时可学习的，用以表示不同粒度的信息，文章中K的取值为6。content embeddings表示为一系列的query vector \(Q=(q_1,...,q_K)\)，对于第i个query，\(q_i=q_i^{level}+q_i^{type}\)，\(q^{level}\)时对于粒度等级的embedding，\(q^{type}\)用于区分不同的query type（点 or 边界框）。

mask decoder：截屏2024-06-17 17.05.11

\(F\)为encoder提取的特征，DeformDec是deformable decoder，接收query feature、refernece box以及图像特征。每一个\(o_i=(c_i,m_i)\)包含预测的类别以及mask，用于计算分类和分割的损失。

Training

截屏2024-06-17 17.10.14

有的数据集包含实例级别的标注，有的则包含part级别的标注，SA-1B没有语义标注但mask涵盖了所有语义级别。为此，作者提出将object识别和part识别进行解耦，如图所示。需要注意，所有数据共享统一的格式但损失可能不同，如下表所示：

截屏2024-06-17 17.25.03

为了赋予模型多粒度分割的能力，作者在训练中使用了many-to-many的匹配策略。

截屏2024-06-17 17.23.26

对于框输入和通用分割，为了从输入框生成掩码，作者遵循与去噪训练（DN）类似的想法。即向真实框添加噪声，以模拟用户不准确的框输入，这些噪声框充当decoder的spatial prompt。该模型经过训练，可以在给定噪声框的情况下重建原始框和mask。对于box prompt的content part，作者使用可学习的标记作为通用提示。对于通用分割，流程与Mask DINO相同。

标签：分割,Semantic,SAM,Anything,语义,prompt,mask,粒度,query
From： https://www.cnblogs.com/lipoicyclic/p/18253026

解决vue项目报错 ERROR in Conflict:Multiple assets emit different content to the
vue-cli创建项目ERROR in Conflict: Multiple assets emit different content to the same filename index.html问题的解决办法用vue-cli正常来创建新的项目在运行npmrundev或者npmrunserve有以下报错：ERRORinConflict:Multipleassetsemitdifferentco......
Ubuntu server 24 (Linux) 安装部署samba服务器共享文件目录 windows访问
1安装sudoaptupdatesudoapt-getinstallsamba#启动服务sudosystemctlrestartsmbd.servicesudosystemctlenablesmbd.service#查看服务2创建用户#创建系统用户sudouseraddtest2#配置用户密码sudosmbpasswd-atest2#smbpasswd:-a添加用户-......
开源项目QAnything：全能型本地知识库问答系统
在当今信息爆炸的时代，如何高效地管理和检索大量数据成为了一个重要课题。网易有道推出的开源项目QAnything，正是为了解决这一问题而生。QAnything是一个本地知识库问答系统，支持多种文件格式和数据库，允许用户在离线状态下进行安装和使用。用户只需将任何格式的本地存储文件放入系......
基于注意力机制卷积神经网络结合门控单元CNN-GRU-SAM-Attention实现柴油机故障诊断附m
以下是一个基于注意力机制卷积神经网络结合门控单元（CNN-GRU）和自适应注意力机制（SAM-Attention）的柴油机故障诊断的示例Matlab代码：matlab%设置参数inputSize=[32323];%输入图像尺寸numClasses=10;%类别数numFilters=32;%卷积核数量filterSize=3;%卷积......
sam_out 脱发预测
解释这段代码是一个用于预测掉发问题的GPT模型的训练脚本。代码首先读取了一个包含预测特征的csv数据文件，并将特征进行编码。然后将数据集分成训练集和测试集。接下来定义了模型的结构，优化器和损失函数。然后进行多轮训练，每一轮都使用批量数据进行训练，并计算准确率、F1值和......
win10 连接samba 账号密码不正确。但实际上账号密码是对的
网上解决的办法有很多，分享一个我自己遇到的解决方法（其实是因为之前参考别人修改了这个安全设置，导致能连的上的samba也连不上了）网络安全：LAN管理器身份验证级别问题先win+r输入regedit打开注册表找到下面的这个1、本地安全策略，本地策略-安全选项，需要修改成默认的值的修改方式：查找......
企业软件商城：SAM解决方案中的关键角色(应该怎么做)
1.厘清对SAM的认知1.1.SAM的权威理解软件资产管理（SoftwareAssetManagement，简称SAM）是指通过制定和实施政策、流程和工具来有效管理、控制和保护组织的软件资产。SAM不仅仅是简单的资产盘点，还涉及到软件从采购、部署、使用到退役整个生命周期的管理。其核心目标是确保软件......
Semantic Kernel入门系列：通过依赖注入管理对象和插件
前言本章讲一下在SemanticKernel中使用DependencyInject(依赖注入)，在之前的章节我们都是通过手动创建Kernel对象来完成框架的初始化工作，今天我们用依赖注入的方式来实现。实战定义NativePlugins我们用官网的LightPlugins插件来演示依赖注入在SK中的使用publicclassLightP......
SAMSUNG SCX4521F (4x21系列) 在MacOS Sonoma下的驱动问题！
直接整就这种打印机，很经典First,youneedtodownloadthelegacySamsungPrinterDriver2.6forOSX-fromapplewebsite:SamsungPrinterDriversv2.6forOSXMountthedmgCopy.pkgfiletoyourDesktoporsomethingOpenterminalrun`pkgutil--expand~/D......
[AI资讯·0609] SamAltman建立了庞大投资帝国，通义千问Qwen2发布即爆火，OpenAI泄密者公
AI资讯奥特曼28亿「投资帝国」曝光！不要OpenAI股份，当CEO最不赚钱开源超闭源！通义千问Qwen2发布即爆火，网友：GPT-4o危OpenAI泄密者公布165页文件：2027年实现AGI、计算集群将耗资千亿美元清华系细胞大模型登Nature子刊！能对人类2万基因同时建模奥特曼百万年薪挖角谷歌TPU人才，欲砸7万......