论文阅读：Segment Anything之阅读笔记

时间：2023-07-05 11:13:06浏览次数：57

标签：prompt 阅读 Anything text image mask embedding decoder Segment

引言

论文：Segment Anything是Meta出的图像语义分割的算法。这个算法因其强大的zero-shot泛化能力让人惊艳，这不抽空拿来学习了一下。
该算法的代码写得很清楚、简洁和规范，读来让人赏心悦目。推荐去看源码，很有意思。
本篇文章，将以问答形式来解读阅读过程中遇到的困惑，想来这种方式效率更高一些。
PDF | Code

整体结构介绍

在这里插入图片描述

整体分为三大部分：image encoder、prompt encoder和mask decoder。下图看的更加清楚一些，也是来自论文。

论文问答

代码仓库中，模型哪部分转换为了ONNX格式？以及如何转的？

mask_decoder部分做了转onnx格式
直接采用torch.onnx.export函数接口转的。因为没有采用transformer函数库，因为转换较为简单。
- 先基于torch构建整个部分模型，构建模型输入。
- 调用torch.onnx.export函数来转换

Mask decoder部分 Transformer decoder block?

该部分采用的动态mask预测头。
在两个方向上（prompt-to-image embedding 和相反的）使用了prompt self-attention和cross-attention来达到更新所有embedding的目的。

如何整合image_embedding，image_pe, sparse_prompt_embedding和dense_prompt_embedding的？

通过mask decoder这一部分来做的。采用的是修改过的Transformer decoder block.

points, boxes, text和masks四种类型prompt如何嵌入到网络中？

points, boxes, text在论文中称为sparse prompt。masks类型被称为dense prompt
points和boxes 是以positional encodings（位置编码）和每个提示类型的学习嵌入来表示的。
text是来自CLIP的text encoder表示的。从demo中并没有看到text输入的prompt，从issue #93中验证了这点
mask是使用卷积嵌入，并与图像embedding逐元素求和

什么样的任务具有zero-shot泛化能力？

模型以promptable的方式训练得到，因此具备zero-shot的泛化能力

标签：prompt,阅读,Anything,text,image,mask,embedding,decoder,Segment
From： https://www.cnblogs.com/shiwanghualuo/p/17527968.html

【论文阅读】Pyramid Vision Transformer: A Versatile Backbone for Dense Predictio
来自ICCV2021论文地址：[2102.12122]PyramidVisionTransformer:AVersatileBackboneforDensePredictionwithoutConvolutions(arxiv.org)代码地址：https://link.zhihu.com/?target=https%3A//github.com/whai362/PVT一、Motivation1.将金字塔结构引入视觉Transformer，使......
OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers
地址：https://arxiv.org/pdf/2207.02255.pdf1.摘要 OSFormer为基于transformer的伪装实例分割(CIS)框架，有两个关键设计，首先是位置敏感transformer（LST），通过【位置引导查询】和【混合卷积前向传播网络】获得定位标签和实例级参数；第二，开发粗糙到精细融合模块（CFF）合并来自LST......
yaml创建模型结构，代码阅读
*前言.最近读到类似Detectron2结构的训练代码，实在是太痛苦了。因此，做笔记记录一下。1.整体结构：Trainingkit; |----configs：存储各种网络的yaml配置文件； |----docs |----imxcv：运行代码的核心组件；......
免费看小说软件[阅读](无需登录,没有广告,体积小,资源丰富)
软件只是一个开源的框架,需要导入书源才能使用;大佬的微信公众号 [开源阅读软件] 负责软件的更新维护; [开源阅读] 八卦、吃瓜、聊天、使用教程等一、软件的下载1.关注大佬的微信公众号[开源阅读软件],点击软件下载,根据提示进行操作;2.不想关注的可以点击下面链接进......
阅读要记-《左耳听风》
阅读要记-《左耳听风》1Equifax信息泄露始末《代码大全》虽然这本书有点过时了，而且厚到可以垫显示器，但是这绝对是一本经典的书。《程序员修练之道》这本书也是相当经典，我觉得就是你的指路明灯。《计算机的构造和解释》经典中的经典，必读。《算法导论》美国的本科生......
飞鸟集阅读笔记
2023.7.1买的，好好读！一级标题是这首诗是第几首，很有感觉的摘抄在下面，有可能写点注解。1夏天的飞鸟，飞到我窗前唱歌，又飞去了。秋天的黄叶，它们没有什么可唱，只叹息一声，飞落在那里。9有一次，我们梦见大家都是不相识的。我们醒了，却知道我们原是相爱的。注记注意是“我们”，这里的......
微信读书：从Paxos到Zookeeper：分布式一致性原理与实践（阅读摘录）
微信读书：从Paxos到Zookeeper：分布式一致性原理与实践（阅读摘录）阅读地址CAP理论CAP理论告诉我们，一个分布式系统不可能同时满足一致性(C：Consistency)、可用性(A：Availability)和分区容错性(P：Partitiontolerance)这三个基本需求，最多只能同时满足其中的两项。BASE理论BASE是Basica......
提升网页阅读体验的三款优秀大纲插件（2023）
阅读长篇文章或复杂网页时，清晰的大纲结构可以帮助我们更好地理解和组织信息。在这篇博客中，我将向大家推荐三款优秀的网页大纲插件，帮助您提升阅读效率和体验。FlashOutlineFlashSwitcher是一个专注于提高浏览器使用效率和体验的综合插件，其最新的智能大纲功能专门为提高网页阅读体......
5、apache-kylin-3.1.3-bin-hadoop3 segment管理及JDBC操作
apache-kylin-3.1.3-bin-hadoop3系列文章1、apache-kylin-3.1.3-bin-hadoop3介绍及部署、验证详解2、apache-kylin-3.1.3-bin-hadoop3集群部署3、apache-kylin-3.1.3-bin-hadoop3基本操作(创建model和cube、数据查詢)4、apache-kylin-3.1.3-bin-hadoop3增量构建、全量构建详细示例......
【论文阅读】CONDITIONAL POSITIONAL ENCODINGS FOR VISIONTRANSFORMERS
来自美团技术团队2023年ICLR会议上发表的论文论文地址：https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2102.10882.pdf一、Motivation由于Transformer中的Self-Attention操作是Permutation-Invariant的，也就是说，对于同一个序列，任意顺序进行排列，Self-Attention得到的一......

论文阅读：Segment Anything之阅读笔记

引言

整体结构介绍

论文问答

代码仓库中，模型哪部分转换为了ONNX格式？以及如何转的？

Mask decoder部分 Transformer decoder block?

如何整合image_embedding，image_pe, sparse_prompt_embedding和dense_prompt_embedding的？

points, boxes, text和masks四种类型prompt如何嵌入到网络中？

什么样的任务具有zero-shot泛化能力？

相关文章

赞助商

阅读排行