首页 > 其他分享 >论文阅读:Segment Anything之阅读笔记

论文阅读:Segment Anything之阅读笔记

时间:2023-07-05 11:13:06浏览次数:57  
标签:prompt 阅读 Anything text image mask embedding decoder Segment

引言

  • 论文:Segment Anything是Meta出的图像语义分割的算法。这个算法因其强大的zero-shot泛化能力让人惊艳,这不抽空拿来学习了一下。
  • 该算法的代码写得很清楚、简洁和规范,读来让人赏心悦目。推荐去看源码,很有意思。
  • 本篇文章,将以问答形式来解读阅读过程中遇到的困惑,想来这种方式效率更高一些。
  • PDF | Code

整体结构介绍

在这里插入图片描述

  • 整体分为三大部分:image encoder、prompt encoder和mask decoder。下图看的更加清楚一些,也是来自论文。
    在这里插入图片描述

论文问答

代码仓库中,模型哪部分转换为了ONNX格式?以及如何转的?

  • mask_decoder部分做了转onnx格式

  • 直接采用torch.onnx.export函数接口转的。因为没有采用transformer函数库,因为转换较为简单。

    • 先基于torch构建整个部分模型,构建模型输入。

    • 调用torch.onnx.export函数来转换

Mask decoder部分 Transformer decoder block?

  • 该部分采用的动态mask预测头。

  • 在两个方向上(prompt-to-image embedding 和相反的)使用了prompt self-attention和cross-attention来达到更新所有embedding的目的。

如何整合image_embedding,image_pe, sparse_prompt_embedding和dense_prompt_embedding的?

  • 通过mask decoder这一部分来做的。采用的是修改过的Transformer decoder block.

points, boxes, text和masks四种类型prompt如何嵌入到网络中?

  • points, boxes, text在论文中称为sparse prompt。masks类型被称为dense prompt

  • points和boxes 是以positional encodings(位置编码)和每个提示类型的学习嵌入来表示的。

  • text是来自CLIP的text encoder表示的。从demo中并没有看到text输入的prompt, 从issue #93中验证了这点

  • mask是使用卷积嵌入,并与图像embedding逐元素求和

什么样的任务具有zero-shot泛化能力?

  • 模型以promptable的方式训练得到,因此具备zero-shot的泛化能力

标签:prompt,阅读,Anything,text,image,mask,embedding,decoder,Segment
From: https://www.cnblogs.com/shiwanghualuo/p/17527968.html

相关文章

  • 【论文阅读】Pyramid Vision Transformer: A Versatile Backbone for Dense Predictio
    来自ICCV2021论文地址:[2102.12122]PyramidVisionTransformer:AVersatileBackboneforDensePredictionwithoutConvolutions(arxiv.org)代码地址:https://link.zhihu.com/?target=https%3A//github.com/whai362/PVT一、Motivation1.将金字塔结构引入视觉Transformer,使......
  • OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers
    地址:https://arxiv.org/pdf/2207.02255.pdf1.摘要    OSFormer为基于transformer的伪装实例分割(CIS)框架,有两个关键设计,首先是位置敏感transformer(LST),通过【位置引导查询】和【混合卷积前向传播网络】获得定位标签和实例级参数;第二,开发粗糙到精细融合模块(CFF)合并来自LST......
  • yaml创建模型结构,代码阅读
    *前言.最近读到类似Detectron2结构的训练代码,实在是太痛苦了。因此,做笔记记录一下。1.整体结构:Trainingkit;      |----configs:存储各种网络的yaml配置文件;      |----docs        |----imxcv:运行代码的核心组件;......
  • 免费看小说软件[阅读](无需登录,没有广告,体积小,资源丰富)
    软件只是一个开源的框架,需要导入书源才能使用;大佬的微信公众号 [开源阅读软件] 负责软件的更新维护; [开源阅读] 八卦、吃瓜、聊天、使用教程等 一、软件的下载1.关注大佬的微信公众号[开源阅读软件],点击软件下载,根据提示进行操作;2.不想关注的可以点击下面链接进......
  • 阅读要记-《左耳听风》
    阅读要记-《左耳听风》1Equifax信息泄露始末《代码大全》虽然这本书有点过时了,而且厚到可以垫显示器,但是这绝对是一本经典的书。《程序员修练之道》这本书也是相当经典,我觉得就是你的指路明灯。《计算机的构造和解释》经典中的经典,必读。《算法导论》美国的本科生......
  • 飞鸟集 阅读笔记
    2023.7.1买的,好好读!一级标题是这首诗是第几首,很有感觉的摘抄在下面,有可能写点注解。1夏天的飞鸟,飞到我窗前唱歌,又飞去了。秋天的黄叶,它们没有什么可唱,只叹息一声,飞落在那里。9有一次,我们梦见大家都是不相识的。我们醒了,却知道我们原是相爱的。注记注意是“我们”,这里的......
  • 微信读书:从Paxos到Zookeeper:分布式一致性原理与实践(阅读摘录)
    微信读书:从Paxos到Zookeeper:分布式一致性原理与实践(阅读摘录)阅读地址CAP理论CAP理论告诉我们,一个分布式系统不可能同时满足一致性(C:Consistency)、可用性(A:Availability)和分区容错性(P:Partitiontolerance)这三个基本需求,最多只能同时满足其中的两项。BASE理论BASE是Basica......
  • 提升网页阅读体验的三款优秀大纲插件(2023)
    阅读长篇文章或复杂网页时,清晰的大纲结构可以帮助我们更好地理解和组织信息。在这篇博客中,我将向大家推荐三款优秀的网页大纲插件,帮助您提升阅读效率和体验。FlashOutlineFlashSwitcher是一个专注于提高浏览器使用效率和体验的综合插件,其最新的智能大纲功能专门为提高网页阅读体......
  • 5、apache-kylin-3.1.3-bin-hadoop3 segment管理及JDBC操作
    apache-kylin-3.1.3-bin-hadoop3系列文章1、apache-kylin-3.1.3-bin-hadoop3介绍及部署、验证详解2、apache-kylin-3.1.3-bin-hadoop3集群部署3、apache-kylin-3.1.3-bin-hadoop3基本操作(创建model和cube、数据查詢)4、apache-kylin-3.1.3-bin-hadoop3增量构建、全量构建详细示例......
  • 【论文阅读】CONDITIONAL POSITIONAL ENCODINGS FOR VISIONTRANSFORMERS
    来自美团技术团队2023年ICLR会议上发表的论文论文地址:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2102.10882.pdf一、Motivation由于Transformer中的Self-Attention操作是Permutation-Invariant的,也就是说,对于同一个序列,任意顺序进行排列,Self-Attention得到的一......