首页 > 其他分享 >【论文阅读笔记】【SAM相关】 Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

【论文阅读笔记】【SAM相关】 Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

时间:2023-10-26 10:35:06浏览次数:31  
标签:Shot Anything SAM level mask patch 解决 prompt

读论文时思考的问题

  1. 论文试图解决什么问题?

    • 如何更好地建立视觉方面的 fundation model

    • 如何建立一个模型,使得其在 没有人类输入信号的情况下(这里主要是 one-shot image)能更好地挖掘SAM的能力,实现相同的语义元素(好像不一定要求是一个实例)的分割(并提取割出来的物体的语义信息?)

    • 简单地将不同的 fundation models 连接起来不能解决该问题

  2. 文章提出了什么样的解决方法?

    • 通过计算对应矩阵和匹配的方式,实现从参考图片到target图片的无需训练的 one-shot 分割(可以割出 whole-level 以及 instance level)

    • 通过image encoder 提取出两张图像的特征,再计算相似度矩阵,通过Hungarian matching可以得到粗粒度的碎片化的mask

    • 根据双向匈牙利匹配,选取出合适的目标图片中的patch(保证patch反向映射后仍然在原图的mask里面)

    • 将这些patch进行kmeans聚类,可以得到part-level prompt 以及 (one or multiple) instance-level prompt

    • 用 SAM 通过这些prompt输出对应的mask

    • 通过原来的mask到预测mask的推土机距离以及纯净度指标,进一步选取出SAM割出的合适的topk个mask,最后做merging

  3. 你觉得解决方法的关键之处在哪里?

  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 似乎还是需要一张 reference 图片?那怎么做VOS?(噢!用上一帧的mask来做reference!)

    • 比如做VOS的时候,能不能用(可能可以通过学习的方式来选取)前几帧的结果来做一个聚合呢?又能不能用后面几帧的结果来反向进行调整?(但这样就做不到实时了)

  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)这些实验你觉得有效吗?

问题

  1. patch-wise similarity 的 patch 有多大?

  2. 怎么得到 coarse mask 的?  通过矩阵做匈牙利匹配,可以将原有的mask对应的patch给映射到目标的图片上

  3. 如果多次迭代地进行正逆向 matching,情况会有改观吗    不会,没有任何区别

    这个点或许可以跟iccv23那篇用correspodance matrix 做文本识别相结合

  4. 那语义信息咋获得呀?目前似乎还没任何线索

  5. 是怎么做VOS的? 已解决,用上一帧的mask

  6. 不同的mask是怎么merge的?

理解

  1. kmeans 聚类:隐藏了一个默认前提——物体相同的部分会被mapping到相近的地方

标签:Shot,Anything,SAM,level,mask,patch,解决,prompt
From: https://www.cnblogs.com/yywwhh2000/p/17788850.html

相关文章

  • gerrit 快捷键说明 shotcuts 说明
    gerrit是一个git仓库,可以快速的对比代码的不同。下面记录一下快捷键NavigationwithinthereviewUIcanbecompletelydonebykeys,andmostactionscanbecontrolledbykeyboardshortcuts.Typing?opensapopupthatshowsalistofavailablekeyboardshortcu......
  • [WebGL] sampler2DArray demo 多纹理渲染
    背景之前尝试过利用多个纹理单元,再基于传入给shader的vertexBuffer信息决定选1号纹理单元还是2号纹理单元。虽然理论上,这个方式确实行得通,但是一次drawcall绘制多个纹理,本来目的是为了提高绘制性能,而实际上却无法提高性能,甚至还有反作用。因为有说法是shader分支会......
  • chatGPT发展中Few-Shot, Zero-Shot & One-shot 的通俗理解
    先解释one-shot。公司门禁用了人脸识别,你只提供一张照片,门禁就能认识各个角度的你,这就是one-shot。可以把one-shot理解为用1条数据finetune模型。在人脸识别场景里,one-shot很常见。zero-shot与few-shot,回到NLP场景。用wikipedia、新闻等,训练一个GPT模型,直接拿来......
  • 论文阅读:Learning Semantic Segmentation of Large-Scale Point Clouds With Random S
    LearningSemanticSegmentationofLarge-Scale PointCloudsWithRandomSampling用随机抽样法学习大规模点云的语义分割摘要我们研究了大规模三维点云的有效语义分割问题。由于依赖昂贵的采样技术或计算量大的前/后处理步骤,大多数现有的方法只能在小规模的点云上进行训练和操......
  • [LeetCode] 1726. Tuple with Same Product
    Givenanarray nums of distinct positiveintegers,return thenumberoftuples (a,b,c,d) suchthat a*b=c*d where a, b, c,and d areelementsof nums,and a!=b!=c!=d.Example1:Input:nums=[2,3,4,6]Output:8Explanation:Ther......
  • Paper Reading: Sample and feature selecting based ensemble learning for imbalanc
    目录研究动机文章贡献本文方法基于聚类的分层随机欠采样特征选择样本和特征选择的集成学习基于随机森林的SFSHEL实验结果数据集和实验设置KEEL数据集的比较HeartFailure数据集的比较优点和创新点PaperReading是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限......
  • Metropolis Algorithms for Representative Subgraph Sampling
    目录概主要内容MetropolisgraphsamplingH\¨{u}blerC.andKriegelH.,BorgwardtK.andGhahramaniZ.Metropolisalgorithmsforrepresentativesubgraphsampling.ICDM,2008.概提出了一种尽可能保持拓扑结构的子图采样方法.主要内容假设我们有一个大图\(G\),......
  • 论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervis
    Few-ShotPointCloudSemanticSegmentationvia ContrastiveSelf-SupervisionandMulti-ResolutionAttention基于对比自我监督和多分辨率注意力的小样本点云语义分割摘要本文提出了一种适用于现实世界应用的有效的小样本点云语义分割方法。现有的点云小样本分割方法在很大程......
  • ArthasHotSwap插件使用
    ArthasHotSwap插件使用1、安装插件2、指定服务器上需要热部署的java进程因为服务器上可能不止一个java进程,如果不指定进程,热更会新默认更新第一个3、反编译字节码运行arthasjava-jararthas-boot.jar选择java进程查看正在使用的类jadcom.ruoyi.race.service.impl......
  • Sampling from Large Graphs
    目录概主要内容LeskovecJ.andFaloutsosC.Samplingfromlargegraphs.KDD,2006.概讨论了不同稀疏化方法对于large-graph的`结构'的保持.主要内容作者本文的目的是希望比较不同的'稀疏化'方法:利用一些方法从大图\(G\)中采样子图\(g\)(更少的结点数或更少......