读论文时思考的问题
-
论文试图解决什么问题?
-
如何更好地建立视觉方面的 fundation model
-
如何建立一个模型,使得其在 没有人类输入信号的情况下(这里主要是 one-shot image)能更好地挖掘SAM的能力,实现相同的语义元素(好像不一定要求是一个实例)的分割(并提取割出来的物体的语义信息?)
-
简单地将不同的 fundation models 连接起来不能解决该问题
-
-
文章提出了什么样的解决方法?
-
通过计算对应矩阵和匹配的方式,实现从参考图片到target图片的无需训练的 one-shot 分割(可以割出 whole-level 以及 instance level)
-
通过image encoder 提取出两张图像的特征,再计算相似度矩阵,通过Hungarian matching可以得到粗粒度的碎片化的mask
-
根据双向匈牙利匹配,选取出合适的目标图片中的patch(保证patch反向映射后仍然在原图的mask里面)
-
将这些patch进行kmeans聚类,可以得到part-level prompt 以及 (one or multiple) instance-level prompt
-
用 SAM 通过这些prompt输出对应的mask
-
通过原来的mask到预测mask的推土机距离以及纯净度指标,进一步选取出SAM割出的合适的topk个mask,最后做merging
-
-
你觉得解决方法的关键之处在哪里?
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
-
似乎还是需要一张 reference 图片?那怎么做VOS?(噢!用上一帧的mask来做reference!)
-
比如做VOS的时候,能不能用(可能可以通过学习的方式来选取)前几帧的结果来做一个聚合呢?又能不能用后面几帧的结果来反向进行调整?(但这样就做不到实时了)
-
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)这些实验你觉得有效吗?
问题
-
patch-wise similarity 的 patch 有多大?
-
怎么得到 coarse mask 的? 通过矩阵做匈牙利匹配,可以将原有的mask对应的patch给映射到目标的图片上
-
如果多次迭代地进行正逆向 matching,情况会有改观吗 不会,没有任何区别
这个点或许可以跟iccv23那篇用correspodance matrix 做文本识别相结合
-
那语义信息咋获得呀?目前似乎还没任何线索
-
是怎么做VOS的? 已解决,用上一帧的mask
-
不同的mask是怎么merge的?
理解
- kmeans 聚类:隐藏了一个默认前提——物体相同的部分会被mapping到相近的地方