GSVA: Generalized Segmentation via Multimodal Large Language Models论文阅读笔记

时间：2024-06-19 14:34:22浏览次数：25

标签：REJ Segmentation via GRES GSVA 目标 Large token

Motivation & Abs

Generalized Referring Expression Segmentation (GRES)：相比于原始的RES任务，一个文本描述里可能出现多个需要分割的物体，或者没有需要分割的物体，难点在于建模不同实体之间复杂的空间关系，以及识别不存在的描述。现有的方法如LISA难以处理GRES任务，为此作者提出了GSVA，利用多个<SEG>提示分割模型生成多个mask，同时插入<REJ> token以应对没有需要分割的物体的情况。

Method

截屏2024-06-16 23.44.34

结构

与LISA类似，GSVA的结构分为MLLM（作为对齐的视觉语言认知模块）以及分割基础模型（SFM）。MLLM由decoder-based LLM \(F_{LLM}\)（自回归的形式生成文本应答）以及vision encoder \(F_{V1}\)从输入图像提取特征，还有一个线性层对齐两个模态的特征。

不同的是，LISA 假设输入图像及其相应指令中仅存在一个目标来进行分割。然而 GSVA 将其扩展到具有多个目标和空目标的新场景，包括多个 [SEG] 标记来调用分割和 [REJ] 标记来拒绝图像中不存在的不合理指示目标。如图，GSVA 在输出序列中支持多个 [SEG]/[REJ] token，选择所有 [SEG] token并丢弃每个 [REJ] token。

GRES: Task and Challenges

Task

Generalized Referring Expression Segmentation (GRES)不对一个文本表达中的参考目标数量作出限制，目标可以是多个实例，或者没有目标。

Challenges

多目标 / 无目标。

对比Reasoning Segmentation

reasoning segmentation的指令更加隐式 / 复杂；而GRES则需要模型理解复杂的空间关系。

Multiple [SEG] Tokens for Multiple Targets

截屏2024-06-19 13.32.20

为了防止歧义，每个seg token前先给出mask的expression。这种能力可以看做隐式多模态上下文学习（ICL）。

Rejecting Empty Targets via [REJ] Tokens

GRES中与expression不匹配的目标应该被视为空目标（负样本），之前的方法如LISA则无法识别这些负样本（不存在对应的训练数据）。为此，GSVA对于图像中不存在但在expression中出现的目标预测为[REJ]：

截屏2024-06-19 14.07.58

实验

截屏2024-06-19 14.17.06

截屏2024-06-19 14.19.03

标签：REJ,Segmentation,via,GRES,GSVA,目标,Large,token
From： https://www.cnblogs.com/lipoicyclic/p/18256185

WebService异常：提供的 URI 方案“https”无效，应为“http”。参数名: via
解决如下：把节点 httpsTransport改为 httpTransport原配置：<bindings><customBinding><bindingname="ZWS_CUST"><mtomMessageEncodingmessageVersion="Soap11WSAddressing10"/>......
[论文速览] Small-scale proxies for large-scale Transformer training instabilitie
Pretitle:Small-scaleproxiesforlarge-scaleTransformertraininginstabilitiessource:ICLR2024paper:https://arxiv.org/abs/2309.14322code:ref:小尺度Transformer如何ScaleIdea这篇文章想通过小模型来研究大模型（Transformer）训练不稳定的原因Method（Model）图......
【python】OpenCV—Segmentation
文章目录cv2.kmeans牛刀小试cv2.kmeanscv2.kmeans是OpenCV库中用于执行K-Means聚类算法的函数。以下是根据参考文章整理的cv2.kmeans函数的中文文档：一、函数功能cv2.kmeans用于执行K-Means聚类算法，将一组数据点划分到K个簇中，使得簇内的数据点尽可能相......
OGG Extract / Replicat Checkpoint RBA Is Larger than Local Trail Size (Doc ID 11
环境:OS:Centos6DB:11.2.0.4ogg:12.3.0.1说明：从库突然宕机重启后导致1.报错如下计算公式:Newdatapump/ReplicatRBA=Reader'stoo-bigcheckpointRBA(A)+FirstrecordRBAinthenewtrailfile(aftertherestartabend)(B)-RBAofthematchingrecord......
功能强大的多功能文档转换工具Neevia Document Converter Pro 7.5.0.241
NeeviaDocumentConverterPro是一款功能强大的Windows软件，旨在将文档转换为各种格式，包括PDF、TIFF、JPEG和许多其他格式。该程序专为在企业环境中使用而设计，提供文档转换和处理过程的自动化，这使其成为处理大量文档的组织的***工具。NeeviaDocumentConverterPro的主要功......
C. Lexicographically Largest
原题链接题解1.第\(i\)个位置上的数，对\(S\)的贡献最大不会超过\(a_i+i\)，我们令其为\(c_i\)2.我们不去细想如何操作才能得到最优解，而是去想第一大的\(b\)是多少？第二大的\(b\)是多少？3.对\(c_i\)降序排序得到\(b_i\)，如果所有\(b_i\)都不同，那么直接输出即可。4.但......
Dual Instruction Tuning with Large Language Models for Mathematical Reasoning
本文是LLM系列文章，针对《DualInstructionTuningwithLargeLanguageModelsforMathematicalReasoning》的翻译。数学推理的大语言模型双指令调优摘要1引言2方法3实验4结论局限性摘要最近的进展突出了利用思想链（CoT）数据进行数学推理任务的大型语言模型（LLM）......
Large Language Models as Financial Data Annotators: A Study on Effectiveness and
本文是LLM系列文章，针对《LargeLanguageModelsasFinancialDataAnnotators:AStudyonEffectivenessandEfficiency》的翻译。作为财务数据注释器的大型语言模型：有效性和效率研究摘要引言相关工作数据集实验结果讨论局限性结论摘要由于缺乏领域专......
CVPR2024 分割Segmentation相关论文37篇速览
Paper1MFP:MakingFullUseofProbabilityMapsforInteractiveImageSegmentation摘要小结:最近的交互式分割算法中，将先前的概率图作为网络输入，以帮助当前分割轮次的预测。然而，尽管使用了先前的掩膜，概率图中包含的有用信息并没有很好地传播到当前预测中。在本文中，为......
[罗嗦的详解]BURP官方靶场Lab: SSRF with filter bypass via open redirection vulner
参考视频:官方把场下的俩个视频https://youtu.be/iF1BPVTqM10抓取checkstore按钮的POST请求,请求体:stockApi=/product/stock/check?productId=3&storeId=1nextstore按钮的get请求:GET/product/nextProduct?currentProductId=3&path=/product?productId=4HTTP/2path参......