郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Abstract
大型多模态模型(LMM)将大语言模型扩展到视觉领域。最初的LMM使用整体图像和文本提示词来生成无定位的文本响应。最近,区域级LMM已被用于生成视觉定位响应。然而,它们仅限于一次仅引用单个目标类别,要求用户指定区域,或者不能提供密集的像素目标定位。在这项工作中,我们提出了Grounding LMM (GLaMM),这是第一个可以生成与相应的目标分割掩码无缝交织的自然语言响应的模型。GLaMM不仅将对话中出现的目标作为定位,而且足够灵活,可以接受文本和可选的视觉提示词(感兴趣的区域)作为输入。这使得用户能够在文本和视觉领域中以不同的粒度级别与模型进行交互。由于缺乏新的视觉定位对话生成(GCG)设置的标准基准,我们引入了一个全面的评估协议,用于我们策划的定位对话。我们提出的GCG任务需要大规模的自然场景中的密集概念。为此,我们使用我们提出的自动注释流水线提出了一个密集注释的定位任何数据集(GranD),该数据集包括7.5M个独特的概念,这些概念定位总共810M个可用的分割掩码区域。除了GCG,GLaMM还可以有效地执行一些下游任务,例如引用表达分割、图像和区域级说明文字以及视觉-语言对话。
1. Introduction
2. Related Work
3. Method
3.1. GLaMM Architecture
3.2. Grounded Conversation Generation (GCG)
4. Data Annotation Pipeline
4.1. Object Localization and Attributes (Level-1)
4.2. Relationships and Landmarks (Level-2)
4.3. Scene Graph and Dense Captioning (Level-3)
4.4. Extra Contextual Insights (Level-4)
4.5. Building GranDf for GCG
5. Experiments
6. Conclusion
Supplementary Material
A. Additional Implementation Details
A.1. Evaluation Metrics
A.2. Model Architecture and Training
A.2.1 Pretraining on GranD
A.3. Finetuning on Downstream Tasks
A.4. Automated Dataset Annotation Pipeline
A.4.1 LLM Prompts and In-context Learning
B. Additional Downstream Tasks
B.1. Phrase Grounding
B.2. Conversational Style Question Answering
C. Additional Qualitative Results
C.1. Grounded Conversation Generation (GCG)
C.2. Referring Segmentation
C.3. Region-level Captioning
C.4. Image-level Captioning
C.5. Conditional Image Generation
C.6. Conversations
D. Dataset Visualization
E. Limitations and Future Work
F. Ethics and Societal Impact
标签:Large,GCG,定位,Level,Multimodal,GLaMM,LMM,视觉 From: https://www.cnblogs.com/lucifer1997/p/18238874