LISA: Reasoning Segmentation via Large Language Model

时间：2024-06-12 15:32:55浏览次数：20

标签：Segmentation via 训练 Language image mask LLM 图像文本

Motivation & Abs

现有的感知系统依赖人类的指示，难以主动推理以理解人类意图。

新任务：reasoning segmentation，模型需要根据给定的复杂 / 具有隐含意义的文本输出相应的seg mask。

新的benchmark：包含1000张左右图像的数据集（image-instruction-mask）。

模型：LISA，既有LLM的语言生成能力，又有生成分割mask的能力。训练好的模型在非reasoning的数据集上也有着较强的zs能力，同时仅仅使用少量reasoning data对模型进行ft就可以大幅提升性能。

Reasoning Segmentation

reasoning segmentation相当于更加困难的referring segmentation，查询的文本是更复杂的表达或者更长的句子，涉及到对现实世界知识的推理。数据集：文本为短语和长句子，图像总计1218张，包含239张训练图像，200张验证图像以及779张测试图像。

Method

Architecture

Embedding as Mask. 之前的方法如LLaVA以及BLIP2等仅能接受图片输入同时输出文本，无法输出细粒度的分割mask。VisionLLM提供了一种解决方案，将掩码表示为一系列的多边形顶点，使之能够用文本描述，然而使用多边形序列的端到端训练优化困难，并且可能会损害泛化能力，除非使用大量数据和计算资源。为此，作者提出了使用embedding作为mask的范式从而将分割能力融入LLM，对LLM的词汇表进行扩充，额外添加了<SEG> token，用来代表输出的分割结果。

截屏2024-06-11 17.36.54

给定文本指令\(\hat{y}_{txt}\)以及输入图像\(x_{img}\)，作者将其输入多模态LLM \(\mathcal{F}\)，得到输出\(\hat{y}_{txt}\)（包含<SEG>标记）。同时将SAM image encoder给出的dense feature与<SEG>送入SAM的decoder即可得到分割mask。

损失函数：

截屏2024-06-12 14.51.57

截屏2024-06-12 14.52.10

这种方式能够支持端到端的训练，比两阶段的方法更加有效。

训练

训练数据形式。

Semantic Set Dataset：训练时对每张图片随机选择几个类别，类别对应的mask为GT。QA模版如同：“USER: <IMAGE> Can you segment the {class name} in this image? ASSISTANT: It is <SEG>.”

Vanilla Referring Segmentation Dataset：数据包含图片和对应物体的文本描述。QA模版：“USER: <IMAGE> Can you segment {description} in this image? ASSISTANT: Sure, it is <SEG>.”

Visual Question Answering Dataset：目的是保持MLLM的VQA能力。

可学习参数。用lora微调LLM，冻住image encoder，训练mask decoder、LLM token embedding、LLM head、projection layer。

为什么不会发生灾难遗忘：训练使用了VQA数据。

实验

截屏2024-06-12 15.10.01

Metric: gIoU和cIoU，gIoU 为所有图像IoU的平均值，而 cIoU 由累积并集上的累积交集定义。由于cIoU高度偏向于大面积物体，而且波动太大，所以首选gIoU。截屏2024-06-12 15.25.17

标签：Segmentation,via,训练,Language,image,mask,LLM,图像,文本
From： https://www.cnblogs.com/lipoicyclic/p/18244045

CBT-LLM: A Chinese Large Language Model for Cognitive Behavioral Therapy-based M
本文是LLM系列文章，针对《CBT-LLM:AChineseLargeLanguageModelforCognitiveBehavioralTherapy-basedMentalHealthQuestionAnswering》的翻译。CBT-LLM：一个基于认知行为治疗的心理健康问答的中文大语言模型摘要1引言2相关工作3方法4实验5结论和未......
Arcee’s MergeKit: A Toolkit for Merging Large Language Models
本文是LLM系列文章，针对《Arcee’sMergeKit:AToolkitforMergingLargeLanguageModels》的翻译。Arcee的MergeKit：一个用于合并大型语言模型的工具包摘要1引言2背景和相关工作3库设计：关键设计原则4MergeKit的可扩展性5MergeKit的普及性和有效性6结论和......
CoLLEGe: Concept Embedding Generation for Large Language Models
本文是LLM系列文章，针对《CoLLEGe:ConceptEmbeddingGenerationforLargeLanguageModels》的翻译。CoLLEGe：大型语言模型的概念嵌入生成摘要1引言2相关工作3CoLLEGe：概念学习与语言嵌入生成4用于训练CoLLEGe的数据集5实验6结论和讨论摘要当前的语言......
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
发表时间：2024(ICLR2024)文章要点：文章提出用预训练的视觉语言模型作为zero-shot的rewardmodel（VLM-RMs）。好处在于可以通过自然语言来给定一个具体的任务，通过VLM-RMs让强化学习基于reward学习这个任务（usingpretrainedvision-languagemodels(VLMs)aszeroshotrewardmodels......
WPF DataContext order and filter via CollectionViewSource.GetDefaultView(DataCon
//xaml<Windowx:Class="WpfApp146.MainWindow"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d="http://schemas.mi......
Meta最新路径搜索算法 Beyond A*: Better Planning with Transformers via Search Dyn
这篇论文前两个月刚刚放出，研究了如何让人工智能(AI)更好地解决复杂的规划问题,比如在迷宫中寻找最短路径,或者推箱子游戏(Sokoban)中把箱子全部推到指定位置。传统上,这类问题通常使用专门的规划算法来解决,比如A*搜索算法。但是,训练AI模型(如Transformer)来解决这些问题......
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and
Motivation&Abs端到端大规模视觉语言预训练的开销极大。为此，本文提出了BLIP2，利用现成的冻住的imageencoder以及LLM引导视觉语言预训练。模态差距：通过两阶段训练的轻量级的QueryTransformer（Q-Former）弥补。第一阶段：从冻结的imageencoder引导VL学习；第二阶段：从冻结的LLM引导视......
WPF grid column resize via GridSpitter, when you can drag to enlarge or shrink t
<Windowx:Class="WpfApp137.MainWindow"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d="http://schemas.microsoft......
Scalable Membership Inference Attacks via Quantile Regression
我们使用以下六个分类标准：动机：隐私问题：许多研究背后的主要动机是对机器学习模型相关的隐私风险日益增长的担忧。例如，Shokri等人(2017)和Carlini等人(2022)专注于开发和改进成员推理攻击，以评估模型对隐私泄露的脆弱性。模型理解：一些研究深入了解机器学习模型的固有属性。Y......
CLIP（Contrastive Language-Image Pre-training）
CLIP（ContrastiveLanguage-ImagePre-training）是一种多模态预训练神经网络模型，由OpenAI在2021年初发布469。CLIP的核心创新在于其能够将图像和文本映射到一个共享的向量空间中，使得模型能够理解图像和文本之间的语义关系1。CLIP模型的架构非常简洁，但在zero-shot文本-图像检索、z......

LISA: Reasoning Segmentation via Large Language Model

Motivation & Abs

Reasoning Segmentation

Method

Architecture

训练

实验

相关文章

赞助商

阅读排行