首页 > 其他分享 >LISA(推理分割)笔记

LISA(推理分割)笔记

时间:2023-11-26 15:45:28浏览次数:29  
标签:分割 训练 boldsymbol 笔记 mathcal LISA txt 推理

title: LISA(推理分割)笔记
banner_img: https://cdn.studyinglover.com/pic/2023/08/10f885319b150cc20093124185e25c3b.png
index_img: https://cdn.studyinglover.com/pic/2023/08/ded90e7e3f84739b187dd679c39bd8dd.png
date: 2023-8-18 15:05:00
categories:
- 笔记
tags:
- 多模态

LISA(推理分割)笔记

简介

这篇论文题目中文翻译是 基于大型语言模型的语义分割, 提出了一个新任务-推理分割。大概就是给一张图和一段话,模型使用大语言模型分割出目标。作者给了一个例子,从图片中分割出富含维生素C的物品。

作者说这篇论文有三个贡献,提出了推理分割的任务,建立了一个推理分割基准,ReasonSeg, 还有训练了一个模型。

项目主页GitHub

LISA可以完成四种任务

  1. complex reasoning;
  2. world knowledge;
  3. explanatory answers;
  4. multi-turn conversation

模型架构

生成mask

这里作者提出了一些问题,就是大部分llm是不具备视觉能力,有视觉能力的泛化型不好还不好训练。相比之下,训练 LISA-7B 在 8 个 NVIDIA 24G 3090 GPU 上只需要 10,000 个训练步骤。(嗯8块3090)

image.png
模型结构就是上面这张图,右下角标了火花的就说明是需要训练或者微调的。首先扩充词表,加入<SEG> ,接下来给出一张图片\(x_{img}\)和一段文本\(x_{txt}\), 将他们送入大语言模型\(\mathcal{F}\) ,写成公式就是$$\hat{\boldsymbol{y}}{txt}=\mathcal{F}(x,\boldsymbol{x}_{txt}).$$
当LLM倾向于生成二进制分割掩码时,输出\(\hat{\boldsymbol{y}}_{txt}\)应该包含一个<SEG>令牌。所以提取最后一层嵌入\(\hat{h}_{seg}\) (因为他和<SEG> token 是相关的), 并用一个MLP \(\gamma\) 将其投影到\(h_{seg}\)。

同时,视觉编码器\(\mathcal{F_{enc}}\) 会从图片中提取出视觉特征\(\text{f}\) 。

最后\(h_{seg}\)和\(\text{f}\) 会被送入一个和SAM有相同架构的解码器,获得最后的mask.

整个过程表示出来就是$$\begin{gathered}\boldsymbol{h}{seg}=\gamma(\hat{\boldsymbol{h}}),\quad\boldsymbol{f}=\mathcal{F}{enc}(\boldsymbol{x}),\\hat{\boldsymbol{M}}=\mathcal{F}{dec}(\boldsymbol{h},\boldsymbol{f}).\end{gathered}$$

训练目标

训练目标是文本生成损失 \(\mathcal{L}_{txt}\) 和分割掩码损失 \(\mathcal{L}_{mask}\) 进行端到端训练。总体目标 \(L\) 是这些损失的加权和,由 \(\lambda_{txt}\) 和 \(\lambda_{mask}\) 确定$$\mathcal{L}=\lambda_{txt}\mathcal{L}{txt}+\lambda\mathcal{L}_{mask}.$$

训练

数据集

训练数据由三部分组成,都是开源数据集

  1. Semantic Segmentation Dataset
  2. Vanilla Referring Segmentation Dataset
  3. Visual Question Answering Dataset

值得注意的是,LISA具有zero-shot能力,因为训练集不包含任何推理分割的内容。

需要训练的参数

为了保持llm的泛化能力作者用了lora,解码器可以被微调,llm的词嵌入和投影最后一层潜入的mlp也可以微调

标签:分割,训练,boldsymbol,笔记,mathcal,LISA,txt,推理
From: https://www.cnblogs.com/studyinglover/p/17857329.html

相关文章

  • 进程间通信--学习笔记
    #进程间通信--pipe、FIFO、共享内存、消息队列、信号量pipe(无名管道)​ 只能实现有亲缘关系进程之间的通信,它是单向的,intpipe(intpiped[2])//创建管道fd[0]:读文件,fd[1]:写文件。之后可以用open()、write()函数进行对管道进行操作,创建管道要在fork()之前以保证......
  • 《信息安全系统设计与实现》第十二周学习笔记
    TCP/IP协议TCP/IP协议是一组通信协议,用于在计算机网络上实现数据传输。它是因特网的基础协议,也被广泛用于局域网(LAN)和广域网(WAN)。TCP/IP协议族由两个主要协议组成:传输控制协议(TCP)和互联网协议(IP)。这两个协议共同工作,以确保在网络上可靠、有序地传输数据。IP主机和IP地址:IP地......
  • 学习笔记11
    第十四章MYSQL实践mysql简介MySQL是一个开源数据库管理系统,由服务器和客户机组成。在将客户机连接到服务器后,用户可向服务器输入SQL命令,以便创建数据库,删除数据库,存储、组织和检索数据库中的数据。MySQL有广泛的应用。mysql安装在ubuntu中使用sudoaptinstallmysql-server......
  • I3D笔记
    title:I3D笔记banner_img:https://drive.studyinglover.com/api/raw/?path=/photos/blog/background/1679397045791.jpgdate:2023-4-2322:14:00I3D笔记I3D是一个视频理解模型,采用双流网络的架构,他的核心贡献是提出了如何对2d网络进行膨胀操作,同时提出了一个新的数据集Ki......
  • DSDN笔记
    title:Dual-StreamDiffusionNetforText-to-VideoGeneration笔记banner_img:https://cdn.studyinglover.com/pic/2023/08/b6f940f512488c10b7a1bf40eb242cae.pngindex_img:https://cdn.studyinglover.com/pic/2023/08/3021b6624ee4f2093c6166b6a80cd643.pngdate:2023......
  • DINO-v2笔记
    title:DINO-v2笔记banner_img:https://cdn.studyinglover.com/pic/2023/07/b5c4ecf9aa476ca1073f99b22fe9605e.jpgdate:2023-7-270:04:00categories:-文字生成图片DINO-v2笔记DINO-v2一种无监督学习的预训练方法,可以生成具有强大泛化能力的视觉特征,适用于各种图像分布......
  • CaltechCS122 笔记:Assignment 2: SQL Translation and Joins
    Assignment2:SQLTranslationandJoinsTranslationandjoinPlanNode及其子类,如图所示:......
  • MIT6.824 笔记:Lab2 Raft
    MIT6.824笔记:Lab2Raft环境配置goland环境配置同级目录下其他包无法引用,需要修改相关参数......
  • 《信息安全系统设计与实现》第十三周学习笔记
    第十四章MYSQL实践mysql简介MySQL是一个开源数据库管理系统,由服务器和客户机组成。在将客户机连接到服务器后,用户可向服务器输入SQL命令,以便创建数据库,删除数据库,存储、组织和检索数据库中的数据。MySQL有广泛的应用。mysql安装在ubuntu中使用sudoaptinstallmysql-server......
  • 信息安全系统设计与实现——学习笔记11
    任务详情:自学教材,提交学习笔记Part1知识点归纳&GPT提问知识点归纳1.TCP/IP协议TCP/IP协议:TCP代表传输控制协议。IP代表互联网协议。目前有两个版本的IP,即IPv4和IPv6,IPv4使用32位地址,IPv6使用128位地址。TCP/IP各个层级及使用的协议如下图所示:2.IP(1)IP协议ip协议用于在ip......