首页 > 其他分享 >【论文阅读笔记】多模态大语言模型必读 —— LLaVA

【论文阅读笔记】多模态大语言模型必读 —— LLaVA

时间:2024-11-20 16:19:05浏览次数:1  
标签:模态 mathbf 模型 instruction LLaVA 必读 图像 following mathrm

论文地址:https://arxiv.org/abs/2304.08485
代码地址:https://github.com/haotian-liu/LLaVA

image

目录

简介

人类对于世界的认知是通过视觉、语言多个途径的,因此设计出能够遵循多模态的视觉和语言指令的通用大模型成为了人工智能领域的核心目标之一。

当前,很多工作已经在视觉大模型方面取得成就,不过每一种任务(如分类、分割、图像生成编辑等)均由不同的 LVM 完成,且语言仅用于描述图像,这导致了我们不能很好地与模型进行交互,模型也缺失适应复杂指令的能力。

除此之外,LLM 展示出了语言的强大能力,各种各样的任务都可以通过指令来进行端到端的训练,很多模型如 GPT-4 应用了高质量的 instruction-following 数据,模型可以根据不同的指令来完成不同的任务。不过这些方法仅限于语言。

作者在 LLaVA 中将语言的微调方式推广到多模态大模型,具体来说本篇论文有以下 contributions:

  1. Multimodal instruction-following data. 利用 ChatGPT/GPT-4,将图像-文本对转化为了 instruction-following 形式的数据。
  2. Large multimodal models. 利用 CLIP 和 Vicuma 设计了一种 LMM,在科学 QA 上得到了 SOTA。
  3. Multimodal instruction-following benchmark. (LLaVA-Bench)
  4. Open-source.

Visual Instruction 数据生成

作者团队基于已有的图像-文本对数据,利用 ChatGPT/GPT-4 进行数据的扩充。

首先根据图像 \(X_v\) 以及相应的描述 \(X_c\),GPT 可以生成一个问题 \(X_q\),此时可以得到一轮对话数据:

Human : Xq, Xv <STOP>
Assistant : Xc <STOP>

不过只有上面简单的对话不能使模型学习到深层次的推理能力,因此作者团队应用 GPT 进行了包含视觉信息的 instruction-following 数据扩充。分为两种符号表示:

  • Captions:从多个角度细致地描述视觉场景
  • Bounding boxes:指出了每个物体的名称以及位置

此时视觉模型转化为了 LLM 可以理解的文本信息。作者团队接着基于 COCO 数据集生成了三种 instruction-following 数据(对话、细节描述、复杂推理)。对于每一种首先手工设计一些样例,然后以此作为 in-context 学习的模板询问 GPT-4 生成更多相关的数据。

image

作者总共收集了 158K 个单独的语言-图像指令跟随样本,包括 58K 个对话、23K 个细节描述、77K 个复杂推理。

视觉指令微调

模型架构

image

其中,\(X_v\) 是输入图像,Vision Encoder 使用预训练的 ViT-L/14,大语言模型 \(f_\phi\) 使用 Vicuna,\(W\) 是可训练的投影矩阵,\(H_v\) 和 \(H_q\) 分别为视觉和文本 token;对于输入图像,转化公式为:

\[\mathbf{H}_{\mathrm{v}}=\mathbf{W}\cdot\mathbf{Z}_{\mathrm{v}},\mathrm{~with~}\mathbf{Z}_{\mathrm{v}}=g(\mathbf{X}_{\mathrm{v}}) \]

训练

对于输入图片 \(X_v\),可以生成多轮对话:\((\mathbf{X_q^1},\mathbf{X_a^1},\cdots,\mathbf{X_q^T},\mathbf{X_a^T})\),则第 \(t\) 轮的指令为:

\(\mathbf{X}_{{\mathrm{instruct}}}^{t}=\begin{cases}&\text{Randomly choose }[\mathbf{X}_{{\mathrm{q}}}^{1},\mathbf{X}_{{\mathrm{v}}}]\ \ \mathrm{or~}[\mathbf{X}_{{\mathrm{v}}},\mathbf{X}_{{\mathrm{q}}}^{1}],\ \mathrm{the~first~turn~}t=1\\&\mathbf{X}_{{\mathrm{q}}}^{t},\qquad \qquad \qquad \qquad \qquad\qquad\mathrm{the~remaining~turns~}t>1&&\end{cases}\)

并利用其自身的自回归结构进行 next token prediction,也就是说,对于任何一个长度为 \(L\) 的序列,我们通过如下公式计算:

\[p(\mathbf{X_a}|\mathbf{X_v},\mathbf{X_{instruct}})=\prod_{i=1}^Lp_{\boldsymbol{\theta}}({\textcolor{green}{x_i}}|\mathbf{X_v},\mathbf{X_{instruct,<i}},\mathbf{X_{a,<i}}), \]

输入输出以下图方式组织,只有绿色部分才会参与计算 loss。

image

对于 LLaVA 的训练采用了两阶段的策略:

  1. Pre-training for Feature Alignment. 作者首先从 CC3M 筛选出 595K 的图像文本,然后利用第二节介绍的普通方法扩充为 instruction-following 数据。该阶段冻结 LLM 以及 Vision Encoder,只训练 \(W\)。
  2. Fine-tuning End-to-End. 该阶段训练 \(W\) 和 LLM,
    • 利用 158K 的指令追随样本训练一个多模态 Chatbot
    • 利用 ScienceQA benchmark,输入为文本或图像的单轮对话

标签:模态,mathbf,模型,instruction,LLaVA,必读,图像,following,mathrm
From: https://www.cnblogs.com/keanshi/p/18546654

相关文章

  • 29套AI全栈大模型项目实战,人工智能视频课程-多模态大模型
    29套AI全栈大模型项目实战:探索人工智能视频课程中的多模态大模型随着人工智能技术的飞速发展,多模态大模型已成为当前研究的热点。这类模型能够同时处理和理解来自多种模态的信息,如文本、图像、音频和视频等,从而在复杂场景中展现出更强的智能。为了帮助广大开发者掌握这一前沿技术......
  • 【FreedomMan原创】本地离线部署通义千问2-VL多模态大模型推理【图生文】
    开发环境、工具windows10专业版idea2020.1.4、anaconda3、python3.11.10机器配置I5-1240P、16GRAM模型名称通义千问Qwen/Qwen2-VL-2B-Instruct-GPTQ-Int8代码调用示例本机无cudn显卡,使用cpu推理调用fromtransformersimportQwen2VLForConditionalGeneration,Auto......
  • VLM版o1超越一众开源和闭源模型!LLaVA-o1:多阶段自主推理(北大&清华&阿里等)
    论文链接:https://arxiv.org/abs/2411.10440亮点直击引入了LLaVA-o1,这是一种专为系统性推理设计的视觉语言模型,在需要结构化思维和推理的任务中表现出色。证明了LLaVA-o1使用阶段级束搜索具有推理时的可扩展性。这意味着通过增加计算资源,本文的方法性能可以进一步提......
  • 清华姚班校友马腾宇,发布了他的首个多模态嵌入模型:「多模态检索」实现SOTA
    清华姚班校友马腾宇和他的团队,推出了自创业以来的首个多模态嵌入模型voyage-multimodal-3,而且发布即“SOTA”。据介绍,在对3个多模态检索任务(共20个数据集)进行评估时,voyage-multimodal-3比第二名平均高出了19.63%的检索准确率。这是为包含丰富视觉和文本的文档提供......
  • 多模态大模型LLM与AIGC前沿技术实战,基于训练数据和生成算法模型
    多模态大模型LLM与AIGC前沿技术实战,基于训练数据和生成算法模型在当今人工智能领域,多模态大模型LLM(大型语言模型)与AIGC(人工智能生成内容)正以前所未有的发展态势,引领着技术革新的浪潮。它们的强大能力背后,训练数据和生成算法模型起着至关重要的作用,深入探究这两方面并了解其在实......
  • AI多模态的5大核心关键技术,让高端制造实现智能化管理
    结合思通数科的大模型应用场景,可以通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。大模型能够识别、拆解并分类零部件及其维修保养方法,建立零件与耗材的关系网络,构建出一个庞大的数据库。这种基于多模态技术和语义理解的能力,......
  • 多模态大模型(2)--BLIP
    大模型如火如荼,研究者们已经不再满足于基本文本的大语言模型(LLM,LargeLanguageModel),AI领域的热点正逐步向多模态转移,具备多模态能力的多模态大型语言模型(MM(Multi-Modal)-LLM)就成了一个备受关注的研究主题。BLIP(BootstrappingLanguage-ImagePretraining)是由Salesforce在2......
  • 论文风向变了【迁移学习+多模态融合】才是王道
    2024发论文&模型涨点之——迁移学习+多模态融合当迁移学习和多模态融合相结合时,主要是利用迁移学习的优势来提升多模态融合模型的性能,或者利用多模态数据进行更有效的迁移学习。例如,在一个既有图像又有文本的多模态情感分析任务中,可以先在一个大规模的单模态(如图像情感分类或......
  • LLM - 计算 多模态大语言模型 的参数量(Qwen2-VL、Llama-3.1) 教程
    欢迎关注我的CSDN:https://spike.blog.csdn.net/本文地址:https://spike.blog.csdn.net/article/details/143749468免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。影响(多模态)大语言模型参数量的主要网络模块,即Linear、Embedding、Norm(......
  • OCR+多模态数据技术,赋能海洋数据智能处理
        海洋是推动高质量发展的关键区域,也是人类未来发展的宝库。然而,我们对海洋生态系统的深入理解尚不足5%。海洋大数据,通过观测、监测、调查、分析和统计等手段获得,已成为我们探索海洋世界的主要工具。        如图1所示,随着全球海洋立体观测网络的不断......