首页 > 其他分享 >多模态大模型

多模态大模型

时间:2024-04-27 21:46:12浏览次数:21  
标签:模态 模型 LLaVA 指令 LLM 图像

想了很久,最后还是写了这篇。

LLaVA

贡献

  1. 多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式,使用 ChatGPT/GPT-4 将图像 - 文本对转换为适当的指令格式;
  2. 大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA,开发了一个大型多模态模型(LMM)—— LLaVA,并在生成的视觉 - 语言指令数据上进行端到端微调。实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性,并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。使用 GPT-4,本文在 Science QA 这个多模态推理数据集上实现了最先进的性能。
  3. 开源。研究者向公众发布了以下资产:生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示。

方法

  • 使用 LLaMA 模型作为 Language Model \(f_φ\)
  • 使用线性层 \(W\) 将图像特征连接到词嵌入空间。在LLaVA 1.5中,该部分被替换为MLP。
  • 使用 ViT-L/14 作为 Vision Encoder \(g(·)\)

对于输入图像 \(X_v\) 与输入大语言模型的视觉标记 \(H_v\),有:

\[H_v = W \times Z_v = W \times g(X_v) \]

训练过程

LLaVA的训练分为两个阶段:

阶段1:特征对齐的预训练。

  • 只更新投影矩阵:在这个阶段,只有连接视觉编码器和语言模型的投影矩阵被更新。
  • 基于CC3M子集:这一阶段的训练是基于CC3M数据集的一个子集进行的。

阶段2:端到端的微调。更新投影矩阵和LLM:在这个阶段,投影矩阵和大型语言模型(LLM)都会被更新。

结果

研究者开发了一个聊天机器人示例产品,以展示 LLaVA 的图像理解和对话能力。

GPT-4V

CloseAI 的 GPT-4V 没有那么多公开的技术细节,只能看看他能做什么、能达到什么效果。

MiniGPT-4

MiniGPT-4 仅使用一个投影层将一个冻结的视觉编码器(BLIP-2)与一个冻结的 LLM(Vicuna)对齐。其实和LLaVA是差不多的。

VITRON

前面的那些模型都不能输出图像,这个是能输出图像的。

光看这个框架图是不是就明白了?它通过训练不同的Projection融合并让后面可以生成的图像。

模型架构

  • Core LLM Block:Vicuna (7B, version 1.5)
  • 输入:
    • 文本:常规LLM Embedding
    • 图像:CLIP ViT-L/14@336px,patch_size=14
    • 视频:先独立处理每个帧,再平均池化
    • 指令:与arXiv:2312.10032一致
  • Backend:看图中的表

模型训练

标签:模态,模型,LLaVA,指令,LLM,图像
From: https://www.cnblogs.com/xiangcaoacao/p/18162428

相关文章

  • 大语言模型(LLM)的逻辑推理能力的例子 —— 以ChatGPT3.5为例
    例子:......
  • 简单理解盒子模型
    1.什么叫盒子模型在html中大部分元素,特别是块元素display:block;都可以被看做一个盒子。网页布局就是一个一个盒子的平铺,堆叠,嵌套摆放。这么多的盒子放在一起,最重要的就是去关注他们的各种尺寸,边界等等,主要怕意料外的重叠一类导致的显示不正常。2.W3C和IE盒子模型指的什么?W3......
  • EPAI手绘建模APP资源管理和模型编辑器1
    (10) 资源① 打开资源管理页面。图 15 资源列表-模型 图 16 资源列表-图层 图 17 资源列表-相机 图 18 资源列表-灯光② 资源管理页面包括模型列表、图层列表、相机列表、灯光列表;包括颜色选择页面、贴图选择页面、材质选择页面、样式选择页面。③ 模型......
  • EPAI手绘建模APP模型库
    (9) 库① 打开手绘建模模型集。 图 11 手绘建模模型集② 宫格显示所有创建和保存的模型,每个模型包括模型图片文件、模型文件名称、模型文件大小、修改日期。③ 在收藏的模型的图片左上角用☆标记。④ 点击搜索按钮,进入搜索;输入搜索关键字,显示所有符合条件的模型。......
  • 盒模型
    盒模型box:盒子,每个格元素在页面中都会生成一个矩形区域(盒子)行盒在页面中不换行,块盒独占一行盒子的组成部分内容content填充padding边框border外边距margin扩展box-size:盒子尺寸,宽高范围background-clip:背景覆盖范围word-break:断词规则,影响文字在什么位置被截......
  • 实验12-使用keras预训练模型完成猫狗识别
    版本python3.7tensorflow版本为tensorflow-gpu版本2.6运行结果:这里我用Gpu进行加速,训练一回9秒,如果不启用gpu,训练一回会很慢。  代码:#-*-codeing=utf-8-*-#@Time:2022/10/211:44#@Author:程浩#@File:猫狗识别.py#@Software:PyCharmimporttensorflow......
  • 笔记本1050ti跑autoformer模型,环境搭建过程
    ##1、选显卡对应得驱动程序https://www.nvidia.com/Download/index.aspxnotebook是笔记本,下载类型选sd。不更新驱动会报:RuntimeError:TheNVIDIAdriveronyoursystemistooold(foundversion8000).PleaseupdateyourGPUdriverbydownloadingandinstallinganew......
  • 笔记本1050ti运行DLinear模型遇到的问题
    1、windows没法运行shgitbash可以,但我需要在conda环境中,使用sh运行脚本,所以应该在安装conda后,先配环境变量,然后在gitbash窗口中执行condainitbash,就可以用在bash窗口中通过condaactivate进入conda环境了。2、运行sh,报错加载不到模块看报错最后一行上面的模块,pipuninsta......
  • MATLAB用GARCH-EVT-Copula模型VaR预测分析股票投资组合
    全文链接:http://tecdat.cn/?p=30426原文出处:拓端数据部落公众号对VaR计算方法的改进,以更好的度量开放式基金的风险。本文把基金所持股票看成是一个投资组合,引入Copula来描述多只股票间的非线性相关性,构建多元GARCH-EVT-Copula模型来度量开放式基金的风险,并与其他VaR估计方法的预......
  • R语言估计时变VAR模型时间序列的实证研究分析案例|附代码数据
    原文链接: http://tecdat.cn/?p=3364原文出处:拓端数据部落公众号 最近我们被客户要求撰写关于时变VAR模型的研究报告,包括一些图形和统计输出。加载R包和数据集 加载包后,我们将此数据集中包含的12个心情变量进行子集化:  mood_data<-as.matrix(symptom_data$data[,......