多模态大模型

多模态大模型

时间：2024-04-27 21:46:12浏览次数：33

标签：模态模型 LLaVA 指令 LLM 图像

想了很久，最后还是写了这篇。

LLaVA

贡献

多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式，使用 ChatGPT/GPT-4 将图像 - 文本对转换为适当的指令格式；
大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA，开发了一个大型多模态模型（LMM）—— LLaVA，并在生成的视觉 - 语言指令数据上进行端到端微调。实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性，并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。使用 GPT-4，本文在 Science QA 这个多模态推理数据集上实现了最先进的性能。
开源。研究者向公众发布了以下资产：生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示。

方法

使用 LLaMA 模型作为 Language Model $f_φ$
使用线性层 $W$ 将图像特征连接到词嵌入空间。在LLaVA 1.5中，该部分被替换为MLP。
使用 ViT-L/14 作为 Vision Encoder $g(·)$

对于输入图像 $X_v$ 与输入大语言模型的视觉标记 $H_v$，有:

\[H_v = W \times Z_v = W \times g(X_v) \]

训练过程

LLaVA的训练分为两个阶段：

阶段1：特征对齐的预训练。

只更新投影矩阵：在这个阶段，只有连接视觉编码器和语言模型的投影矩阵被更新。
基于CC3M子集：这一阶段的训练是基于CC3M数据集的一个子集进行的。

阶段2：端到端的微调。更新投影矩阵和LLM：在这个阶段，投影矩阵和大型语言模型（LLM）都会被更新。

结果

研究者开发了一个聊天机器人示例产品，以展示 LLaVA 的图像理解和对话能力。

GPT-4V

CloseAI 的 GPT-4V 没有那么多公开的技术细节，只能看看他能做什么、能达到什么效果。

MiniGPT-4

MiniGPT-4 仅使用一个投影层将一个冻结的视觉编码器（BLIP-2）与一个冻结的 LLM（Vicuna）对齐。其实和LLaVA是差不多的。

VITRON

前面的那些模型都不能输出图像，这个是能输出图像的。

光看这个框架图是不是就明白了？它通过训练不同的Projection融合并让后面可以生成的图像。

模型架构

Core LLM Block：Vicuna (7B, version 1.5)
输入：
- 文本：常规LLM Embedding
- 图像：CLIP ViT-L/14@336px，patch_size=14
- 视频：先独立处理每个帧，再平均池化
- 指令：与arXiv:2312.10032一致
Backend：看图中的表

模型训练

标签：模态,模型,LLaVA,指令,LLM,图像
From： https://www.cnblogs.com/xiangcaoacao/p/18162428

大语言模型（LLM）的逻辑推理能力的例子 —— 以ChatGPT3.5为例
例子：......
简单理解盒子模型
1.什么叫盒子模型在html中大部分元素，特别是块元素display:block;都可以被看做一个盒子。网页布局就是一个一个盒子的平铺，堆叠，嵌套摆放。这么多的盒子放在一起，最重要的就是去关注他们的各种尺寸，边界等等，主要怕意料外的重叠一类导致的显示不正常。2.W3C和IE盒子模型指的什么？W3......
EPAI手绘建模APP资源管理和模型编辑器1
(10) 资源① 打开资源管理页面。图 15 资源列表-模型图 16 资源列表-图层图 17 资源列表-相机图 18 资源列表-灯光② 资源管理页面包括模型列表、图层列表、相机列表、灯光列表；包括颜色选择页面、贴图选择页面、材质选择页面、样式选择页面。③ 模型......
EPAI手绘建模APP模型库
(9) 库① 打开手绘建模模型集。图 11 手绘建模模型集② 宫格显示所有创建和保存的模型，每个模型包括模型图片文件、模型文件名称、模型文件大小、修改日期。③ 在收藏的模型的图片左上角用☆标记。④ 点击搜索按钮，进入搜索；输入搜索关键字，显示所有符合条件的模型。......
盒模型
盒模型box：盒子，每个格元素在页面中都会生成一个矩形区域（盒子）行盒在页面中不换行，块盒独占一行盒子的组成部分内容content填充padding边框border外边距margin扩展box-size:盒子尺寸，宽高范围background-clip：背景覆盖范围word-break：断词规则，影响文字在什么位置被截......
实验12-使用keras预训练模型完成猫狗识别
版本python3.7tensorflow版本为tensorflow-gpu版本2.6运行结果：这里我用Gpu进行加速，训练一回9秒，如果不启用gpu，训练一回会很慢。代码：#-*-codeing=utf-8-*-#@Time:2022/10/211:44#@Author:程浩#@File:猫狗识别.py#@Software:PyCharmimporttensorflow......
笔记本1050ti跑autoformer模型，环境搭建过程
##1、选显卡对应得驱动程序https://www.nvidia.com/Download/index.aspxnotebook是笔记本，下载类型选sd。不更新驱动会报：RuntimeError:TheNVIDIAdriveronyoursystemistooold(foundversion8000).PleaseupdateyourGPUdriverbydownloadingandinstallinganew......
笔记本1050ti运行DLinear模型遇到的问题
1、windows没法运行shgitbash可以，但我需要在conda环境中，使用sh运行脚本，所以应该在安装conda后，先配环境变量，然后在gitbash窗口中执行condainitbash，就可以用在bash窗口中通过condaactivate进入conda环境了。2、运行sh，报错加载不到模块看报错最后一行上面的模块，pipuninsta......
MATLAB用GARCH-EVT-Copula模型VaR预测分析股票投资组合
全文链接：http://tecdat.cn/?p=30426原文出处：拓端数据部落公众号对VaR计算方法的改进，以更好的度量开放式基金的风险。本文把基金所持股票看成是一个投资组合，引入Copula来描述多只股票间的非线性相关性，构建多元GARCH-EVT-Copula模型来度量开放式基金的风险，并与其他VaR估计方法的预......
R语言估计时变VAR模型时间序列的实证研究分析案例|附代码数据
原文链接： http://tecdat.cn/?p=3364原文出处：拓端数据部落公众号最近我们被客户要求撰写关于时变VAR模型的研究报告，包括一些图形和统计输出。加载R包和数据集加载包后，我们将此数据集中包含的12个心情变量进行子集化： mood_data<-as.matrix(symptom_data$data[,......