多模态大模型调研

时间：2023-08-22 19:34:43浏览次数：47

标签：模态训练模型 arxiv https org pdf 调研

多模态+大语言模型

1. 将跨模态编码器等其它结构与LLM进行有机结合

Multimodal Few-Shot Learning with Frozen Language Models

https://arxiv.org/pdf/2106.13884.pdf

DeepMind，2021

固定llm的参数，把图片信息encode后当prefix与text拼接，论文中说llm的规模是7B

Flamingo

https://arxiv.org/pdf/2204.14198.pdf

固定llm，vision-encoder参数，额外添加两个可训练的部分：

（1）在Visual Encoder后加入了Perceiver Resampler模块，用于加强视觉表征；

（2）在LLM的每层之前加入了Gated xattn-dense模块用于加强跨模态信息交互。

BLIP-2

https://arxiv.org/pdf/2301.12597.pdf

固定llm，vision-encoder参数，添加了Q-former来将图片信息对齐到文本

训练分两阶段

阶段一：Q-former用bert-base参数初始化，设置三个训练目标联合训练

阶段二：vision-to-language generative

LLM使用OPT（2.7B，6.7B），FlanT5（XL，XXL）

MiniGPT-4

https://arxiv.org/pdf/2304.10592.pdf

主要强调高效，省钱

基于的LLM为Vicuna，vit和Q-former来自BLIP-2，能训的只有新加的一个线形层，4张A100训10小时

训练分两阶段：

第一阶段预训练：pretraining
- 使用Conceptual Caption、SBU和 LAION等几个数据集进行第一阶段的训练，batch size=256训练了2万步，大概覆盖了500万个image-text pairs，使用4张A100-80GB的GPU训练了10个小时；
- 经过第一阶段的pretrain，作者发现了一些模型很难产生连贯的语言输出的例子，而且会输出一些重复的单词或句子、支离破碎的句子或无关的内容；
第二阶段微调：finetuning
- finetune的prompts模板： ###$Human: < Img></ Img> $###$Assistant:$
- 使用3500条高质量的数据集去finetune模型，使得模型的输出有更好的连贯性，更加符合对话场景；在单张A100-80GB的GPU上训练了7分钟

LLaVA

https://arxiv.org/pdf/2304.08485.pdf

CLIP+LLaMA

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

https://arxiv.org/pdf/2303.16199.pdf

LLaMA-Adapter是高效微调llama的一种方式，给transformer的后L层 layer 前面加 adapter

拓展到图文任务，把图文信息用encoder（CLIP）拼到adapter

2. 直接利用图像和文本信息训练得到的多模态大模型

Language Is Not All You Need: Aligning Perception with Language Models（KOSMOS-1）

https://arxiv.org/pdf/2302.14045.pdf

KOSMOS-1 1.6B 从0到1训练全部参数

用special token标出文本中的图片特征

3. 其他思路

IMAGEBIND: One Embedding Space To Bind Them All

https://arxiv.org/pdf/2305.05665.pdf

将多种模态的信息编码到统一的一个表示空间，每个模态一个encoder，让image与每个模态都进行对比学习，6种模态靠image连接起来

标签：模态,训练,模型,arxiv,https,org,pdf,调研
From： https://www.cnblogs.com/shiiiilong/p/17649483.html

Apipost数据模型功能详解
在API设计和开发过程中，存在许多瓶颈，其中一个主要问题是在遇到相似数据结构的API时会产生重复性较多的工作：在每个API中都编写相同的数据，这不仅浪费时间和精力，还容易出错并降低API的可维护性。为了解决这个问题，Apipost推出了数据模型板块。用户可以预先创建多个数据模型，并在API设计过......
鼎友餐饮信息总监杨山海：餐饮新增长依托数智应用，用数字化打造单店盈利模型
杨山海鼎友餐饮信息总监近20年餐饮行业信息化、数字化决策经验，曾担任新辣道、雕刻时光、青年餐厅、快乐蜂、鲜果时间信数化负责人，主抓数字化转型、系统选型、多接口系统管理等，拥有丰富的餐饮行业数字化转型经验。2000年，杨山海从邯郸进京边学习边打工，经过杨闻钟老师指导和点拨，完成......
Apipost数据模型功能详解
在API设计和开发过程中，存在许多瓶颈，其中一个主要问题是在遇到相似数据结构的API时会产生重复性较多的工作：在每个API中都编写相同的数据，这不仅浪费时间和精力，还容易出错并降低API的可维护性。为了解决这个问题，Apipost推出了数据模型板块。用户可以预先创建多个数据模型，并在API设计......
【双目相机产品调研整理】22/12/01
......
【动态结构光双目相机调研】22/11/24
......
科大讯飞AI大模型，太猛了！
最近几个月，以ChatGPT为代表的AIGC迅速崛起，国内头部科技企业之间也掀起了百模大战，在众多的大模型当中我比较看好的一家就是：科大讯飞。我很早就通过科大讯飞老朋友，拿到了体验账号，简单体验了一下，谈谈我的具体感受吧。（我找科大讯飞星火大模型的一个朋友申请了一个专属申请链接：点击申......
科大讯飞AI大模型，太猛了！
最近几个月，以ChatGPT为代表的AIGC迅速崛起，国内头部科技企业之间也掀起了百模大战，在众多的大模型当中我比较看好的一家就是：科大讯飞。我很早就通过科大讯飞老朋友，拿到了体验账号，简单体验了一下，谈谈我的具体感受吧。（我找科大讯飞星火大模型的一个朋友申请了一个专属申请链接：点击申......
NLP与大模型主题全国师资培训班落地，飞桨持续赋能AI人才培养
为了推动大模型及人工智能相关专业人员的培养，8月11日-8月13日，由中国计算机学会主办、机械工业出版社、北京航空航天大学、百度飞桨联合承办“CCF群星计划之文心高校行-NLP与大模型”主题师资培训班（以下简称培训班）在北京天信亮酒店圆满举办。来自全国各地46所高校、38个人工智能及......
手把手教你在云环境炼丹：Stable Diffusion LoRA 模型保姆级炼制教程
很多同学都想要自己的专属AI模型，但是大模型的训练比较费时费力，不太适合普通用户玩。AI开发者们也意识到了这个问题，所以就产生了微调模型，LoRA就是其中的一种。在AI绘画领域，只需要少量的一些图片，就可以训练出一个专属风格的LoRA模型，比如某人的脸、某个姿势、某种画风、某种物体，等......
【校招VIP】测试专业课之TCP/IP模型
考点介绍：大厂测试校招面试里经常会出现TCP/IP模型的考察，TCP/IP协议是网络基础知识，但是在校招面试中很多同学在基础回答中不到位，或者倒在引申问题里，就丢分了。一、考点题目1.TCP是网络传输的常用协议，下面为TCP的描述，哪项是不正确的（）A.TCP提供一种面向连接的、可靠的字节流服务......