首页 > 其他分享 >多模态大模型调研

多模态大模型调研

时间:2023-08-22 19:34:43浏览次数:42  
标签:模态 训练 模型 arxiv https org pdf 调研

多模态+大语言模型

1. 将跨模态编码器等其它结构与LLM进行有机结合

Multimodal Few-Shot Learning with Frozen Language Models

https://arxiv.org/pdf/2106.13884.pdf

DeepMind,2021

固定llm的参数,把图片信息encode后当prefix与text拼接,论文中说llm的规模是7B

image

Flamingo

https://arxiv.org/pdf/2204.14198.pdf

固定llm,vision-encoder参数,额外添加两个可训练的部分:

(1)在Visual Encoder后加入了Perceiver Resampler模块,用于加强视觉表征;

(2)在LLM的每层之前加入了Gated xattn-dense模块用于加强跨模态信息交互。

image

BLIP-2

https://arxiv.org/pdf/2301.12597.pdf

固定llm,vision-encoder参数,添加了Q-former来将图片信息对齐到文本

训练分两阶段

阶段一:Q-former用bert-base参数初始化,设置三个训练目标联合训练

image

阶段二:vision-to-language generative

image

LLM使用OPT(2.7B,6.7B),FlanT5(XL,XXL)

MiniGPT-4

https://arxiv.org/pdf/2304.10592.pdf

主要强调高效,省钱

基于的LLM为Vicuna,vit和Q-former来自BLIP-2,能训的只有新加的一个线形层,4张A100训10小时

image

训练分两阶段:

  • 第一阶段预训练:pretraining

    • 使用Conceptual Caption、SBU和 LAION等几个数据集进行第一阶段的训练,batch size=256训练了2万步,大概覆盖了500万个image-text pairs,使用4张A100-80GB的GPU训练了10个小时
    • 经过第一阶段的pretrain,作者发现了一些模型很难产生连贯的语言输出的例子,而且会输出一些重复的单词或句子、支离破碎的句子或无关的内容;
  • 第二阶段微调:finetuning

    • finetune的prompts模板: ###$Human: < Img></ Img> \(###\)Assistant:$
    • 使用3500条高质量的数据集去finetune模型,使得模型的输出有更好的连贯性,更加符合对话场景;在单张A100-80GB的GPU上训练了7分钟

LLaVA

https://arxiv.org/pdf/2304.08485.pdf

CLIP+LLaMA

image

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

https://arxiv.org/pdf/2303.16199.pdf

LLaMA-Adapter是高效微调llama的一种方式,给transformer的后L层 layer 前面加 adapter

image

拓展到图文任务,把图文信息用encoder(CLIP)拼到adapter

image

2. 直接利用图像和文本信息训练得到的多模态大模型

Language Is Not All You Need: Aligning Perception with Language Models(KOSMOS-1)

https://arxiv.org/pdf/2302.14045.pdf

KOSMOS-1 1.6B 从0到1训练全部参数

image-20230822171139999

用special token标出文本中的图片特征

image

3. 其他思路

IMAGEBIND: One Embedding Space To Bind Them All

https://arxiv.org/pdf/2305.05665.pdf

将多种模态的信息编码到统一的一个表示空间,每个模态一个encoder,让image与每个模态都进行对比学习,6种模态靠image连接起来

标签:模态,训练,模型,arxiv,https,org,pdf,调研
From: https://www.cnblogs.com/shiiiilong/p/17649483.html

相关文章

  • Apipost数据模型功能详解
    在API设计和开发过程中,存在许多瓶颈,其中一个主要问题是在遇到相似数据结构的API时会产生重复性较多的工作:在每个API中都编写相同的数据,这不仅浪费时间和精力,还容易出错并降低API的可维护性。为了解决这个问题,Apipost推出了数据模型板块。用户可以预先创建多个数据模型,并在API设计过......
  • 鼎友餐饮信息总监杨山海:餐饮新增长依托数智应用,用数字化打造单店盈利模型
    杨山海鼎友餐饮信息总监近20年餐饮行业信息化、数字化决策经验,曾担任新辣道、雕刻时光、青年餐厅、快乐蜂、鲜果时间信数化负责人,主抓数字化转型、系统选型、多接口系统管理等,拥有丰富的餐饮行业数字化转型经验。2000年,杨山海从邯郸进京边学习边打工,经过杨闻钟老师指导和点拨,完成......
  • Apipost数据模型功能详解
    在API设计和开发过程中,存在许多瓶颈,其中一个主要问题是在遇到相似数据结构的API时会产生重复性较多的工作:在每个API中都编写相同的数据,这不仅浪费时间和精力,还容易出错并降低API的可维护性。为了解决这个问题,Apipost推出了数据模型板块。用户可以预先创建多个数据模型,并在API设计......
  • 【双目相机产品调研整理】22/12/01
    ......
  • 【动态结构光双目相机调研】22/11/24
    ......
  • 科大讯飞AI大模型,太猛了!
    最近几个月,以ChatGPT为代表的AIGC迅速崛起,国内头部科技企业之间也掀起了百模大战,在众多的大模型当中我比较看好的一家就是:科大讯飞。我很早就通过科大讯飞老朋友,拿到了体验账号,简单体验了一下,谈谈我的具体感受吧。(我找科大讯飞星火大模型的一个朋友申请了一个专属申请链接:点击申......
  • 科大讯飞AI大模型,太猛了!
    最近几个月,以ChatGPT为代表的AIGC迅速崛起,国内头部科技企业之间也掀起了百模大战,在众多的大模型当中我比较看好的一家就是:科大讯飞。我很早就通过科大讯飞老朋友,拿到了体验账号,简单体验了一下,谈谈我的具体感受吧。(我找科大讯飞星火大模型的一个朋友申请了一个专属申请链接:点击申......
  • NLP与大模型主题全国师资培训班落地,飞桨持续赋能AI人才培养
    为了推动大模型及人工智能相关专业人员的培养,8月11日-8月13日,由中国计算机学会主办、机械工业出版社、北京航空航天大学、百度飞桨联合承办“CCF群星计划之文心高校行-NLP与大模型”主题师资培训班(以下简称培训班)在北京天信亮酒店圆满举办。来自全国各地46所高校、38个人工智能及......
  • 手把手教你在云环境炼丹:Stable Diffusion LoRA 模型保姆级炼制教程
    很多同学都想要自己的专属AI模型,但是大模型的训练比较费时费力,不太适合普通用户玩。AI开发者们也意识到了这个问题,所以就产生了微调模型,LoRA就是其中的一种。在AI绘画领域,只需要少量的一些图片,就可以训练出一个专属风格的LoRA模型,比如某人的脸、某个姿势、某种画风、某种物体,等......
  • 【校招VIP】测试专业课之TCP/IP模型
    考点介绍:大厂测试校招面试里经常会出现TCP/IP模型的考察,TCP/IP协议是网络基础知识,但是在校招面试中很多同学在基础回答中不到位,或者倒在引申问题里,就丢分了。一、考点题目1.TCP是网络传输的常用协议,下面为TCP的描述,哪项是不正确的()A.TCP提供一种面向连接的、可靠的字节流服务......