首页 > 其他分享 >多模态大语言模型首篇综述

多模态大语言模型首篇综述

时间:2023-07-05 14:12:32浏览次数:33  
标签:模态 综述 首篇 模型 MLLM 指令 LLM 推理

近来,多模态大语言模型(Multimodal Large Language Model,MLLM)受到广泛关注,成为一个新兴的研究热点。

MLLM通常以大语言模型(Large Language Model,LLM)为基础,融入其它非文本的模态信息,完成各种多模态任务。

图片

相比于常规的多模态模型,MLLM涌现出一些令人惊叹的新能力,例如基于图片进行诗文创作和OCR-Free的数学推理等。这些强大的能力显示MLLM有望成为实现通用人工智能的一种途径。

为此,来自中科大、腾讯等机构的研究人员深入探讨了MLLM的研究进展并发表了该领域的首篇综述《A Survey on Multimodal Large Language Models》:

图片

论文链接:https://arxiv.org/pdf/2306.13549.pdf

图片

项目链接(实时更新最新论文):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

研究人员将MLLM定义为「由LLM扩展而来的具有接收与推理多模态信息能力的模型」,该类模型相较于热门的单模态LLM具有以下的优势:

1. 更符合人类认知世界的习惯。人类具有多种感官来接受多种模态信息,这些信息通常是互为补充、协同作用的。因此,使用多模态信息一般可以更好地认知与完成任务。

2. 更加强大与用户友好的接口。通过支持多模态输入,用户可以通过更加灵活的方式输入与传达信息。

3. 更广泛的任务支持。LLM通常只能完成纯文本相关的任务,而MLLM通过多模态可以额外完成更多任务,如图片描述和视觉知识问答等。

该综述主要围绕MLLM的三个关键技术以及一个应用展开,包括:

1. 多模态指令微调(Multimodal Instruction Tuning,M-IT)

2. 多模态上下文学习(Multimodal In-Context Learning,M-ICL)

3. 多模态思维链(Multimodal Chain of Thought,M-CoT)

4. LLM辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)

前三项技术构成了MLLM的基础,而最后一个是以LLM为核心的多模态系统。

三项技术作为LLM的代表性能力在NLP领域已有广泛研究,但扩展到多模态领域时会出现许多新的特点与挑战。

LLM辅助的视觉推理系统涉及几种典型的设计思路,即将LLM作为控制器、决策器或语义修饰器。

CVPR 2023最佳论文Visual Programming [1]即采用了将LLM作为控制器的设计思路。本文将对前述的几个方面以及相关挑战做简单的概览,更丰富的内容请参考原文。

多模态指令微调 M-IT

指令(Instruction)指的是对任务的描述,多模态指令微调是一种通过指令格式的数据(Instruction-formatted data)来微调预训练的MLLM的技术。

通过该技术,MLLM可以跟随新的指令泛化到未见过的任务上,提升zero-shot性能。多模态的指令格式如下所示:

图片

图1.M-IT格式

多模态指令数据的基本形式可以概括为(指令,多模态输入,回答)三元组。指令的设计可以分为手工设计与GPT辅助设计这两种方式。

前者指的是人工为每种任务设计一系列指令模板,比如对于传统的视觉问答任务,指令可以设计为「<image> What is the answer to the question? {question}」,其中<image>和{question}(对应着图1中的<text>)为原有视觉问答任务中的图像和问题。

另一种GPT辅助设计的方式是通过手工设计少量样例来Prompt GPT生成更丰富的指令。

对于多模态指令微调,研究人员从数据、模态桥接(Modality Bridging)和评测三个方面对现有工作进行了总结,如下图所示:

图片

图2.M-IT总结

多模态上下文学习 M-ICL

多模态上下文学习指的是给定少量样例作为Prompt输入,激发模型潜在的能力并规范化模型的输出。其样例如下图所示:

图片

图3.M-CoT样例

目前以Flamingo[2]为代表的M-ICL相关的研究工作还比较少。

LLM通常不需要专门的训练即可拥有ICL能力,但现阶段的MLLM还比较依赖训练,并且仍缺乏对样例选择和样例顺序等方面的深入研究。

多模态思维链 M-CoT

多模态思维链通过显示地逐步推理(给出中间的推理步骤)来获得多模态任务的答案。相比于直接输出答案,M-CoT在较为复杂的推理任务上能够取得更好的表现。

研究人员从模态桥接(Modality Bridging)、学习范式、思维链配置以及生成模式这四个方面总结了当前的研究:

图片

图4. M-CoT总结

目前M-CoT的研究也较少,仍处在初步探索阶段。

LLM辅助的视觉推理 LAVR

这类工作利用LLM强大的内嵌知识与能力以及其他工具,设计各种视觉推理系统。

相比于传统视觉推理模型,这些工作具有以下的好的特性:

(1)强大的零/少样本泛化能力

(2)具备新的能力,这些系统能够执行更加复杂的任务,如解读梗图的深层含义

(3)更好的互动性与可控性

研究人员从训练范式、LLM扮演的角色以及评测三个部分总结了当前的进展:

图片

图5.LAVR总结

挑战和未来方向

目前来看,MLLM的发展还处于起步阶段,无论是相关技术还是具体应用都还存在着许多挑战与可研究的问题,可以总结为以下几点:

1. 现有MLLM的感知能力受限,导致获取的视觉信息不完整或者有误,并进一步使得后续的推理出错。这可能是因为现有模型在信息容量和计算负担之间的妥协造成的。

2. MLLM的推理链较为脆弱。表现为即使是做简单的多模态推理问题,模型有时仍会因为推理链条断裂导致输出错误答案。

3. MLLM的指令服从能力需要进一步提升。表现为在进行指令微调后,即使是较为简单的指令,部分MLLM仍然无法输出预期的答案。

4. 物体幻视问题普遍存在。表现为MLLM输出的回复与图片的内容不相符,出现了编造物体等现象,影响了MLLM的可靠性。

5. 高效参数训练。由于MLLM的模型容量很大,在计算资源受限的条件下,高效参数训练有望能够解锁更多MLLM的能力。

上述前四点问题在与本文同系列的论文(https://arxiv.org/pdf/2306.13394.pdf)中有非常详细的评测和讨论,欢迎大家阅读。

除了上述问题外,MLLM在具体的子方向上也都只进行了初步探索,比如M-ICL目前仍然缺乏对样本选取以及排序的深入研究。

参考资料:
[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023 
[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019

标签:模态,综述,首篇,模型,MLLM,指令,LLM,推理
From: https://www.cnblogs.com/botai/p/Multimodal-Large-Language-Models.html

相关文章

  • 大型语言模型与知识图谱协同研究综述
    大型语言模型(LLM)已经很强了,但还可以更强。通过结合知识图谱,LLM有望解决缺乏事实知识、幻觉和可解释性等诸多问题;而反过来LLM也能助益知识图谱,让其具备强大的文本和语言理解能力。而如果能将两者充分融合,我们也许还能得到更加全能的人工智能。今天我们将介绍一篇综述LLM与知......
  • 微调7B模型只用单GPU!通用多模态工具LLaMA-Adapter拆掉门槛,效果惊人
    前言 开源万能模型微调工具LLaMA-Adapter发布,支持多模态输入输出。本文转载自新智元仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【CV技术指南......
  • R语言从经济时间序列中用HP滤波器,小波滤波和经验模态分解等提取周期性成分分析|附代码
    全文下载链接:http://tecdat.cn/?p=9350最近我们被客户要求撰写关于经济时间序列的研究报告,包括一些图形和统计输出。经济时间序列的分析通常需要提取其周期性成分。这篇文章介绍了一些方法,可用于将时间序列分解为它们的不同部分 ( 点击文末“阅读原文”获取完整代码数据*******......
  • matlab中使用VMD(变分模态分解)对信号去噪|附代码数据
    原文链接:http://tecdat.cn/?p=12486最近我们被客户要求撰写关于VMD的研究报告,包括一些图形和统计输出。创建一个以4kHz采样的信号,类似于拨打数字电话的所有键拨号音信号的变模分解将信号另存为MATLAB®时间数据。 fs = 4e3;t = 0:1/fs:0.5-1/fs;绘制时间表的变分模......
  • 基于DSP的设备振动信号的采集技术方案综述
    前记 在能源领域,由于很多地方都是无人值守,设备故障检测是一个必须面对的问题。笔者通过几个行业案例了解到,由于很多设备发生故障时候会产生特定频谱的声音,所以该行业对振动监测的需求特别强烈,由于涉及到个性化的算法处理,市面上此类的解决方案特别少。笔者希望把最近的研发成果梳......
  • 多模态大语言模型 LlaVA 论文解读:Visual Instruction Tuning
    代码:https://github.com/haotian-liu/LLaVA总览在这篇论文中,作者首次尝试使用纯语言GPT-4生成多模态语言图像指令遵循数据(insruction-followingdata)。通过对此类生成数据进行指令调整,推出了大型语言和视觉助手(LargeLanguageandVisionAssistant,LLaVA)。一种端到端训练的大型......
  • SAP ABAP 生成 PDF 的几种技术综述
    下面这段文章,产生自ChatGPT:在SAPABAP系统中,有几种常用的技术可用于生成PDF文档。以下是其中一些常见的技术和它们的详细说明:ABAP内置功能(SAPScript和SmartForms):SAPABAP系统提供了两种内置的打印表单技术,即SAPScript和SmartForms。这些技术允许你创建具有格式化文本、图像......
  • ChatGPT背后的指令学习是什么?PSU最新首篇《指令学习》技术全面综述,详述指令学习关键问
    任务语义可以用一组输入到输出的例子或一条文本指令来表示。传统的自然语言处理(NLP)机器学习方法主要依赖于大规模特定任务样本集的可用性。出现了两个问题: 首先,收集特定于任务的标记示例,不适用于任务可能太复杂或太昂贵而无法注释,或系统需要立即处理新任务的场景;其次,这对用户......
  • 智能问答-问题生成(QG)历史最全论文、综述、数据集整理分享
        QuestionGeneration(问题生成),简单理解就是“主动提问”的AI应用场景,是QuestionAnswer(QA)一个子领域。QG的应用还是挺广泛的,像是为QA任务产生训练数据、自动合成FAQ文档、自动辅导系统(automatictutoringsystems)等。    传统工作主要是利用句法树或者知识库,基于规......
  • 历史最全最新时间序列分析相关必读论文、教程及综述资源整理分析
    本资源整理了用于时间序列分析(AI4TS)的AI的论文列表(包含可用代码)、教程和关于最近综述论文,包括时间序列、时空数据、事件数据、序列数据、时间点过程等,相关TopAIConferencesandJournals,一旦被接受的论文在相应的顶级AI会议/期刊上公布,就会尽快(最早)更新。希望此列表对......