近来,多模态大语言模型(Multimodal Large Language Model,MLLM)受到广泛关注,成为一个新兴的研究热点。 MLLM通常以大语言模型(Large Language Model,LLM)为基础,融入其它非文本的模态信息,完成各种多模态任务。 相比于常规的多模态模型,MLLM涌现出一些令人惊叹的新能力,例如基于图片进行诗文创作和OCR-Free的数学推理等。这些强大的能力显示MLLM有望成为实现通用人工智能的一种途径。 为此,来自中科大、腾讯等机构的研究人员深入探讨了MLLM的研究进展并发表了该领域的首篇综述《A Survey on Multimodal Large Language Models》: 论文链接:https://arxiv.org/pdf/2306.13549.pdf 项目链接(实时更新最新论文):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models 研究人员将MLLM定义为「由LLM扩展而来的具有接收与推理多模态信息能力的模型」,该类模型相较于热门的单模态LLM具有以下的优势: 1. 更符合人类认知世界的习惯。人类具有多种感官来接受多种模态信息,这些信息通常是互为补充、协同作用的。因此,使用多模态信息一般可以更好地认知与完成任务。 2. 更加强大与用户友好的接口。通过支持多模态输入,用户可以通过更加灵活的方式输入与传达信息。 3. 更广泛的任务支持。LLM通常只能完成纯文本相关的任务,而MLLM通过多模态可以额外完成更多任务,如图片描述和视觉知识问答等。 该综述主要围绕MLLM的三个关键技术以及一个应用展开,包括: 1. 多模态指令微调(Multimodal Instruction Tuning,M-IT) 2. 多模态上下文学习(Multimodal In-Context Learning,M-ICL) 3. 多模态思维链(Multimodal Chain of Thought,M-CoT) 4. LLM辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR) 前三项技术构成了MLLM的基础,而最后一个是以LLM为核心的多模态系统。 三项技术作为LLM的代表性能力在NLP领域已有广泛研究,但扩展到多模态领域时会出现许多新的特点与挑战。 LLM辅助的视觉推理系统涉及几种典型的设计思路,即将LLM作为控制器、决策器或语义修饰器。 CVPR 2023最佳论文Visual Programming [1]即采用了将LLM作为控制器的设计思路。本文将对前述的几个方面以及相关挑战做简单的概览,更丰富的内容请参考原文。 多模态指令微调 M-IT 指令(Instruction)指的是对任务的描述,多模态指令微调是一种通过指令格式的数据(Instruction-formatted data)来微调预训练的MLLM的技术。 通过该技术,MLLM可以跟随新的指令泛化到未见过的任务上,提升zero-shot性能。多模态的指令格式如下所示: 图1.M-IT格式 多模态指令数据的基本形式可以概括为(指令,多模态输入,回答)三元组。指令的设计可以分为手工设计与GPT辅助设计这两种方式。 前者指的是人工为每种任务设计一系列指令模板,比如对于传统的视觉问答任务,指令可以设计为「<image> What is the answer to the question? {question}」,其中<image>和{question}(对应着图1中的<text>)为原有视觉问答任务中的图像和问题。 另一种GPT辅助设计的方式是通过手工设计少量样例来Prompt GPT生成更丰富的指令。 对于多模态指令微调,研究人员从数据、模态桥接(Modality Bridging)和评测三个方面对现有工作进行了总结,如下图所示: 图2.M-IT总结 多模态上下文学习 M-ICL 图3.M-CoT样例 目前以Flamingo[2]为代表的M-ICL相关的研究工作还比较少。 LLM通常不需要专门的训练即可拥有ICL能力,但现阶段的MLLM还比较依赖训练,并且仍缺乏对样例选择和样例顺序等方面的深入研究。 多模态思维链 M-CoT 多模态思维链通过显示地逐步推理(给出中间的推理步骤)来获得多模态任务的答案。相比于直接输出答案,M-CoT在较为复杂的推理任务上能够取得更好的表现。 研究人员从模态桥接(Modality Bridging)、学习范式、思维链配置以及生成模式这四个方面总结了当前的研究: 图4. M-CoT总结 目前M-CoT的研究也较少,仍处在初步探索阶段。 LLM辅助的视觉推理 LAVR 这类工作利用LLM强大的内嵌知识与能力以及其他工具,设计各种视觉推理系统。 相比于传统视觉推理模型,这些工作具有以下的好的特性: (1)强大的零/少样本泛化能力 (2)具备新的能力,这些系统能够执行更加复杂的任务,如解读梗图的深层含义 (3)更好的互动性与可控性 研究人员从训练范式、LLM扮演的角色以及评测三个部分总结了当前的进展: 图5.LAVR总结 挑战和未来方向 目前来看,MLLM的发展还处于起步阶段,无论是相关技术还是具体应用都还存在着许多挑战与可研究的问题,可以总结为以下几点: 1. 现有MLLM的感知能力受限,导致获取的视觉信息不完整或者有误,并进一步使得后续的推理出错。这可能是因为现有模型在信息容量和计算负担之间的妥协造成的。 2. MLLM的推理链较为脆弱。表现为即使是做简单的多模态推理问题,模型有时仍会因为推理链条断裂导致输出错误答案。 3. MLLM的指令服从能力需要进一步提升。表现为在进行指令微调后,即使是较为简单的指令,部分MLLM仍然无法输出预期的答案。 4. 物体幻视问题普遍存在。表现为MLLM输出的回复与图片的内容不相符,出现了编造物体等现象,影响了MLLM的可靠性。 5. 高效参数训练。由于MLLM的模型容量很大,在计算资源受限的条件下,高效参数训练有望能够解锁更多MLLM的能力。 上述前四点问题在与本文同系列的论文(https://arxiv.org/pdf/2306.13394.pdf)中有非常详细的评测和讨论,欢迎大家阅读。 除了上述问题外,MLLM在具体的子方向上也都只进行了初步探索,比如M-ICL目前仍然缺乏对样本选取以及排序的深入研究。