郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
37th Conference on Neural Information Processing Systems (NeurIPS 2023)
Abstract
使用机器生成的指令跟踪数据的指令调优大语言模型(LLM)已被证明可以提高新任务的零样本能力,但这一想法在多模态领域的探索较少。我们首次尝试使用纯语言GPT-4来生成多模态语言-图像指令跟随数据。通过对这些生成的数据进行指令调整,我们引入了LLaVA:大型语言和视觉助手,这是一种端到端训练的大型多模态模型,连接视觉编码器和LLM,用于通用视觉和语言理解。为了促进未来对视觉指令跟随的研究,我们构建了两个具有多样性和挑战性的应用型任务的评估基准。我们的实验表明,LLaVA表现出令人印象深刻的多模态聊天能力,有时在没见过的图像/指令上表现出多模态GPT-4的行为,在合成的多模态指令跟随数据集上与GPT-4的相对得分为85.1%。当对Science QA进行微调时,LLaVA和GPT-4的协同作用达到了92.53%的最先进精度。我们公开GPT-4生成的可视化指令调优数据、我们的模型和代码。
1 Introduction
人类通过视觉和语言等多种渠道与世界互动,因为每个渠道在表达和交流某些概念方面都具有独特的优势,从而有助于更好地理解世界。人工智能的核心愿望之一是开发一种通用助手,它可以有效地遵循多模态视觉和语言指令,与人类在野外完成各种现实世界任务的意图相一致[4,26]。
为此,社区对开发语言增强基础视觉模型[26,16]产生了新的兴趣,该模型在开放世界视觉理解方面具有强大的能力,如分类[39,21,56,53,38]、检测[28,61,32]、分割[25,62,57]和文字说明[49,27],以及视觉生成和编辑[41,42,55,15,43,29]。我们向读者推荐《计算机视觉在野外》阅读列表,以获取最新的文献汇编[12]。在这项工作中,每个任务都由一个大型视觉模型独立解决,在模型设计中隐含地考虑了任务指令。此外,语言仅用于描述图像内容。虽然这使语言能够在将视觉信号映射到语言语义(人类交流的常见渠道)方面发挥重要作用,但它导致模型通常具有固定的界面,交互性和对用户指令的适应性有限。
另一方面,大型语言模型(LLM)表明,语言可以发挥更广泛的作用:通用助理的通用接口,在该接口中,各种任务指令可以用语言明确表示,并引导端到端训练的神经助理切换到感兴趣的任务来解决它。例如,最近ChatGPT[34]和GPT-4[35]的成功证明了对齐LLM在遵循人类指令方面的强大作用,并激发了开发开源LLM的巨大兴趣。其中,LLaMA[48]是一种与GPT-3性能相匹配的开源LLM。羊驼[47]、维库纳[9]、GPT-4-LLM[37]利用各种机器生成的高质量指令跟随样本来提高LLM的对齐能力,与专有LLM相比,报告了令人印象深刻的性能。重要的是,这一行仅为文本。
在本文中,我们提出了视觉教学调优,这是首次尝试将教学调优扩展到语言图像多模式空间,为构建通用的视觉助手铺平道路。特别是,我们的论文做出了以下贡献:
- 多模式指令遵循数据。一个关键的挑战是缺乏视觉语言教学遵循数据。我们使用ChatGPT/GPT-4提供了一种数据改革视角和管道,将图像-文本对转换为适当的指令-遵循格式。
- 大型多模式模型。我们开发了一个大型多模式模型(LMM),通过连接CLIP[39]的开集视觉编码器和语言解码器Vicuna[9],并对我们生成的教学视觉语言数据进行端到端微调。我们的实证研究验证了使用生成的数据进行LMM指令调整的有效性,并为构建遵循视觉代理的通用指令提供了实用提示。当与GPT-4集成时,我们的方法在Science QA[33]多模式推理数据集上实现了SoTA。
- 遵循基准的多模式教学。我们为LLaVA Bench提供了两个具有挑战性的基准,包括各种配对图像、说明和详细注释。
- 开源。我们向公众发布了以下资产:生成的多模式指令数据、代码库、模型检查点和可视化聊天演示。
2 Related Work
3 GPT-assisted Visual Instruction Data Generation
4 Visual Instruction Tuning
4.1 Architecture
4.2 Training
5 Experiments
5.1 Multimodal Chatbot
5.2 ScienceQA
6 Conclusion