论文链接:https://proceedings.neurips.cc/paper_files/paper/2023/file/6dcf277ea32ce3288914faf369fe6de0-Paper-Conference.pdf
代码链接:
https://github.com/haotian-liu/LLaVA?tab=readme-ov-file
动机
指令微调(Instruction Tuning)语言大模型(LLMs)使用机器生成的指令跟随数据(instruction-following data),提高了新任务上的zero-shot能力,但这个idea还没有在多模态领域进行探索。因此,本文第一次尝试使用language-only GPT-4 生成多模态语言-图像指令跟随数据。
通过在这种生成的数据上进行指令微调,本文提出大语言和视觉助理(Large Language and Vision Assistant, LLaVA),这是一种端到端训练的大型多模态模型,连接了一个视觉编码器和一个LLM,来实现多用途的(general-purpose)视觉和语言理解。
为了促进未来在视觉指令跟随的研究,本文构建了两个评估benchmarks,包含diverse和challenging的应用导向(application-oriented)的任务。
贡献
- 多模态指令跟随数据
- 大型多模态模型
- 多模态指令跟随benchmark
- 开源