论文链接: https://arxiv.org/abs/2411.10440
亮点直击
引入了 LLaVA-o1,这是一种专为系统性推理设计的视觉语言模型,在需要结构化思维和推理的任务中表现出色。
证明了 LLaVA-o1 使用阶段级束搜索具有推理时的可扩展性。这意味着通过增加计算资源,本文的方法性能可以进一步提升,从而适用于更复杂的任务和场景。
在各种基准测试上的广泛实验表明,本文的方法相较于更大规模和闭源模型实现了更优异的性能,凸显了 LLaVA-o1 在多模态推理中的有效性。
总结速览
解决的问题
当前视觉语言模型(VLMs)在处理复杂的视觉问答任务时,系统性和结构化推理能力较弱,尤其在多阶段推理任务中表现不佳。
提出的方案
引入 LLaVA-o1,一个新型 VLM,采用自主的多阶段推理策略。与链式思维(chain-of-thought)提示不同,LLaVA-o1 将推理分为以下独立阶段:总结、视觉解释、逻辑推理和结论生成。
应用的技术
-
构建 LLaVA-o1-100k 数据集,整合多种视觉问答数据来源,提供结构化推理标注。
-
提出推理阶段级别的束搜索(beam search)方法,以实现推理时的扩展能力。
达到的效果
-
LLaVA-o1 在推理密集型任务的精确性上显著提高。
-
使用仅 100k 训练样本及简单有效的推理扩展方法,LLaVA-o1 在多模态推理基准测试上表现超越基础模型 8.9%。
-
超越包括 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct 等更大规模甚至闭源模型的性能。
方法
LLaVA-o1 通过渐进式的逐步推理过程增强了视觉语言模型(VLMs)的推理能力,并支持高效的推理时间扩展。通过结构化思维,LLaVA-o1 实现了系统化且高效的推理过程。其推理时间框架使其在推理时间可扩展性方面超越现有方法。这一设计确保了在需要推理的复杂任务中具备鲁棒性和准确性,与传统方法形成了鲜明对比。下图 1 展示了推理过程的总体框架。
通过结构化思维增强推理能力
在训练过程中,本文的目标是开发一种能够执行扩展推理链的视觉语言模型,使其能够进行系统化和深入的推理。
推理阶段
LLaVA-o1 将答案生成过程分解为四个结构化推理阶段:
-
总结阶段 在初始阶段,LLaVA-o1 提供问题的高层次总结性解释,概述其需要解决的主要问题。
-
描述阶段 如果有图像存在,LLaVA-o1 提供与问题相关的视觉元素的简要概述,以帮助理解多模态输入。
-
推理阶段 在总结的基础上,LLaVA-o1 进行结构化的逻辑推理,得出初步答案。
-
结论阶段 在最终阶段,LLaVA-o1 根据之前的推理综合生成答案。在这一阶段,结论输出直接提供给用户,而前三个阶段是 LLaVA-o1 的内部“隐藏阶段”,代表其推理过程。结论阶段的输出会根据用户的需求进行调整:例如,如果用户请求简短的答案,结论将简明扼要;如果需要详细解释,结论将提供详尽的、全面的回应。
每个阶段由模型自主启动,无需外部提示工程框架或额外提示。为模型提供了四组特殊标签:<SUMMARY></SUMMARY>
、<CAPTION></CAPTION>
、<REASONING></REASONING>
和 <CONCLUSION></CONCLUSION>
。这些标签分别对应总结响应方法、描述相关图像内容、进行推理以及准备最终答案。
在训练过程中,模型根据自身判断自主选择这些标签,并激活相应阶段。与 OpenAI o1 类似,所有阶段均在单次推理中由模型完成。这种结构化的方法使模型能够独立管理其推理过程,从而提升其在复杂推理任务中的适应性和性能。
数据准备与模型训练
现有的大多数 VQA 数据集缺乏训练 LLaVA-o1 所需的详细推理过程。因此,整合多个常用 VQA 数据集,构建了一个包含 99k 图像问答对的新数据集(每对可能包括一个或多个回合的问答)。如下图 3 所示,由于当前没有多模态模型能够直接生成系统化的结构化推理,研究者们使用 GPT-4o 生成详细的推理过程,包括总结、描述、推理和结论,并将这些数据汇编成 LLaVA-o1-100k 数据集,计划公开发布。
整合的数据既包括通用型 VQA 数据集,也包括面向科学的 VQA 数据集,具体如下:
通用 VQA 数据集
-
ShareGPT4V:提供来自 GPT4V 交互的多轮问答数据。
-
ChartQA:专注于解释图表和图形。
-
A-OKVQA:强调超越可见内容的外部知识。
-
DocVQA:涉及基于文档的问题,需理解文本内容。
-
PISC:用于理解社会关系。
-
CLEVR:解决对象属性、空间关系和计数任务。
面向科学的 VQA 数据集 这些数据集包括用于几何推理的 GeoQA+,以及专注于科学问题的 AI2D 和 ScienceQA。CLEVR-Math 是 CLEVR 的扩展版,专注于视觉背景下的算术分析。下表 1 列出了从每个数据集中选择的问答对数量。
模型训练
本文构建的 LLaVA-o1-100k 数据集可以用于对现有模型进行监督微调(Supervised Fine-Tuning, SFT),以增强其推理能力。在本研究中,选择 Llama-3.2-11B-Vision-Instruct 模型作为基础模型,并使用 LLaVA-o1-100k 数据集对其进行全参数微调。训练在一台配备 8 张 H100 GPU 的节点上完成。
使用阶段级束搜索实现有效的推理时间扩展
训练完成后,在推理过程中进一步增强模型的推理能力。利用 LLaVA-o1 的阶段输出,这种分阶段的结构化输出为推理时间扩展提供了理想的粒度。方法包括以下步骤:
-
为解决方案的第一阶段采样 个响应。
-
随机采样 2 个响应,让模型判断哪个更优,并保留更优的响应。
-
重复步骤 2 共 次,最终保留最佳响应。
-
为下一阶段采样 个响应,然后重复步骤 2-4,直至处理完所有阶段。
值得注意的是,正是 LLaVA-o1 的结构化输出设计使得这一方法成为可能,从而在每个阶段实现高效且准确的验证。这验证了结构化输出在提高推理时间扩展中的有效性。三种方法的示意图见下图 4。
下图 5 中提供了一个示例。当未应用推理时间扩展时,尽管模型生成了正确的推理步骤,但在推理过程中未能得出具体答案。这导致模型在结论阶段进行猜测,从而得出错误结果。相比之下,应用推理时间扩展后,模型保留了通向最终结果的推理步骤,确保了答案的正确性。
后训练性能
本节将 LLaVA-o1 与基础模型 Llama-3.2-11B-Vision-Instruct 在六个常用的多模态基准上进行比较,以展示本文方法在训练阶段的有效性。随后,通过消融研究评估方法中各组件的贡献,重点解决以下三个关键问题:
-
LLaVA-o1-100k 数据集是否比直接使用原始数据集的问答对更有效?
-
结构化标签对性能的影响如何?具体而言,探讨 LLaVA-o1 在没有标签的情况下,能否通过隐式分段实现响应的不同阶段。
-
与基础模型相比,本文的模型在哪些具体领域表现出最大的改进?是否真正增强了推理能力?
实验设置
本文选择了六个广泛使用且具有挑战性的基准数据集进行实验:MMStar、MMBench V1.1、MMVet、MathVista、AI2D] 和 HallusionBench。
-
MMStar、MMBench 和 MMVet 主要评估模型的一般视觉问答能力。
-
MathVista 和 AI2D 关注模型在数学和科学推理方面的能力。
-
HallusionBench 专门评估模型处理语言幻觉和视觉错觉的能力。
在 MMBench 基准中,使用测试集 V1.1;对于 MathVista,使用测试子集 testmini;其余数据集则各自包含单一测试集。
为确保公平性和可复现性,所有评估均使用开源评估工具包 VLMEvalKit 进行。所有基线模型的性能指标均来源于 VLMEvalKit 的测试结果。
基准测试结果
尽管仅使用 100k 数据,LLaVA-o1 的性能仍显著提升。根据下表 2,与基础模型 Llama-3.2-11B-Vision-Instruct 相比,LLaVA-o1 在一般问答、数学推理、科学问答以及幻觉控制任务上均表现出显著改进,平均基准得分提高了 6.9%,验证了本文方法的有效性。
消融研究
LLaVA-o1-100k 数据集相比原始数据集的有效性
为了验证改进后的 LLaVA-o1-100k 数据集的有效性,对比了 LLaVA-o1 和直接在原始问答对上训练的模型在不同基准上的表现(见上表 2)。尽管直接在原始问答对上训练的模型对基础模型有一定的整体提升,其平均性能仍显著较低,尤其是在需要更详细回答的 MMVet 基准上,其表现甚至低于基础模型。这一结果强调了 LLaVA-o1-100k 数据集中多阶段格式在训练具备高级推理能力的模型时的重要性。
结构化标签对性能的必要性
为了研究引入的四个标签是否提升了模型性能,比较了使用和不使用结构化标签训练的 LLaVA-o1 模型(均基于 LLaVA-o1-100k 数据集)。如上表 2 所示,去除标签后性能显著下降,表明结构化标签促进了推理能力的发挥并提升了模型性能。LLaVA-o1 是首次通过带标签的结构化推理成功提升模型推理能力和整体性能的尝试。
性能主要提升集中在推理密集领域 为分析 LLaVA-o1 相较基础模型在哪些具体领域有所提升,在 MMStar 基准上对模型在不同技能方面的表现进行了详细评估。MMStar 用于评估六项核心能力:粗略感知、细粒度感知、实例推理、逻辑推理、数学以及科学与技术。
如下表 3 所示,LLaVA-o1 在需要系统推理的任务上(如实例推理、逻辑推理、数学、科学与技术)表现出显著改进,而在粗略感知和细粒度感知上的提升相对较小。这表明本文的方法主要增强了模型的推理能力。
推理时间扩展
本节旨在比较阶段级束搜索方法与传统方法(如最佳 N 选择法和句子级束搜索)在相似计算约束下的有效性。实验设置与上一节一致,评估基准包括 MMStar、MMBench V1.1、MMVet、MathVista、AI2D 和 HallusionBench,所有评估均通过 VLMEvalKit 进行以确保结果可复现。
基准测试结果
如下表 4 所示,阶段级束搜索在利用 LLaVA-o1 的结构化推理阶段方面表现出了显著的有效性。通过在每个推理阶段评估输出,该方法在严格的质量控制与计算效率之间达成了平衡,在复杂推理任务上显著提升了推理准确性,同时未带来明显的计算开销。这表明阶段级束搜索是一种高效而强大的推理时间扩展方法,而这一点得益于 LLaVA-o1 的结构化输出设计。
与基线方法的对比
为了评估相对性能,在 MMVet 基准上将阶段级束搜索方法与基线推理扩展方法进行了对比。在公平比较的前提下,所有方法使用了相似的推理时间计算成本:
-
最佳 N 选择法 设置 (N = 10)。
-
阶段级束搜索 在每个阶段生成 4 个候选响应。
-
句子级束搜索 每句生成 2 个候选响应。
如下表 5 所示:
-
最佳 N 选择法 的性能仅提升了 0.6%。
-
句子级束搜索 的性能甚至下降了 1.9%,主要原因是过于细粒度的句子级方法难以有效处理开放式问题。
-
阶段级束搜索 的性能提高了 2.6%,突显了阶段级搜索的优越性。
阶段级束搜索的扩展趋势
为了进一步验证阶段级束搜索在推理时间计算增加时的有效性,在 MMVet 基准上评估了不同束宽度下的 LLaVA-o1 性能。
如下表 6 所示,在每个推理阶段生成 1 个(即无推理时间扩展)、2 个、3 个和 4 个候选响应,供模型选择最佳答案。实验结果表明,随着候选响应数量的增加,模型性能持续提升,确认了阶段级束搜索方法的可扩展性。
由于计算资源限制,仅测试了在所有基准上束宽度为 2 的情况。然而,预计进一步增加束宽度将带来更显著的性能提升。
与最先进的视觉语言模型(VLMs)的比较
如下表7所示,将LLaVA-o1与其他最先进的开源和闭源视觉语言模型(VLM)在六个需要高级推理能力的基准上进行了比较:MMStar-R、MMBench-R、MMVet-R、MathVista、AI2D和HallusionBench。MMStar-R、MMBench-R和MMVet-R是从MMStar、MMBench V1.1和MMVet中衍生的自定义基准,去除了仅需要粗略感知、细粒度感知和OCR的任务。这些过滤后的基准保留了需要复杂推理的任务。MathVista、AI2D和HallusionBench本身聚焦于高级推理,因此保留了这些基准中的所有任务。
结果表明,LLaVA-o1在多个基准上始终优于许多开源模型,甚至是类似或更大规模的模型,如InternVL2-8B、Ovis1.5-Gemma2-9B、MiniCPM-V2.6-8B、Llama-3.2-90B-VisionInstruct和VILA-1.5-40B。值得注意的是,LLaVA-o1甚至超越了某些闭源模型,如GPT-4o-mini和Gemini-1.5-pro,凸显了结构化推理方法的有效性。这一比较验证了本文方法的优势,特别是在那些高度依赖推理能力的基准上,并突出了LLaVA-o1在推理密集型VLM任务中的竞争力。
结论
本文提出了LLaVA-o1,一种新颖的视觉语言模型,能够在多个阶段执行结构化的自主推理。通过引入四个明确的阶段——总结、描述、推理和结论——LLaVA-o1实现了一种系统化的推理过程。
本文的贡献有两个方面:首先,创建了LLaVA-o1-100k数据集,该数据集具有详细的推理标注,支持对系统化、结构化响应的训练;其次,提出了阶段级束搜索方法,使推理时间扩展变得高效。
总的来说,LLaVA-o1为多模态推理树立了新的标准,提供了强大的性能和可扩展性,尤其是在推理时间方面。本文的工作为未来在VLM中开展结构化推理的研究奠定了基础,包括通过外部验证器的扩展,以及使用强化学习进一步增强复杂多模态推理能力的潜力。
参考文献
[1] LLaVA-o1: Let Vision Language Models Reason Step-by-Step
标签:结构化,VLM,模型,LLaVA,阶段,推理,o1 From: https://blog.csdn.net/AIGCer/article/details/143871790