摘要:我们推出了MMVU,这是一个全面的专家级、多学科视频理解基准,用于评估基础模型在视频理解方面的表现。MMVU包含3000个由专家标注的问题,这些问题涵盖了四个核心学科领域的27个主题:科学、医疗保健、人文与社会科学以及工程学。与以往的基准相比,MMVU具有三大关键进步。首先,它要求模型运用领域特定知识并进行专家级推理,以分析专业领域视频,超越了当前视频基准中通常评估的基本视觉感知。其次,每个示例都是由人类专家从头开始标注的。我们实施了严格的数据质量控制,以确保数据集的高质量。最后,每个示例都附有专家标注的推理理由和相关领域知识,便于进行深入分析。我们对32个前沿多模态基础模型在MMVU上进行了广泛评估。在测试模型中,最新的具备System-2能力的模型o1和Gemini 2.0 Flash Thinking表现最佳。然而,它们仍未能达到人类专家的水平。通过深入的错误分析和案例研究,我们为专业领域知识密集型视频理解的未来进步提供了可操作的见解。
1. 引言
背景与动机:
近年来,基础模型在跨领域推理方面展现出了惊人的能力,然而它们在处理专家级知识方面的能力仍然是一个关键的评估领域。特别是在视频理解方面,现有的基准测试主要集中在通用视频理解任务上,如动作识别、视频描述等,而对于专业领域内视频的理解能力评估相对较少。视频作为一种信息丰富且自然的模态,在医疗保健、工程和科学研究等专业领域中被广泛使用,以传达复杂和动态的信息。因此,评估基础模型在专家级多学科视频理解方面的能力显得尤为重要。
MMVU基准的提出:
为了填补这一空白,我们推出了MMVU(Multimodal Foundation Models for Expert-Level Multi-Discipline Video Understanding)基准,这是一个全面的专家级、多学科视频理解基准,旨在评估基础模型在视频理解方面的专业知识和推理能力。
2. MMVU基准概述
基准内容与结构:
MMVU包含3000个由专家标注的问题,这些问题跨越了科学、医疗保健、人文社科和工程四个核心学科领域的27个主题。每个问题都经过严格的数据质量控制,确保标注的高质量和一致性。此外,每个问题还附带了专家标注的推理理由和相关的领域知识,便于进行深入的评估和分析。
核心特点:
- 专业知识与推理:MMVU挑战模型应用领域特定知识并进行专家级推理,以分析专业领域的视频,这超越了当前视频基准中通常评估的基本视觉感知能力。
- 专家标注:每个示例都由领域专家从零开始标注,确保了数据的高质量和专业性。
- 推理理由与领域知识:每个示例都附带了专家标注的推理理由和相关的领域知识,促进了深入的评估和分析。
3. 数据集构建
初步设置:
- 主题选择:为了确保跨学科的广泛和准确代表,我们进行了一项用户研究,涉及133名大学生和研究生,以选择适合各自领域的视频理解问题。基于这些反馈,我们手动分析了收集到的示例,并选择了27个最能满足基准构建要求的主题。
- 专家标注者招募与培训:我们为每个主题分配了至少两名具有相关专长的标注者,并对他们进行了标注协议的培训。标注者包括本科生、研究生和作者团队中的成员。
示例标注流程:
- 教科书引导的问题标注:标注者首先从教科书中识别关键概念,然后查找与这些概念相关的具有创意共用许可证的视频。接着,他们创建问题并标注详细的解决方案,包括相关的领域知识和推理理由。
- 数据质量控制:我们实施了严格的数据质量控制措施,包括基于时间的标注补偿和人类专家验证。每个示例都经过至少一名作者或顶级标注者的审核,以确保其准确性和专业性。
数据统计:
MMVU包含3000个示例,分为验证集(1000个)和测试集(2000个)。验证集用于模型开发和验证,而测试集则严格保留用于标准评估,以防止数据污染。数据集涵盖了1529个独特的视频,平均长度为51.4秒,最长为228秒。问题类型包括多项选择题和开放性问题,分别占总数的61.9%和38.1%。
4. 模型评估
评估模型:
我们对32个前沿的多模态基础模型进行了广泛的评估,这些模型来自17个组织。评估涵盖了开源模型和专有模型,包括OpenAI的o1和GPT-4o,以及Google的Gemini系列等。
评估指标:
我们使用准确率作为主要评估指标,并采用GPT-4o来评估模型回答的准确性。评估过程中,我们分别测试了模型在直接回答和链式思考(Chain-of-Thought, CoT)提示下的表现。
评估结果:
- 整体表现:尽管最新的o1模型在所有测试模型中表现最佳,但其性能仍远未达到人类专家的水平。例如,GPT-4o在CoT提示下的准确率为66.7%,远低于人类专家在开放书籍设置下的86.8%。
- CoT推理的优势:与直接生成最终答案相比,CoT推理普遍提高了模型的性能。然而,不同模型从CoT推理中受益的程度各不相同。
5. 错误分析与案例研究
主要错误类型:
- 视觉感知错误:模型未能准确解释视频中的空间、时间或语义方面的视觉信息。
- 视觉感知中误用或缺乏领域知识:模型在解释视频中的专业领域概念或元素时未能应用所需的领域知识。
- 推理中误用或缺乏领域知识:模型在推理过程中未能有效回忆和应用领域知识。
- 过度依赖文本信息:模型主要依赖文本信息来解决问题,特别是在处理多项选择题时,而没有充分利用视频内容。
- 逻辑推理错误:模型的推理过程与其最终答案之间存在不一致性,导致自相矛盾。
- 其他错误:包括因上下文不足或安全顾虑而拒绝回答问题,生成的响应超出输出限制等。
案例研究:
我们通过人类专家对四个顶级模型(GPT-4o、Qwen2-VL-72B、Llama-3.2-90B-Vision和DeepSeek-VL2)的错误案例进行了深入分析。这些案例涵盖了不同类型的错误,揭示了模型在视觉感知、领域知识应用和逻辑推理方面的局限性。
6. 结论与未来展望
研究结论:
我们推出的MMVU基准为评估基础模型在专家级多学科视频理解方面的能力提供了一个全面的框架。通过广泛的模型评估和深入的错误分析,我们揭示了当前模型在这一领域的局限性,并为未来的研究提供了有价值的见解。
未来展望:
- 增强视觉推理:未来的研究应着重于增强模型在视频理解中的视觉推理能力,使其能够更好地利用视频中的视觉信息。
- 融合领域知识:开发能够更有效地融合领域知识的基础模型,以提高其在专业领域视频理解方面的表现。
- 推动CoT推理:鼓励更多研究探索CoT推理在视频理解中的应用,以提高模型的推理能力和准确性。
MMVU基准的推出为评估基础模型在视频理解方面的专家级能力提供了一个重要的里程碑。我们相信,随着研究的不断深入和模型的持续改进,我们将能够开发出更加智能和高效的基础模型,以应对复杂多变的视频理解挑战。
标签:视频,AI,MMVU,模型,专家级,推理,评估,标注 From: https://blog.csdn.net/m0_66899341/article/details/145310687