首页 > 其他分享 >【AI论文】MMVU:衡量专家级多学科视频理解能力

【AI论文】MMVU:衡量专家级多学科视频理解能力

时间:2025-01-23 18:27:30浏览次数:3  
标签:视频 AI MMVU 模型 专家级 推理 评估 标注

摘要:我们推出了MMVU,这是一个全面的专家级、多学科视频理解基准,用于评估基础模型在视频理解方面的表现。MMVU包含3000个由专家标注的问题,这些问题涵盖了四个核心学科领域的27个主题:科学、医疗保健、人文与社会科学以及工程学。与以往的基准相比,MMVU具有三大关键进步。首先,它要求模型运用领域特定知识并进行专家级推理,以分析专业领域视频,超越了当前视频基准中通常评估的基本视觉感知。其次,每个示例都是由人类专家从头开始标注的。我们实施了严格的数据质量控制,以确保数据集的高质量。最后,每个示例都附有专家标注的推理理由和相关领域知识,便于进行深入分析。我们对32个前沿多模态基础模型在MMVU上进行了广泛评估。在测试模型中,最新的具备System-2能力的模型o1和Gemini 2.0 Flash Thinking表现最佳。然而,它们仍未能达到人类专家的水平。通过深入的错误分析和案例研究,我们为专业领域知识密集型视频理解的未来进步提供了可操作的见解。

1. 引言

背景与动机

近年来,基础模型在跨领域推理方面展现出了惊人的能力,然而它们在处理专家级知识方面的能力仍然是一个关键的评估领域。特别是在视频理解方面,现有的基准测试主要集中在通用视频理解任务上,如动作识别、视频描述等,而对于专业领域内视频的理解能力评估相对较少。视频作为一种信息丰富且自然的模态,在医疗保健、工程和科学研究等专业领域中被广泛使用,以传达复杂和动态的信息。因此,评估基础模型在专家级多学科视频理解方面的能力显得尤为重要。

MMVU基准的提出

为了填补这一空白,我们推出了MMVU(Multimodal Foundation Models for Expert-Level Multi-Discipline Video Understanding)基准,这是一个全面的专家级、多学科视频理解基准,旨在评估基础模型在视频理解方面的专业知识和推理能力。

2. MMVU基准概述

基准内容与结构

MMVU包含3000个由专家标注的问题,这些问题跨越了科学、医疗保健、人文社科和工程四个核心学科领域的27个主题。每个问题都经过严格的数据质量控制,确保标注的高质量和一致性。此外,每个问题还附带了专家标注的推理理由和相关的领域知识,便于进行深入的评估和分析。

核心特点

  • 专业知识与推理:MMVU挑战模型应用领域特定知识并进行专家级推理,以分析专业领域的视频,这超越了当前视频基准中通常评估的基本视觉感知能力。
  • 专家标注:每个示例都由领域专家从零开始标注,确保了数据的高质量和专业性。
  • 推理理由与领域知识:每个示例都附带了专家标注的推理理由和相关的领域知识,促进了深入的评估和分析。

3. 数据集构建

初步设置

  • 主题选择:为了确保跨学科的广泛和准确代表,我们进行了一项用户研究,涉及133名大学生和研究生,以选择适合各自领域的视频理解问题。基于这些反馈,我们手动分析了收集到的示例,并选择了27个最能满足基准构建要求的主题。
  • 专家标注者招募与培训:我们为每个主题分配了至少两名具有相关专长的标注者,并对他们进行了标注协议的培训。标注者包括本科生、研究生和作者团队中的成员。

示例标注流程

  • 教科书引导的问题标注:标注者首先从教科书中识别关键概念,然后查找与这些概念相关的具有创意共用许可证的视频。接着,他们创建问题并标注详细的解决方案,包括相关的领域知识和推理理由。
  • 数据质量控制:我们实施了严格的数据质量控制措施,包括基于时间的标注补偿和人类专家验证。每个示例都经过至少一名作者或顶级标注者的审核,以确保其准确性和专业性。

数据统计

MMVU包含3000个示例,分为验证集(1000个)和测试集(2000个)。验证集用于模型开发和验证,而测试集则严格保留用于标准评估,以防止数据污染。数据集涵盖了1529个独特的视频,平均长度为51.4秒,最长为228秒。问题类型包括多项选择题和开放性问题,分别占总数的61.9%和38.1%。

4. 模型评估

评估模型

我们对32个前沿的多模态基础模型进行了广泛的评估,这些模型来自17个组织。评估涵盖了开源模型和专有模型,包括OpenAI的o1和GPT-4o,以及Google的Gemini系列等。

评估指标

我们使用准确率作为主要评估指标,并采用GPT-4o来评估模型回答的准确性。评估过程中,我们分别测试了模型在直接回答和链式思考(Chain-of-Thought, CoT)提示下的表现。

评估结果

  • 整体表现:尽管最新的o1模型在所有测试模型中表现最佳,但其性能仍远未达到人类专家的水平。例如,GPT-4o在CoT提示下的准确率为66.7%,远低于人类专家在开放书籍设置下的86.8%。
  • CoT推理的优势:与直接生成最终答案相比,CoT推理普遍提高了模型的性能。然而,不同模型从CoT推理中受益的程度各不相同。

5. 错误分析与案例研究

主要错误类型

  • 视觉感知错误:模型未能准确解释视频中的空间、时间或语义方面的视觉信息。
  • 视觉感知中误用或缺乏领域知识:模型在解释视频中的专业领域概念或元素时未能应用所需的领域知识。
  • 推理中误用或缺乏领域知识:模型在推理过程中未能有效回忆和应用领域知识。
  • 过度依赖文本信息:模型主要依赖文本信息来解决问题,特别是在处理多项选择题时,而没有充分利用视频内容。
  • 逻辑推理错误:模型的推理过程与其最终答案之间存在不一致性,导致自相矛盾。
  • 其他错误:包括因上下文不足或安全顾虑而拒绝回答问题,生成的响应超出输出限制等。

案例研究

我们通过人类专家对四个顶级模型(GPT-4o、Qwen2-VL-72B、Llama-3.2-90B-Vision和DeepSeek-VL2)的错误案例进行了深入分析。这些案例涵盖了不同类型的错误,揭示了模型在视觉感知、领域知识应用和逻辑推理方面的局限性。

6. 结论与未来展望

研究结论

我们推出的MMVU基准为评估基础模型在专家级多学科视频理解方面的能力提供了一个全面的框架。通过广泛的模型评估和深入的错误分析,我们揭示了当前模型在这一领域的局限性,并为未来的研究提供了有价值的见解。

未来展望

  • 增强视觉推理:未来的研究应着重于增强模型在视频理解中的视觉推理能力,使其能够更好地利用视频中的视觉信息。
  • 融合领域知识:开发能够更有效地融合领域知识的基础模型,以提高其在专业领域视频理解方面的表现。
  • 推动CoT推理:鼓励更多研究探索CoT推理在视频理解中的应用,以提高模型的推理能力和准确性。

MMVU基准的推出为评估基础模型在视频理解方面的专家级能力提供了一个重要的里程碑。我们相信,随着研究的不断深入和模型的持续改进,我们将能够开发出更加智能和高效的基础模型,以应对复杂多变的视频理解挑战。

标签:视频,AI,MMVU,模型,专家级,推理,评估,标注
From: https://blog.csdn.net/m0_66899341/article/details/145310687

相关文章

  • 【Milvus向量数据库】AI应用开发
    一、Milvus介绍上一小节中,全面介绍了向量和向量数据库,今天详细介绍下其中比较出名的开源数据库Milvus。希望对你有帮助Milvus是一个开源的、高性能的向量数据库,专为海量向量数据的快速检索而设计。在人工智能、计算机视觉、推荐系统和其他需要处理大规模向量数据的领域有着广......
  • 大腾智能CAD:基于云原生架构,融合AI技术的高效三维设计解决方案
    CAD(计算机辅助设计)技术自诞生以来,在工业设计中经历了从二维到三维、从单一功能到集成化、智能化的飞跃式发展。这一技术不仅极大地提高了设计效率,还使得设计精度和创新能力得到了前所未有的提升,已成为现代工业设计不可或缺的重要工具。随着“中国制造2025”等战略的实施,国产CA......
  • 深入解析 Spring AI 系列:解析请求参数处理
    大家在使用SpringAI项目开发Agent时,可能会发现,尽管外层的接口设计和调用逻辑比较统一,但实际上每个第三方接口在实现时都会有一些微妙的差异。这些差异可能体现在请求参数的构造、数据格式的处理,或者是某些接口特有的配置选项上。因此,今天我们主要聚焦于SpringAI在实际调用接口之......
  • 在使用prism的region跳转时,出现The region manager does not contain the MainViewReg
    在做新项目时,把原来的旧项目拷过来进行重构,上一个项目进行region填充是没有问题的,这次再次进行测试出现了这样的问题,于是在网上寻找答案。错误给出来的很明显,regionManager没有一个叫做MainViewRegionName的区域,想当然的就手动添加,进行刷新,这种方法参考Prism区域异常问题分析(......
  • 在Rust项目中,一般测试用例函数 #[(test)] 都写在哪里? 如果要测试 main.rs 文件中的函
    eeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeee在Rust项目中,测试用例通常放在以下两个位置:1.与源代码同文件中的模块测试用例函数一般写在与实现代码同一个文件中,放在一个名为tests的模块里,使用#[cfg(test)]注解。这种方式适用于对模块内的函数或逻辑进行单元测试。示......
  • 让万物「听说」:AI 对话式智能硬件方案和发展洞察
    本文整理自声网SDK新业务探索组技术负责人,IoT行业专家@吴方方1月18日在RTE开发者社区「VoiceAgent+硬件分享会」上的分享。本次主要介绍了AI对话式智能硬件的发展历程,新一波AI浪潮所带来的创新机遇、技术挑战以及未来的展望。 在语音交互浪潮的推动下,AIoT行业......
  • (一)一文读懂transformers库中常见组件PreTrainedModel,PretrainedConfig,AutoTokenizer
    文章目录一、训练管理大师:`Trainer`和`TrainingArguments``TrainingArguments`:训练的“魔法配方”`Trainer`:训练的“超级厨师”二、数据整理小能手:`DataCollatorWithPadding`三、因果语言模型的输出管家:`CausalLMOutputWithPast`四、模型加载与处理的智能助手:`AutoPro......
  • 数据分析和AI丨拒绝AI技术焦虑,工程领域AI应用的八大技巧
     现今,人们正在对科技发展以及AI技术进行无限探索,在这个过程中,很多工程师可能会感受到“有心无力”,很大程度是因为他们尚未实现自己的第一个可落地执行的人工智能(AI)应用案例。这个结果让人感到十分惊讶,因为目前在工程领域人们对AI的兴趣或投资并不缺乏。研究表明,86%的工......
  • Android Systrace 基础知识 - MainThread 和 RenderThread 解读
    正文这里以滑动列表为例,我们截取主线程和渲染线程一帧的工作流程(每一帧都会遵循这个流程,不过有的帧需要处理的事情多,有的帧需要处理的事情少),重点看“UIThread”和RenderThread这两行这张图对应的工作流程如下主线程处于Sleep状态,等待Vsync信号Vsync信号到来,......
  • ‌AI、AO、DI、DO的解释
    ‌AI、AO、DI、DO在自动化和控制系统中的含义如下‌:‌ ‌AI(AnalogInput)‌:模拟量输入。AI代表将现实世界中的模拟信号(如温度、压力、流量等)转换成计算机能处理的数字信号。例如,温度传感器输出的电压或电流信号被转换为数字信号以便计算机处理。‌AO(AnalogOutput)‌:模拟量输出......