欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/142364884
免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。
评估(Evaluation) 是研发多模态大语言模型(MLLM)的重要部分,也为模型的优化提供反馈,有助于比较不同模型的性能。与传统多模态模型的评估方法相比,MLLM 评估表现的特点如下:
- 由于 MLLM 通常具有通用性,因此,全面评估 MLLM 非常重要。
- MLLM 展现出许多 涌现(Emergent) 能力,需要特别关注,例如,无需 OCR 的数学推理,因此需要设计新的评估方案。
根据问题类型,MLLM 的评估主要分为2 类,即 封闭集(closed-set) 和 开放集(open-set)。
封闭集(Closed-Set) 问题,即可能的答案选项,是预定义的,限制在有限集合中的问题,评估通常在特定任务的数据集上进行。在这种情况下,通过 基准指标(Benchmark Metrics) 自然的判断。例如,InstructBLIP 报告在 ScienceQA 的准确率,以及在 NoCaps 和 Flickr30K 上的 CIDEr Score 得分。评估设置通常是 零样本(zero-shot) 或者 微调(finetuning)。
- 零样本(zero-shot) 设置,通常覆盖广泛数据集,包括不同的、一般的任务,划分成 保留(Held-In) 集和 测试(Held-Out) 集。在前者上调整后,零样本性能在后者上进行评估,使用未见过的数据集或甚至未见过的任务。
- 微调(finetuning) 设置,通常评估特定领域任务。例如,LLaVA 和 LLaMA-Adapter 报告在 ScienceQA 微调之后的性能。LLaVA-Med 报告在生物医学 VQA 的结果。
上述评估方法,仅限于小部分选定的任务或数据集,缺乏全面的 定量(Quantitative) 比较。为此,已经开始开发专门为 MLLM 设计的新基准。例如:
- 全面的评估基准 MME,包括总共 14 个感知和认知任务,MME 中的所有指令-答案对都是手动设计的,以避免数据泄露。
- MMBench 是专门为评估模型能力的多个维度而设计的基准,使用 ChatGPT 将开放响应与预定义的选择相匹配。
- Video-ChatGPT 和 Video-Bench 专注于视频领域,并且提出专门的基准以及评估工具。
还有一些评估策略旨在评估模型的特定方面,如 POPE 用于评估幻觉程度的评估。
开放集(Open-Set) 问题,回答可以更加灵活,MLLM 扮演聊天机器人的角色,因为聊天内容是任意的,比封闭性输出更难判断。评判标准可以分为 人工评分(Manual Scoring)、GPT评分(GPT Scoring) 和 案例研究(Case Study),即:
-
人工评分(Manual Scoring),需要人工评估生成的回答,通常涉及人工操作的问题,评估特定的维度。例如,mPLUG-Owl 收集与视觉相关的评估集,以判断 自然图像(Natural Image) 理解、图表(Diagram)、流程图(Flowchart) 理解等能力。同样,GPT4Tools,类似于 Agent,构建 2 套分别用于微调和零样本性能的评估集,从思考(Thought)、行动(Action)、论点(Arguments) 和 整体方面(The Whole) 评估回答。
-
GPT评分(GPT Scoring),由于人工评估劳动密集,探索使用 GPT 评分,用于评估多模态对话的表现。LLaVA 提出通过文本 GPT-4 对于回答评分,考虑不同方面,如有帮助性和准确性。具体来说,从 COCO 验证集中抽取 30 张图片,每张图片都包括 简短(Shot) 问题、详细(Detailed) 问题和 复杂推理(Complex Reasoning) 问题,通过在 GPT-4 的 自指令(Self-Instruction)。模型和 GPT-4 生成的答案都发送给 GPT-4 比较,根据这个思路,提示 ChatGPT 或 GPT-4 评分或判断答案是否更好。随着 GPT 视觉接口的发布,使用 GPT-4V 模型评估 MLLM 的性能。Woodpecker 采用 GPT-4V 根据图像判断模型回答的质量,由于 GPT-4V 可以直接访问图像,因此预计评估比仅使用文本 GPT-4 更准确。
-
案例研究(Case Study),评估两个典型的高级商业使用模型,GPT-4V 和 Gemini,通过在 各个领域和任务 中制作一系列样本,进行深入的定性分析,从初步技能,如标题和目标计数,到需要世界知识和推理的复杂任务,如笑话理解和作为 具身智能体(Embodied Agent) 的室内导航。通过设计自动驾驶场景的样本,更专业的评估。通过比较,以及全面评估。结果表明,尽管回答风格不同,GPT-4V 和 Gemini 在视觉推理能力上,表现出相当的水平。
参考论文:
- MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models, Tencent, 2024.3
- Woodpecker: Hallucination Correction for Multimodal Large Language Models, Tencent, 2024.8
- MLLM - AD: On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving, 2023.11, 自动驾驶(Autonomous Driving) 领域
- GPT-4V vs Gemini: A challenger to gpt-4v? early explorations of gemini in visual expertise, 2023.12, Tencent
- SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models,2023.11
MME: Multimodal Large Language Model (MLLM) Evaluation benchmark,总共评估 14 个子任务的 感知(Perception) 和 认知(Cognition) 能力。避免直接使用公共数据集进行评估,可能出现的数据泄露问题,指令答案对(Instruction Answer Pairs) 的标注都是手动设计的。简洁的指令设计,能够公平地比较 MLLM,而不是依赖于提示工程,还可以进行定量统计。总共有 30 个先进的 MLLM 在 MME 上进行全面评估,表明现有的 MLLM 仍有较大的改进空间,而且还揭示后续模型优化的潜在方向。
MME 的基准测试图表,每张图片对应 2 个问题,其答案分别标记为 是[Y]
和 否[N]
,指令由一个问题组成,跟着“请回答是或否”,所有的指令都是手动设计的。合计包括 14 个子任务,其中感知(Perception)任务 10 个,认知(Cognition)任务 4 个,感知任务划分为 粗粒度(Coarse-Grained) 任务、细粒度(Fine-Grained) 任务、OCR 任务,认知任务就是 推理(Reasoning) 任务,每个任务是 200 分,满分是 2800 分。即:
- Existence,是否存在
- Count,数量
- Position,位置 (左右)
- Color,颜色
- Poster,海报
- Celebrity,名人
- Scene,厂家
- Landmark,地表
- Artwork,艺术品
- OCR,文字识别
- Commonsense Reasoning,常识推理
- Numerical Calculation,数字计算
- Text Translation,文本翻译
- Code Reasoning,代码推理
即:
Woodpecker: 幻觉(Hallucination) 表示生成文本与图像内容不一致的现象,为了减轻幻觉,现有的研究主要采用 指令微调(Instruction-Tuning) 的方式,这需要使用特定数据重新训练模型。使用无需训练的方法,就像 啄木鸟(Woodpecker) 治愈树木一样,从生成的文本中挑选,纠正幻觉。具体来说,Woodpecker 包括 5 个阶段:
- 关键概念提取 (Key Concept Extraction)
- 问题定义 (Question Formulation)
- 视觉知识验证 (Visual Knowledge Validation)
- 视觉回答生成 (Visual Claim Generation)
- 幻觉纠正 (Hallucination Correction)
以事后补救的方式实现,Woodpecker 可以轻松地服务于不同的 MLLM,同时,通过访问 5 个阶段的中间输出来实现可解释性。
Woodpecker 的项目效果:
Woodpecker 的框架:给定图片和查询,MLLM 输出相应的回答,通过包括关键概念提取、问题定义、视觉知识验证、视觉回答生成等 4 个步骤,得到特定于图片和原始回答的视觉知识库。在最后一步中,以边界框为证据,纠正回答中的幻觉,类似于 GPT-o1。即:
GPT-4V vs Gemini: 在大数据和强力计算能力的推动下,大语言模型(LLM) 领域获得了前所未有的热情和进步,在广泛的领域展示出泛化能力。在此基础上,多模态大语言模型(MLLM)正成为新一代研究的重点。目标是将 LLM 与额外的感官输入结合起来,例如图像、音频、3D等。在新模态数据的条件下,MLLM 在通往 通用人工智能(AGI) 的道路上迈出重要的一步。OpenAI 的 GPT-4V(ision) 被认为是迄今为止最强大的 MLLM,超过众多基于 LLaMA 的模型,例如 LLaMA-Adapter、LLaVA 和 MiniGPT-4 等。谷歌最近发布的 Gemini 已成为 GPT-4V 的强大挑战者,在不同的基准测试中,展现出显著的多模态能力。鉴于 Gemini 的全部潜力尚未被完全挖掘,在本文中,通过将 Gemini 与现有的最佳表现 MLLM,即 GPT-4V进行比较,进行早期探索,揭示多模态能力。
GPT-4V、Gemini、Sphinx 的效果:
标签:4V,模型,MLLM,LLM,GPT,Woodpecker,Evaluation,评估 From: https://blog.csdn.net/u012515223/article/details/142364884