首页 > 其他分享 >LLM - 理解 多模态大语言模型(MLLM) 的 评估(Evaluation) 与相关技术 (六)

LLM - 理解 多模态大语言模型(MLLM) 的 评估(Evaluation) 与相关技术 (六)

时间:2024-09-19 20:19:39浏览次数:12  
标签:4V 模型 MLLM LLM GPT Woodpecker Evaluation 评估

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/142364884

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


评估(Evaluation) 是研发多模态大语言模型(MLLM)的重要部分,也为模型的优化提供反馈,有助于比较不同模型的性能。与传统多模态模型的评估方法相比,MLLM 评估表现的特点如下:

  1. 由于 MLLM 通常具有通用性,因此,全面评估 MLLM 非常重要。
  2. MLLM 展现出许多 涌现(Emergent) 能力,需要特别关注,例如,无需 OCR 的数学推理,因此需要设计新的评估方案。

根据问题类型,MLLM 的评估主要分为2 类,即 封闭集(closed-set)开放集(open-set)

封闭集(Closed-Set) 问题,即可能的答案选项,是预定义的,限制在有限集合中的问题,评估通常在特定任务的数据集上进行。在这种情况下,通过 基准指标(Benchmark Metrics) 自然的判断。例如,InstructBLIP 报告在 ScienceQA 的准确率,以及在 NoCapsFlickr30K 上的 CIDEr Score 得分。评估设置通常是 零样本(zero-shot) 或者 微调(finetuning)。

  • 零样本(zero-shot) 设置,通常覆盖广泛数据集,包括不同的、一般的任务,划分成 保留(Held-In) 集和 测试(Held-Out) 集。在前者上调整后,零样本性能在后者上进行评估,使用未见过的数据集或甚至未见过的任务。
  • 微调(finetuning) 设置,通常评估特定领域任务。例如,LLaVA 和 LLaMA-Adapter 报告在 ScienceQA 微调之后的性能。LLaVA-Med 报告在生物医学 VQA 的结果。

上述评估方法,仅限于小部分选定的任务或数据集,缺乏全面的 定量(Quantitative) 比较。为此,已经开始开发专门为 MLLM 设计的新基准。例如:

  • 全面的评估基准 MME,包括总共 14 个感知和认知任务,MME 中的所有指令-答案对都是手动设计的,以避免数据泄露。
  • MMBench 是专门为评估模型能力的多个维度而设计的基准,使用 ChatGPT 将开放响应与预定义的选择相匹配。
  • Video-ChatGPT 和 Video-Bench 专注于视频领域,并且提出专门的基准以及评估工具。

还有一些评估策略旨在评估模型的特定方面,如 POPE 用于评估幻觉程度的评估。

开放集(Open-Set) 问题,回答可以更加灵活,MLLM 扮演聊天机器人的角色,因为聊天内容是任意的,比封闭性输出更难判断。评判标准可以分为 人工评分(Manual Scoring)GPT评分(GPT Scoring)案例研究(Case Study),即:

  • 人工评分(Manual Scoring),需要人工评估生成的回答,通常涉及人工操作的问题,评估特定的维度。例如,mPLUG-Owl 收集与视觉相关的评估集,以判断 自然图像(Natural Image) 理解、图表(Diagram)流程图(Flowchart) 理解等能力。同样,GPT4Tools,类似于 Agent,构建 2 套分别用于微调和零样本性能的评估集,从思考(Thought)行动(Action)论点(Arguments)整体方面(The Whole) 评估回答。

  • GPT评分(GPT Scoring),由于人工评估劳动密集,探索使用 GPT 评分,用于评估多模态对话的表现。LLaVA 提出通过文本 GPT-4 对于回答评分,考虑不同方面,如有帮助性和准确性。具体来说,从 COCO 验证集中抽取 30 张图片,每张图片都包括 简短(Shot) 问题、详细(Detailed) 问题和 复杂推理(Complex Reasoning) 问题,通过在 GPT-4 的 自指令(Self-Instruction)。模型和 GPT-4 生成的答案都发送给 GPT-4 比较,根据这个思路,提示 ChatGPT 或 GPT-4 评分或判断答案是否更好。随着 GPT 视觉接口的发布,使用 GPT-4V 模型评估 MLLM 的性能。Woodpecker 采用 GPT-4V 根据图像判断模型回答的质量,由于 GPT-4V 可以直接访问图像,因此预计评估比仅使用文本 GPT-4 更准确。

  • 案例研究(Case Study),评估两个典型的高级商业使用模型,GPT-4V 和 Gemini,通过在 各个领域和任务 中制作一系列样本,进行深入的定性分析,从初步技能,如标题和目标计数,到需要世界知识和推理的复杂任务,如笑话理解和作为 具身智能体(Embodied Agent) 的室内导航。通过设计自动驾驶场景的样本,更专业的评估。通过比较,以及全面评估。结果表明,尽管回答风格不同,GPT-4V 和 Gemini 在视觉推理能力上,表现出相当的水平。

参考论文:

MME: Multimodal Large Language Model (MLLM) Evaluation benchmark,总共评估 14 个子任务的 感知(Perception)认知(Cognition) 能力。避免直接使用公共数据集进行评估,可能出现的数据泄露问题,指令答案对(Instruction Answer Pairs) 的标注都是手动设计的。简洁的指令设计,能够公平地比较 MLLM,而不是依赖于提示工程,还可以进行定量统计。总共有 30 个先进的 MLLM 在 MME 上进行全面评估,表明现有的 MLLM 仍有较大的改进空间,而且还揭示后续模型优化的潜在方向。

MME 的基准测试图表,每张图片对应 2 个问题,其答案分别标记为 是[Y]否[N],指令由一个问题组成,跟着“请回答是或否”,所有的指令都是手动设计的。合计包括 14 个子任务,其中感知(Perception)任务 10 个,认知(Cognition)任务 4 个,感知任务划分为 粗粒度(Coarse-Grained) 任务、细粒度(Fine-Grained) 任务、OCR 任务,认知任务就是 推理(Reasoning) 任务,每个任务是 200 分,满分是 2800 分。即:

  1. Existence,是否存在
  2. Count,数量
  3. Position,位置 (左右)
  4. Color,颜色
  5. Poster,海报
  6. Celebrity,名人
  7. Scene,厂家
  8. Landmark,地表
  9. Artwork,艺术品
  10. OCR,文字识别
  11. Commonsense Reasoning,常识推理
  12. Numerical Calculation,数字计算
  13. Text Translation,文本翻译
  14. Code Reasoning,代码推理

即:

MME

Woodpecker: 幻觉(Hallucination) 表示生成文本与图像内容不一致的现象,为了减轻幻觉,现有的研究主要采用 指令微调(Instruction-Tuning) 的方式,这需要使用特定数据重新训练模型。使用无需训练的方法,就像 啄木鸟(Woodpecker) 治愈树木一样,从生成的文本中挑选,纠正幻觉。具体来说,Woodpecker 包括 5 个阶段:

  1. 关键概念提取 (Key Concept Extraction)
  2. 问题定义 (Question Formulation)
  3. 视觉知识验证 (Visual Knowledge Validation)
  4. 视觉回答生成 (Visual Claim Generation)
  5. 幻觉纠正 (Hallucination Correction)

以事后补救的方式实现,Woodpecker 可以轻松地服务于不同的 MLLM,同时,通过访问 5 个阶段的中间输出来实现可解释性。

Woodpecker 的项目效果:

Woodpecker

Woodpecker 的框架:给定图片和查询,MLLM 输出相应的回答,通过包括关键概念提取、问题定义、视觉知识验证、视觉回答生成等 4 个步骤,得到特定于图片和原始回答的视觉知识库。在最后一步中,以边界框为证据,纠正回答中的幻觉,类似于 GPT-o1。即:

Woodpecker

GPT-4V vs Gemini: 在大数据和强力计算能力的推动下,大语言模型(LLM) 领域获得了前所未有的热情和进步,在广泛的领域展示出泛化能力。在此基础上,多模态大语言模型(MLLM)正成为新一代研究的重点。目标是将 LLM 与额外的感官输入结合起来,例如图像、音频、3D等。在新模态数据的条件下,MLLM 在通往 通用人工智能(AGI) 的道路上迈出重要的一步。OpenAI 的 GPT-4V(ision) 被认为是迄今为止最强大的 MLLM,超过众多基于 LLaMA 的模型,例如 LLaMA-Adapter、LLaVA 和 MiniGPT-4 等。谷歌最近发布的 Gemini 已成为 GPT-4V 的强大挑战者,在不同的基准测试中,展现出显著的多模态能力。鉴于 Gemini 的全部潜力尚未被完全挖掘,在本文中,通过将 Gemini 与现有的最佳表现 MLLM,即 GPT-4V进行比较,进行早期探索,揭示多模态能力。

GPT-4V、Gemini、Sphinx 的效果:

VS

标签:4V,模型,MLLM,LLM,GPT,Woodpecker,Evaluation,评估
From: https://blog.csdn.net/u012515223/article/details/142364884

相关文章

  • LLM学习笔记-长度外推技术
    长度外推为在不需要对模型进行额外训练的情况下,模型可以处理更长的序列。本篇文章主要介绍目前大模型用到的一些长度外推技术,包括以RoPE为基础进行位置插值、NTK-aware、动态NTK、NTK-by-parts和YaRN。关于RoPE,可参见我的上一篇博客LLM学习笔记-位置编码篇位置插值回想一下Tran......
  • 2025秋招LLM大模型多模态面试题(六)-KV缓存
    目录为什么Transformer推理需要KV缓存?KV缓存的具体实现没有缓存的情况下使用缓存的情况下KV缓存在解码中的阶段划分Prefil阶段Decoding阶段KV缓存的存储类型及显存占用计算KV缓存的局限与优化策略超长文本与复杂模型场景下的瓶颈量化方案的应用量化方......
  • 2025秋招LLM大模型多模态面试题(七)- 思维链CoT
    1.思维链(cot)论文名称:Chain-of-ThoughtPromptingElicitsReasoninginLargeLanguageModels论文连接:Chain-of-ThoughtPromptingElicitsReasoninginLargeLanguageModels1.什么是思维链提示?思维链(CoT)提示过程是一种最近开发的提示方法,它鼓励大语言模型解释其......
  • LLMChat入门指南 - 基于Flutter和FastAPI的大语言模型聊天应用
    LLMChat-您的AI聊天助手......
  • 大模型 LLMs 入门指南:小白的学习之路
    前言很明显,这是一个偏学术方向的指南要求,所以我会把整个LLM应用的从数学到编程语言,从框架到常用模型的学习方法,给你捋一个通透。也可能是不爱学习的劝退文。通常要达到熟练的进行LLM相关的学术研究与开发,至少你要准备数学、编码、常用模型的知识,还有LLM相关的知识的准备......
  • Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系
    通过探索看似不相关的大语言模型(LLM)架构之间的潜在联系,我们可能为促进不同模型间的思想交流和提高整体效率开辟新的途径。尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Samba和Gri......
  • 开源大模型 | Open LLM集中爆发,卷疯了!
    开源大模型领域热闹非凡,各种开源,PaperAgent进行了概括:端侧、Code、RAG、Agent、Reflection(反思纠正)、MoE,你关注的都在这里了。一、ReflectionLlama-3.1-70B开源ReflectionLlama-3.170B是世界上顶尖的OpenLLM,通过反思微调技术(Reflection-Tuning)训练,能够检测并纠正推理错误,具有......
  • MOE vs MOT 让LLM更加有效
    知乎:北方的郎链接:https://zhuanlan.zhihu.com/p/691070810翻译自:https://www.superannotate.com/blog/mixture-of-experts-vs-mixture-of-tokens事实证明,LLM的表现与模型大小和可扩展性呈正相关。这种扩展伴随着计算资源的扩展,也就是说,模型越大,成本就越高。基于参数计......
  • 从小白到入门,写给程序员的LLM学习指南
    年初的时候,我第一次接触了ChatGPT,在被深深震撼之后,我意识到一个新的时代正在来临,作为程序员的我有了从未有过的危机感,经过过去几个月的学习,我逐渐度过了不知所措的阶段,慢慢地对以ChatGPT为代表的LLM有了一些感觉,这篇文章就把过去这段时间的学习整理成一个学习路线图,希望能对......
  • LLM应用实战: 文档问答系统Kotaemon-1. 简介及部署实践
    1.背景本qiang~这两周关注到一个很火的开源文档问答系统Kotaemon,从8月28日至今短短两周时间,github星标迅猛增长10K,因此计划深挖一下其中的原理及奥秘。本篇主要是Kotaemon的简介信息,涉及到主要特点,与传统文档RAG的区别,如何部署、以及效果演示。后续内容会针对核心模块进行拆解......