首页 > 其他分享 >MLLM_20241025

MLLM_20241025

时间:2024-11-08 20:56:53浏览次数:3  
标签:视频 训练 论文 MLLM LLaVA 20241025 问答 个性化

Paper 1

  • 题目: Yo’LLaVA: Your Personalized Language and Vision Assistant
  • 作者: Thao Nguyen, Haotian Liu, Yuheng Li, Mu Cai, Utkarsh Ojha, Yong Jae Lee
  • 团队: University of Wisconsin–Madison(LLaVA原作者团队)
  • 链接: https://thaoshibe.github.io/YoLLaVA/

1. 论文试图解决什么问题?是否是一个新问题?
个性化MLLM,让MLLM实现对特定用户个体的识别、图文问答。
是新问题。

2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?

  • 一个并行的工作是MyVLM,缺陷为依赖于外部模块。
  • 研究员: Haotian Liu,Yong Jae Lee(LLaVA原作者团队)

3. 论文提到的解决方案的关键是什么(创新点)?

  1. 用可学习prompt表示个性化对象: "<sks> is <token1><token2>. . . <tokenk>.",训练时只需训练这k+1个可学习tokens和LLM的分类头。
  2. 在训练中添加“难负样本”(与个性化对象具有相似视觉特征但不完全相同的图片),以便模型更有效地学习个性化对象的细节特征。
  3. 去掉图像直接用问答文本训练模型,使其基于内嵌特征回答问题,将个性化对象的概念信息嵌入到learnable tokens中。

4. 论文中的实验如何设计?

  • 基线模型: Vanilla LLaVA(不含个性化特征的LLaVA模型)、LLaVA+个性化描述(基于人工或自动生成的个性化描述)以及MyVLM
  • 指标: 识别(图中是否有这个对象)准确率、视觉问答和文本问答准确率
  • 消融实验: 可学习tokens的数量、正样本图像数量、“难负样本”影响

5. 代码是否开源?
是。

6. 用于训练和定量评估的数据集分别是什么?

  • 训练数据集: 自构数据集,包含40个个性化对象的图像,每个对象(人物、宠物、地标、物品及虚构角色)有5-10张图片作为正样本,100张随机图片和n*m张相似图片作为负样本。
  • 评估数据集: 自构数据集。识别部分包含333张正样本和13,320张负样本;问答部分有171个视觉问题和400个纯文本问题(选择题)。

7. 论文中的实验和结果有没有很好地支持待验证的假设?
结果表明,Yo’LLaVA使用仅16个可学习token就能达到与GPT-4V+个性化描述(1000+tokens)相当的表现,在负样本识别和个性化问答方面显著优于其他基线模型。

8. 在你看来这篇论文还有哪些不足?
测试数据多为偏简单的选择题,难以验证真正个性化的识别效果,如“区分金毛A和金毛B或普通金毛”。

9. 下一步有什么工作可以深入?
可与用户的元数据整合以增强个性化功能。

Paper 2

  • 题目: SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
  • 作者: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
  • 团队: Apple
  • 链接: https://arxiv.org/abs/2407.15841

1. 论文试图解决什么问题?是否是一个新问题?
在视频理解中有效提取空间和时间特征,特别是在无需额外训练的情况下。
而非全新问题。

2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?

  • 图像MLLM: Flamingo、BLIP2、LLaVA系列
  • 视频MLLM: VideoChat、Video-LLaVA
  • Training-Free MLLMs: FreeVA、IG-VLM
  • 研究员: Zhe Gan(Apple AI/ML,1.6w引)

3. 论文提到的解决方案的关键是什么(创新点)?
“SlowFast”双路径设计,将视频帧分为“慢速”路径(高空间分辨率,低帧率)和“快速”路径(高帧率,低空间分辨率),更好地捕捉视频中的细节和运动特征,无需额外训练,具有成本效益。

4. 论文中的实验如何设计?
基于LLaVA-Next。在开放式视频问答、选择题视频问答和文本生成三个任务上进行,使用8个不同的基准测试,通过准确度和生成质量(例如细节、上下文和一致性)评估模型。

5. 代码是否开源?
是。

6. 用于训练和定量评估的数据集分别是什么?

  • 训练: 无训练
  • 评估:
    • 开放式视频问答: MSVD-QA、MSRVTT-QA、TGIF-QA、ActivityNet-QA
    • 选择题视频问答: NExTQA、EgoSchema、IntentQA
    • 文本生成: VCGBench

7. 论文中的实验和结果有没有很好地支持待验证的假设?
是,实验显示SF-LLaVA在多个基准测试上优于现有的无训练方法,并在一些基准上超越了经过微调的视频模型,验证了双路径设计在视频理解中的有效性。

8. 在你看来这篇论文还有哪些不足?
缺乏对细粒度时间定位的支持,如准确捕捉视频片段的起止时间。均匀采样策略可能会错过关键帧,影响对快速事件的理解。

9. 下一步有什么工作可以深入?
探索动态采样策略,以确保关键视频片段的采样覆盖。

标签:视频,训练,论文,MLLM,LLaVA,20241025,问答,个性化
From: https://www.cnblogs.com/LittleHenry/p/18535927

相关文章

  • 20241025物体分割
    在计算机视觉中,语义分割、实例分割和全景分割都是图像分割的重要方法,它们帮助模型理解图像中每个像素的语义信息。下面是对这三种分割技术的解释和示例:语义分割(SemanticSegmentation)语义分割是指将图像中的每个像素分类到预定义的类别中。在语义分割中,不区分同一类别的不同......
  • 多模态大语言模型(MLLM)-InstructBlip深度解读
    前言InstructBlip可以理解为Blip2的升级版,重点加强了图文对话的能力。模型结构和Blip2没差别,主要在数据集收集、数据集配比、指令微调等方面下文章。创新点数据集收集:将26个公开数据集转换为指令微调格式,并将它们归类到11个任务类别中。使用了其中13个数据集来进行指令......
  • LLM - 理解 多模态大语言模型(MLLM) 的 评估(Evaluation) 与相关技术 (六)
    欢迎关注我的CSDN:https://spike.blog.csdn.net/本文地址:https://spike.blog.csdn.net/article/details/142364884免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。评估(Evaluation)是研发多模态大语言模型(MLLM)的重要部分,也为模型的优化提......
  • 多模态大型语言模型(MLLM)综述(非常详细)零基础入门到精通, 收藏这一篇就够了
    ASurveyonMultimodalLargeLanguageModels多模态大型语言模型(MLLM)综述摘要—最近,以GPT-4V为代表的多模态大型语言模型(MLLM)已成为新兴的研究热点,它使用强大的大型语言模型(LLMs)作为“大脑”来执行多模态任务。MLLM出人意料的涌现能力,如基于图像编写故事和无需OCR的数学......
  • LLM新巅峰||北大提出mllm-NPU,赋能1000字/秒的设备端LLM预填充
    本文提出了mllm-NPU,这是第一个有效利用设备上神经处理单元(NPU)卸载的LLM推理系统。mllm-NPU的主要设计目标是减少预填充延迟和能耗。它针对主流的仅解码器的变压器架构的LLM(例如LlaMA、GPT等)。关键思想是最大限度地在移动NPU上执行预填充,以加速整数计算,同时保持在CPU/GPU上执行......
  • LlamaIndex中的CustomLLM(本地加载模型)
      LlamaIndex中接口基本上调用的是OpenAI,如果想想调用自定义模型可以吗?答案当然是可以的。经过查找找到了自定义大语言模型的简单抽象基类classCustomLLM(LLM)。一.CustomLLM(LLM)源码  只要子类必须实现__init__、_complete、_stream_complete和metadata方法即可......
  • LlamaIndex中的CustomLLM(在线加载模型)
    一.使用Flask将模型封装为REST接口  主要是将complete()和stream_complete()方法封装为REST接口,如下所示:from flask import Flask, request, jsonifyfrom transformers import AutoTokenizer, AutoModelForCausalLMapp = Flask(__name__)class QwenModel:......
  • 行行AI人才直播第8期:新加坡国立大学在读博士生张傲《多模态大语言模型(MLLM)的简介及
    随着ChatGPT在各领域展现出非凡能力,多模态大型语言模型(MLLM)近来也成为了研究的热点,它利用强大的大型语言模型(LLM)作为“大脑”,可以执行各种多模态任务。更让人感慨的是,MLLM展现出了传统方法所不具备的能力,比如能够根据图像创作故事,无需OCR的数学推理等,这为实现人工智能的通用......