首页 > 其他分享 >MLLM_20241117

MLLM_20241117

时间:2024-11-17 21:30:23浏览次数:1  
标签:训练 20241117 压缩 论文 任务 MLLM token 视觉

Paper 1

  • 题目: INFERENCE OPTIMAL VLMS NEED ONLY ONE VISUAL TOKEN BUT LARGER MODELS
  • 作者团队: Kevin Y. Li, Sachin Goyal, João D. Semedo, J. Zico Kolter (CMU)
  • 链接: https://arxiv.org/abs/2411.03312

1. 论文试图解决什么问题?是否是一个新问题?
论文试图解决VLMs推理阶段的性能和计算成本之间的权衡问题,提出推理计算最优的scaling law。提出的极限视觉token压缩和scaling optimization是全新的视角。

2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?

  • 相关研究分类
    1. 视觉token压缩:文中提到了TokenPacker和Matryoshka等(孟帆学长的组会讲得更全)。
    2. 推理优化:关注scaling law的研究,如Kaplan等人关于LLM的scaling law。
  • 值得关注的研究员
    • J. Zico Kolter(本论文作者)

3. 论文提到的解决方案的关键是什么(创新点)?

  • 创新点
    1. 提出推理优化的scaling law,量化视觉token数量和LLM规模的最佳组合。
    2. 首次揭示极限视觉token压缩(如1或4个token)的推理最优配置。
    3. 提出基于用户查询的卷积交叉注意力方法(QueCC)(这个好像就是把TokenPacker的Query换成了text的),支持极限token压缩。

4. 论文中的实验如何设计?

  • 实验设计:
    1. scaling law验证:使用不同大小的LLM(0.5B到14B)和不同视觉token数量(1到576),拟合标度曲线并预测性能。
    2. 算法比较:QueCC与现有方法(如TokenPacker、Matryoshka等)在多个任务中的性能对比。
    3. 任务场景扩展:分析OCR任务和视觉推理任务中的推理最优配置。

5. 代码是否开源?
是,https://github.com/locuslab/llava-token-compression

6. 用于训练和定量评估的数据集分别是什么?

  • 训练数据集:LLaVA-Next的。
  • 评估数据集
    1. 视觉推理:GQA, MMBench, MME, ScienceQA等。
    2. OCR任务:TextVQA, DocVQA等。

7. 论文中的实验和结果有没有很好地支持待验证的假设?
实验很好地支持了假设:

  • 标度定律的拟合误差低于2%,证明推理最优配置的可预测性。
  • QueCC在极限token压缩(1或4个)下显著优于其他方法,支持论文对极限压缩的主张。

8. 在你看来这篇论文还有哪些不足?

  • 对于OCR等text recognition任务覆盖不足,没有深入讨论高信息密度场景的优化策略。
  • 提出的定律可能依赖特定模型和任务,泛化性需要进一步验证。

9. 下一步有什么工作可以深入?

  • 针对OCR等高信息密度任务的自适应压缩算法。
  • 验证该定律对其他多模态任务(如视频理解)的适用性。
  • 如何结合更复杂的用户查询和多模态上下文,优化极限压缩场景下的性能。

Paper 2

  • 题目: LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression
  • 作者团队: Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi†, Alan Yuille†
  • 链接: https://arxiv.org/abs/2406.20092

1. 论文试图解决什么问题?是否是一个新问题?
视觉token冗余问题。现在看来貌似也没那么新了:(

2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?

  1. 视觉token冗余优化:略~
  2. 高效LLM训练:动态token压缩(如Pyramid Transformer)和逐步扩展模型训练深度/宽度的方法。

3. 论文提到的解决方案的关键是什么(创新点)?

  • 视觉上下文压缩器(VCC)
    • 使用平均池化(average pooling)减少视觉token数量,在保证性能的同时降低计算成本。
  • LLaVolta多阶段训练方案
    • 提出逐步减少压缩率的三阶段训练方法,兼顾训练效率和信息保留。
  • 新发现
    • 证明视觉token存在显著冗余,即使减少70%的视觉token,模型性能也仅略微下降。

4. 论文中的实验如何设计?

  • 冗余验证实验
    • 在预训练模型中,通过逐步减少视觉token数量(如70%),验证对性能的影响。
  • 多模态基准测试
    • 在13个数据集(如GQA、MM-Vet、TextVQA)上测试模型性能和训练效率。
  • 对比实验
    • 与其他压缩方法(如K均值聚类、注意力方法)比较。
  • 扩展实验
    • 在视频多模态任务中验证LLaVolta的扩展性。

5. 代码是否开源?
是,GitHub Repository

6. 用于训练和定量评估的数据集分别是什么?

  • 训练数据集:LLaVA-1.5的
  • 评估数据集
    1. 图像任务:GQA、VQA-v2、MMBench
    2. 文本识别:TextVQA
    3. 视频任务:MSVD-QA、ActivityNet-QA等

7. 论文中的实验和结果有没有很好地支持待验证的假设?
是。实验充分验证了视觉token的冗余性,LLaVolta的多阶段压缩训练显著减少了训练时间(16%)且性能提升,在9个基准测试中表现最佳,验证了其理论假设的有效性。

8. 在你看来这篇论文还有哪些不足?

  • 对于高信息密度任务(如OCR)的压缩方法探讨不足。
  • 多阶段训练方案可能在更大规模模型或超长序列上面临扩展性问题?
  • 缺乏对动态自适应压缩机制的探索。

9. 下一步有什么工作可以深入?

  • 开发适应高信息密度任务的压缩算法。
  • 自适应视觉token压缩率,根据图像内容动态调整。

标签:训练,20241117,压缩,论文,任务,MLLM,token,视觉
From: https://www.cnblogs.com/LittleHenry/p/18551108

相关文章

  • SAM4MLLM:结合多模态大型语言模型和SAM实现高精度引用表达分割 | ECCV'24
    来源:晓飞的算法工程笔记公众号,转载请注明出处论文:SAM4MLLM:EnhanceMulti-ModalLargeLanguageModelforReferringExpressionSegmentation论文地址:https://arxiv.org/abs/2409.10542论文代码:https://github.com/AI-Application-and-Integration-Lab/SAM4MLLM创......
  • MLLM_20241101
    Paper1题目:LongVU:SpatiotemporalAdaptiveCompressionforLongVideo-LanguageUnderstanding作者团队:MetaAI,KAUST,KoreaUniversity链接:https://arxiv.org/abs/2410.174341.论文试图解决什么问题?是否是一个新问题?MLLM长视频理解问题。是新问题。2.有哪......
  • MLLM_20241025
    Paper1题目:Yo’LLaVA:YourPersonalizedLanguageandVisionAssistant作者:ThaoNguyen,HaotianLiu,YuhengLi,MuCai,UtkarshOjha,YongJaeLee团队:UniversityofWisconsin–Madison(LLaVA原作者团队)链接:https://thaoshibe.github.io/YoLLaVA/1.论文试......
  • 多模态大语言模型(MLLM)-InstructBlip深度解读
    前言InstructBlip可以理解为Blip2的升级版,重点加强了图文对话的能力。模型结构和Blip2没差别,主要在数据集收集、数据集配比、指令微调等方面下文章。创新点数据集收集:将26个公开数据集转换为指令微调格式,并将它们归类到11个任务类别中。使用了其中13个数据集来进行指令......
  • LLM - 理解 多模态大语言模型(MLLM) 的 评估(Evaluation) 与相关技术 (六)
    欢迎关注我的CSDN:https://spike.blog.csdn.net/本文地址:https://spike.blog.csdn.net/article/details/142364884免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。评估(Evaluation)是研发多模态大语言模型(MLLM)的重要部分,也为模型的优化提......
  • 多模态大型语言模型(MLLM)综述(非常详细)零基础入门到精通, 收藏这一篇就够了
    ASurveyonMultimodalLargeLanguageModels多模态大型语言模型(MLLM)综述摘要—最近,以GPT-4V为代表的多模态大型语言模型(MLLM)已成为新兴的研究热点,它使用强大的大型语言模型(LLMs)作为“大脑”来执行多模态任务。MLLM出人意料的涌现能力,如基于图像编写故事和无需OCR的数学......
  • LLM新巅峰||北大提出mllm-NPU,赋能1000字/秒的设备端LLM预填充
    本文提出了mllm-NPU,这是第一个有效利用设备上神经处理单元(NPU)卸载的LLM推理系统。mllm-NPU的主要设计目标是减少预填充延迟和能耗。它针对主流的仅解码器的变压器架构的LLM(例如LlaMA、GPT等)。关键思想是最大限度地在移动NPU上执行预填充,以加速整数计算,同时保持在CPU/GPU上执行......
  • LlamaIndex中的CustomLLM(本地加载模型)
      LlamaIndex中接口基本上调用的是OpenAI,如果想想调用自定义模型可以吗?答案当然是可以的。经过查找找到了自定义大语言模型的简单抽象基类classCustomLLM(LLM)。一.CustomLLM(LLM)源码  只要子类必须实现__init__、_complete、_stream_complete和metadata方法即可......
  • LlamaIndex中的CustomLLM(在线加载模型)
    一.使用Flask将模型封装为REST接口  主要是将complete()和stream_complete()方法封装为REST接口,如下所示:from flask import Flask, request, jsonifyfrom transformers import AutoTokenizer, AutoModelForCausalLMapp = Flask(__name__)class QwenModel:......
  • 行行AI人才直播第8期:新加坡国立大学在读博士生张傲《多模态大语言模型(MLLM)的简介及
    随着ChatGPT在各领域展现出非凡能力,多模态大型语言模型(MLLM)近来也成为了研究的热点,它利用强大的大型语言模型(LLM)作为“大脑”,可以执行各种多模态任务。更让人感慨的是,MLLM展现出了传统方法所不具备的能力,比如能够根据图像创作故事,无需OCR的数学推理等,这为实现人工智能的通用......