首页 > 其他分享 >MLLM_20241101

MLLM_20241101

时间:2024-11-08 21:08:30浏览次数:4  
标签:模态 视频 论文 MLLM 20241101 LLaVA 对齐 数据

Paper 1

  • 题目: LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
  • 作者团队: Meta AI, KAUST, Korea University
  • 链接: https://arxiv.org/abs/2410.17434

1. 论文试图解决什么问题?是否是一个新问题?
MLLM长视频理解问题。是新问题。

2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?

  • Video Token Compression的相关工作:Chat-UniVi, SlowFast-LLaVA, AVG-LLaVA

3. 论文提到的解决方案的关键是什么(创新点)?

  1. 利用DINOv2特征,基于帧间相似度过滤冗余帧。
  2. 根据文本查询,保留与任务相关帧的高分辨率特征,对其他帧进行空间池化。
  3. 在视频帧中划分滑动窗口,仅保留窗口内第一个帧的全分辨率,压缩相似性高的spatial tokens。

4. 论文中的实验如何设计?

  1. 基准测试:与现有视频LLM方法进行对比。
  2. 消融实验:研究每个模块(时间压缩、跨模态查询、空间压缩)对模型性能的影响。
  3. 通过token数统计和视觉对比展示LongVU的压缩效率。

5. 代码是否开源?
是。

6. 用于训练和定量评估的数据集分别是什么?

  • 训练数据集: 图像-语言预训练采用LLaVA-OneVision的单图像数据,视频-语言微调使用VideoChat2-IT数据集中的多种视频-文本配对数据。
  • 评估基准测试: EgoSchema、MVBench、VideoMME、MLVU。

7. 论文中的实验和结果有没有很好地支持待验证的假设?
实验很充分,结果很好地支持了论文的假设。

8. 在你看来这篇论文还有哪些不足?
相比于SlowFast-LLaVA这种training-free的工作,对计算资源和数据量要求较高;本文专注于对video SFT,可能会导致对图像理解能力下降。

9. 下一步有什么工作可以深入?
文中提到DINOv2特征比SigLIP特征更有效;SVA可能比较有用;spatial token compression消除像素级冗余的方式很简洁,值得借鉴。

Paper 2

  • 题目: TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment (NeurIPS 2024 Spotlight)
  • 作者团队: 浙大,新国大
  • 链接: https://arxiv.org/pdf/2405.13911

1. 论文试图解决什么问题?是否是一个新问题?
如何在没有真实视频数据的情况下,将大语言模型(LLM)扩展用于视频理解的问题。该问题较新,属于减少视频预训练成本和跨模态对齐的探索。

2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?

  • 图像-语言对齐(CLIP等)
  • 视频-语言模型预训练(InternVideo、LongViViT)
  • 视频代理模型(Video Agents):包括GPT-4和LLaVA等

3. 论文提到的解决方案的关键是什么(创新点)?
论文的创新在于提出了Text-Only Pre-Alignment(TOPA)框架,通过生成模拟视频的文本数据集(TextVid)和跨模态对齐,使LLM无需真实视频数据即可处理视频理解任务。

4. 论文中的实验如何设计?

  • 零样本推理、在部分数据集上微调
  • 将TOPA的效果与几类主流的视频理解方法(如传统视频预训练、图像-视频对齐、视频指令调优和视频代理模型)进行比较

5. 代码是否开源?
是。

6. 用于训练和定量评估的数据集分别是什么?

  • 训练数据集: 生成的TextVid文本视频数据集
  • 评估数据集: NeXT-QA、STAR、TVQA、EgoSchema和MVBench

7. 论文中的实验和结果有没有很好地支持待验证的假设?
实验结果很好地支持了论文的假设。

8. 在你看来这篇论文还有哪些不足?
模态差距问题、细粒度视觉理解的局限性:由于采用文本视频的生成方法,在需要精确空间信息(如对象移动方向和姿势)的任务中表现较弱。TOPA主要关注关键帧,忽略了对高帧率视频的处理能力。

9. 下一步有什么工作可以深入?
探索更好的跨模态对齐技术,如何对细粒度特征建模。

标签:模态,视频,论文,MLLM,20241101,LLaVA,对齐,数据
From: https://www.cnblogs.com/LittleHenry/p/18535936

相关文章

  • MLLM_20241025
    Paper1题目:Yo’LLaVA:YourPersonalizedLanguageandVisionAssistant作者:ThaoNguyen,HaotianLiu,YuhengLi,MuCai,UtkarshOjha,YongJaeLee团队:UniversityofWisconsin–Madison(LLaVA原作者团队)链接:https://thaoshibe.github.io/YoLLaVA/1.论文试......
  • 20241101
    T1美丽的序列dp中记录每个数上一次出现位置和当前位置的差,和\(7\)(或这个数)取\(\min\)。状态数很少,直接做即可。代码#include<iostream>#include<unordered_map>#include<vector>#include<map>usingnamespacestd;constintP=1000000007;inlinevoidMadd(......
  • 20241101 模拟赛总结
    期望得分:100+47+35+22=204实际得分:100+47+3+22=172订正记录T1订正了之前T3,晚了半个多小时才开T1……开始大胆猜想是从小到大排序计算,后面发现不对?又想了一个邻项交换的点子,发现没什么区别,后面又猜是不是一段后缀,发现几个样例还真是!进一步思考后发现,是一段递增的子序列,并且起......
  • Diffuision Policy + RL -------个人博客_ZSY_20241101
    DiffusionPolicy:VisuomotorPolicyLearningviaActionDiffusionChengChi,ZhenjiaXu,SiyuanFeng,EricCousineau,YilunDu,BenjaminBurchfiel,RussTedrake,ShuranSong原论文链接投在了IJRR上点击:原作者论文思路讲解1.PPO背景引入这里简要交代PPO的算法......
  • 多模态大语言模型(MLLM)-InstructBlip深度解读
    前言InstructBlip可以理解为Blip2的升级版,重点加强了图文对话的能力。模型结构和Blip2没差别,主要在数据集收集、数据集配比、指令微调等方面下文章。创新点数据集收集:将26个公开数据集转换为指令微调格式,并将它们归类到11个任务类别中。使用了其中13个数据集来进行指令......
  • LLM - 理解 多模态大语言模型(MLLM) 的 评估(Evaluation) 与相关技术 (六)
    欢迎关注我的CSDN:https://spike.blog.csdn.net/本文地址:https://spike.blog.csdn.net/article/details/142364884免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。评估(Evaluation)是研发多模态大语言模型(MLLM)的重要部分,也为模型的优化提......
  • 多模态大型语言模型(MLLM)综述(非常详细)零基础入门到精通, 收藏这一篇就够了
    ASurveyonMultimodalLargeLanguageModels多模态大型语言模型(MLLM)综述摘要—最近,以GPT-4V为代表的多模态大型语言模型(MLLM)已成为新兴的研究热点,它使用强大的大型语言模型(LLMs)作为“大脑”来执行多模态任务。MLLM出人意料的涌现能力,如基于图像编写故事和无需OCR的数学......
  • LLM新巅峰||北大提出mllm-NPU,赋能1000字/秒的设备端LLM预填充
    本文提出了mllm-NPU,这是第一个有效利用设备上神经处理单元(NPU)卸载的LLM推理系统。mllm-NPU的主要设计目标是减少预填充延迟和能耗。它针对主流的仅解码器的变压器架构的LLM(例如LlaMA、GPT等)。关键思想是最大限度地在移动NPU上执行预填充,以加速整数计算,同时保持在CPU/GPU上执行......
  • LlamaIndex中的CustomLLM(本地加载模型)
      LlamaIndex中接口基本上调用的是OpenAI,如果想想调用自定义模型可以吗?答案当然是可以的。经过查找找到了自定义大语言模型的简单抽象基类classCustomLLM(LLM)。一.CustomLLM(LLM)源码  只要子类必须实现__init__、_complete、_stream_complete和metadata方法即可......
  • LlamaIndex中的CustomLLM(在线加载模型)
    一.使用Flask将模型封装为REST接口  主要是将complete()和stream_complete()方法封装为REST接口,如下所示:from flask import Flask, request, jsonifyfrom transformers import AutoTokenizer, AutoModelForCausalLMapp = Flask(__name__)class QwenModel:......