Paper 1
- 题目: LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
- 作者团队: Meta AI, KAUST, Korea University
- 链接: https://arxiv.org/abs/2410.17434
1. 论文试图解决什么问题?是否是一个新问题?
MLLM长视频理解问题。是新问题。
2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?
- Video Token Compression的相关工作:Chat-UniVi, SlowFast-LLaVA, AVG-LLaVA
3. 论文提到的解决方案的关键是什么(创新点)?
- 利用DINOv2特征,基于帧间相似度过滤冗余帧。
- 根据文本查询,保留与任务相关帧的高分辨率特征,对其他帧进行空间池化。
- 在视频帧中划分滑动窗口,仅保留窗口内第一个帧的全分辨率,压缩相似性高的spatial tokens。
4. 论文中的实验如何设计?
- 基准测试:与现有视频LLM方法进行对比。
- 消融实验:研究每个模块(时间压缩、跨模态查询、空间压缩)对模型性能的影响。
- 通过token数统计和视觉对比展示LongVU的压缩效率。
5. 代码是否开源?
是。
6. 用于训练和定量评估的数据集分别是什么?
- 训练数据集: 图像-语言预训练采用LLaVA-OneVision的单图像数据,视频-语言微调使用VideoChat2-IT数据集中的多种视频-文本配对数据。
- 评估基准测试: EgoSchema、MVBench、VideoMME、MLVU。
7. 论文中的实验和结果有没有很好地支持待验证的假设?
实验很充分,结果很好地支持了论文的假设。
8. 在你看来这篇论文还有哪些不足?
相比于SlowFast-LLaVA这种training-free的工作,对计算资源和数据量要求较高;本文专注于对video SFT,可能会导致对图像理解能力下降。
9. 下一步有什么工作可以深入?
文中提到DINOv2特征比SigLIP特征更有效;SVA可能比较有用;spatial token compression消除像素级冗余的方式很简洁,值得借鉴。
Paper 2
- 题目: TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment (NeurIPS 2024 Spotlight)
- 作者团队: 浙大,新国大
- 链接: https://arxiv.org/pdf/2405.13911
1. 论文试图解决什么问题?是否是一个新问题?
如何在没有真实视频数据的情况下,将大语言模型(LLM)扩展用于视频理解的问题。该问题较新,属于减少视频预训练成本和跨模态对齐的探索。
2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?
- 图像-语言对齐(CLIP等)
- 视频-语言模型预训练(InternVideo、LongViViT)
- 视频代理模型(Video Agents):包括GPT-4和LLaVA等
3. 论文提到的解决方案的关键是什么(创新点)?
论文的创新在于提出了Text-Only Pre-Alignment(TOPA)框架,通过生成模拟视频的文本数据集(TextVid)和跨模态对齐,使LLM无需真实视频数据即可处理视频理解任务。
4. 论文中的实验如何设计?
- 零样本推理、在部分数据集上微调
- 将TOPA的效果与几类主流的视频理解方法(如传统视频预训练、图像-视频对齐、视频指令调优和视频代理模型)进行比较
5. 代码是否开源?
是。
6. 用于训练和定量评估的数据集分别是什么?
- 训练数据集: 生成的TextVid文本视频数据集
- 评估数据集: NeXT-QA、STAR、TVQA、EgoSchema和MVBench
7. 论文中的实验和结果有没有很好地支持待验证的假设?
实验结果很好地支持了论文的假设。
8. 在你看来这篇论文还有哪些不足?
模态差距问题、细粒度视觉理解的局限性:由于采用文本视频的生成方法,在需要精确空间信息(如对象移动方向和姿势)的任务中表现较弱。TOPA主要关注关键帧,忽略了对高帧率视频的处理能力。
9. 下一步有什么工作可以深入?
探索更好的跨模态对齐技术,如何对细粒度特征建模。