Paper 1
- 题目: INFERENCE OPTIMAL VLMS NEED ONLY ONE VISUAL TOKEN BUT LARGER MODELS
- 作者团队: Kevin Y. Li, Sachin Goyal, João D. Semedo, J. Zico Kolter (CMU)
- 链接: https://arxiv.org/abs/2411.03312
1. 论文试图解决什么问题?是否是一个新问题?
论文试图解决VLMs推理阶段的性能和计算成本之间的权衡问题,提出推理计算最优的scaling law。提出的极限视觉token压缩和scaling optimization是全新的视角。
2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?
- 相关研究分类:
- 视觉token压缩:文中5.1提到了TokenPacker和Matryoshka等(孟帆学长的组会讲得更全)。
- 推理优化:关注scaling law的研究,如Kaplan等人关于LLM的scaling law。
- 值得关注的研究员:
- J. Zico Kolter(本论文作者)
3. 论文提到的解决方案的关键是什么(创新点)?
- 创新点:
- 提出推理优化的scaling law,量化视觉token数量和LLM规模的最佳组合。
- 首次揭示极限视觉token压缩(如1或4个token)的推理最优配置。
- 提出基于用户查询的卷积交叉注意力方法(QueCC)(这个好像就是把TokenPacker的Query换成了text的),支持极限token压缩。
4. 论文中的实验如何设计?
- 实验设计:
- scaling law验证:使用不同大小的LLM(0.5B到14B)和不同视觉token数量(1到576),拟合标度曲线并预测性能。
- 算法比较:QueCC与现有方法(如TokenPacker、Matryoshka等)在多个任务中的性能对比。
- 任务场景扩展:分析OCR任务和视觉推理任务中的推理最优配置。
5. 代码是否开源?
是,https://github.com/locuslab/llava-token-compression
6. 用于训练和定量评估的数据集分别是什么?
- 训练数据集:LLaVA-Next的。
- 评估数据集:
- 视觉推理:GQA, MMBench, MME, ScienceQA等。
- OCR任务:TextVQA, DocVQA等。
7. 论文中的实验和结果有没有很好地支持待验证的假设?
实验很好地支持了假设:
- 标度定律的拟合误差低于2%,证明推理最优配置的可预测性。
- QueCC在极限token压缩(1或4个)下显著优于其他方法,支持论文对极限压缩的主张。
8. 在你看来这篇论文还有哪些不足?
- 对于OCR等text recognition任务覆盖不足,没有深入讨论高信息密度场景的优化策略。
- 提出的定律可能依赖特定模型和任务,泛化性需要进一步验证。
9. 下一步有什么工作可以深入?
- 针对OCR等高信息密度任务的自适应压缩算法。
- 验证该定律对其他多模态任务(如视频理解)的适用性。
- 如何结合更复杂的用户查询和多模态上下文,优化极限压缩场景下的性能。
Paper 2
- 题目: LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression
- 作者团队: Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi†, Alan Yuille†
- 链接: https://arxiv.org/abs/2406.20092
1. 论文试图解决什么问题?是否是一个新问题?
视觉token冗余问题。现在看来貌似也没那么新了:(
2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?
1. 视觉token冗余优化:略~
2. 高效LLM训练:动态token压缩(如Pyramid Transformer)和逐步扩展模型训练深度/宽度的方法。
3. 论文提到的解决方案的关键是什么(创新点)?
- 视觉上下文压缩器(VCC):
- 使用平均池化(average pooling)减少视觉token数量,在保证性能的同时降低计算成本。
- LLaVolta多阶段训练方案:
- 提出逐步减少压缩率的三阶段训练方法,兼顾训练效率和信息保留。
- 新发现:
- 证明视觉token存在显著冗余,即使减少70%的视觉token,模型性能也仅略微下降。
4. 论文中的实验如何设计?
- 冗余验证实验:
- 在预训练模型中,通过逐步减少视觉token数量(如70%),验证对性能的影响。
- 多模态基准测试:
- 在13个数据集(如GQA、MM-Vet、TextVQA)上测试模型性能和训练效率。
- 对比实验:
- 与其他压缩方法(如K均值聚类、注意力方法)比较。
- 扩展实验:
- 在视频多模态任务中验证LLaVolta的扩展性。
5. 代码是否开源?
是,GitHub Repository
6. 用于训练和定量评估的数据集分别是什么?
- 训练数据集:LLaVA-1.5的
- 评估数据集:
- 图像任务:GQA、VQA-v2、MMBench
- 文本识别:TextVQA
- 视频任务:MSVD-QA、ActivityNet-QA等
7. 论文中的实验和结果有没有很好地支持待验证的假设?
是。实验充分验证了视觉token的冗余性,LLaVolta的多阶段压缩训练显著减少了训练时间(16%)且性能提升,在9个基准测试中表现最佳,验证了其理论假设的有效性。
8. 在你看来这篇论文还有哪些不足?
- 对于高信息密度任务(如OCR)的压缩方法探讨不足。
- 多阶段训练方案可能在更大规模模型或超长序列上面临扩展性问题?
- 缺乏对动态自适应压缩机制的探索。
9. 下一步有什么工作可以深入?
- 开发适应高信息密度任务的压缩算法。
- 自适应视觉token压缩率,根据图像内容动态调整。