Paper 1
- 题目: Yo’LLaVA: Your Personalized Language and Vision Assistant
- 作者: Thao Nguyen, Haotian Liu, Yuheng Li, Mu Cai, Utkarsh Ojha, Yong Jae Lee
- 团队: University of Wisconsin–Madison(LLaVA原作者团队)
- 链接: https://thaoshibe.github.io/YoLLaVA/
1. 论文试图解决什么问题?是否是一个新问题?
个性化MLLM,让MLLM实现对特定用户个体的识别、图文问答。
是新问题。
2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?
- 一个并行的工作是MyVLM,缺陷为依赖于外部模块。
- 研究员: Haotian Liu,Yong Jae Lee(LLaVA原作者团队)
3. 论文提到的解决方案的关键是什么(创新点)?
- 用可学习prompt表示个性化对象:
"<sks> is <token1><token2>. . . <tokenk>."
,训练时只需训练这k+1个可学习tokens和LLM的分类头。 - 在训练中添加“难负样本”(与个性化对象具有相似视觉特征但不完全相同的图片),以便模型更有效地学习个性化对象的细节特征。
- 去掉图像直接用问答文本训练模型,使其基于内嵌特征回答问题,将个性化对象的概念信息嵌入到learnable tokens中。
4. 论文中的实验如何设计?
- 基线模型: Vanilla LLaVA(不含个性化特征的LLaVA模型)、LLaVA+个性化描述(基于人工或自动生成的个性化描述)以及MyVLM
- 指标: 识别(图中是否有这个对象)准确率、视觉问答和文本问答准确率
- 消融实验: 可学习tokens的数量、正样本图像数量、“难负样本”影响
5. 代码是否开源?
是。
6. 用于训练和定量评估的数据集分别是什么?
- 训练数据集: 自构数据集,包含40个个性化对象的图像,每个对象(人物、宠物、地标、物品及虚构角色)有5-10张图片作为正样本,100张随机图片和n*m张相似图片作为负样本。
- 评估数据集: 自构数据集。识别部分包含333张正样本和13,320张负样本;问答部分有171个视觉问题和400个纯文本问题(选择题)。
7. 论文中的实验和结果有没有很好地支持待验证的假设?
结果表明,Yo’LLaVA使用仅16个可学习token就能达到与GPT-4V+个性化描述(1000+tokens)相当的表现,在负样本识别和个性化问答方面显著优于其他基线模型。
8. 在你看来这篇论文还有哪些不足?
测试数据多为偏简单的选择题,难以验证真正个性化的识别效果,如“区分金毛A和金毛B或普通金毛”。
9. 下一步有什么工作可以深入?
可与用户的元数据整合以增强个性化功能。
Paper 2
- 题目: SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
- 作者: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
- 团队: Apple
- 链接: https://arxiv.org/abs/2407.15841
1. 论文试图解决什么问题?是否是一个新问题?
在视频理解中有效提取空间和时间特征,特别是在无需额外训练的情况下。
而非全新问题。
2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?
- 图像MLLM: Flamingo、BLIP2、LLaVA系列
- 视频MLLM: VideoChat、Video-LLaVA
- Training-Free MLLMs: FreeVA、IG-VLM
- 研究员: Zhe Gan(Apple AI/ML,1.6w引)
3. 论文提到的解决方案的关键是什么(创新点)?
“SlowFast”双路径设计,将视频帧分为“慢速”路径(高空间分辨率,低帧率)和“快速”路径(高帧率,低空间分辨率),更好地捕捉视频中的细节和运动特征,无需额外训练,具有成本效益。
4. 论文中的实验如何设计?
基于LLaVA-Next。在开放式视频问答、选择题视频问答和文本生成三个任务上进行,使用8个不同的基准测试,通过准确度和生成质量(例如细节、上下文和一致性)评估模型。
5. 代码是否开源?
是。
6. 用于训练和定量评估的数据集分别是什么?
- 训练: 无训练
- 评估:
- 开放式视频问答: MSVD-QA、MSRVTT-QA、TGIF-QA、ActivityNet-QA
- 选择题视频问答: NExTQA、EgoSchema、IntentQA
- 文本生成: VCGBench
7. 论文中的实验和结果有没有很好地支持待验证的假设?
是,实验显示SF-LLaVA在多个基准测试上优于现有的无训练方法,并在一些基准上超越了经过微调的视频模型,验证了双路径设计在视频理解中的有效性。
8. 在你看来这篇论文还有哪些不足?
缺乏对细粒度时间定位的支持,如准确捕捉视频片段的起止时间。均匀采样策略可能会错过关键帧,影响对快速事件的理解。
9. 下一步有什么工作可以深入?
探索动态采样策略,以确保关键视频片段的采样覆盖。