标签：视频训练论文 MLLM LLaVA 20241025 问答个性化

Paper 1

1. 论文试图解决什么问题？是否是一个新问题？
个性化MLLM，让MLLM实现对特定用户个体的识别、图文问答。
是新问题。

2. 有哪些相关研究？如何归类？有哪些值得关注的研究员（大牛）？

3. 论文提到的解决方案的关键是什么（创新点）？

用可学习prompt表示个性化对象: "<sks> is <token1><token2>. . . <tokenk>."，训练时只需训练这k+1个可学习tokens和LLM的分类头。
在训练中添加“难负样本”（与个性化对象具有相似视觉特征但不完全相同的图片），以便模型更有效地学习个性化对象的细节特征。
去掉图像直接用问答文本训练模型，使其基于内嵌特征回答问题，将个性化对象的概念信息嵌入到learnable tokens中。

4. 论文中的实验如何设计？

5. 代码是否开源？
是。

6. 用于训练和定量评估的数据集分别是什么？

训练数据集: 自构数据集，包含40个个性化对象的图像，每个对象（人物、宠物、地标、物品及虚构角色）有5-10张图片作为正样本，100张随机图片和n*m张相似图片作为负样本。
评估数据集: 自构数据集。识别部分包含333张正样本和13,320张负样本；问答部分有171个视觉问题和400个纯文本问题（选择题）。

7. 论文中的实验和结果有没有很好地支持待验证的假设？
结果表明，Yo’LLaVA使用仅16个可学习token就能达到与GPT-4V+个性化描述（1000+tokens）相当的表现，在负样本识别和个性化问答方面显著优于其他基线模型。

8. 在你看来这篇论文还有哪些不足？
测试数据多为偏简单的选择题，难以验证真正个性化的识别效果，如“区分金毛A和金毛B或普通金毛”。

9. 下一步有什么工作可以深入？
可与用户的元数据整合以增强个性化功能。

Paper 2

题目: SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
作者: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
团队: Apple
链接: https://arxiv.org/abs/2407.15841

1. 论文试图解决什么问题？是否是一个新问题？
在视频理解中有效提取空间和时间特征，特别是在无需额外训练的情况下。
而非全新问题。

2. 有哪些相关研究？如何归类？有哪些值得关注的研究员（大牛）？

3. 论文提到的解决方案的关键是什么（创新点）？
“SlowFast”双路径设计，将视频帧分为“慢速”路径（高空间分辨率，低帧率）和“快速”路径（高帧率，低空间分辨率），更好地捕捉视频中的细节和运动特征，无需额外训练，具有成本效益。

4. 论文中的实验如何设计？
基于LLaVA-Next。在开放式视频问答、选择题视频问答和文本生成三个任务上进行，使用8个不同的基准测试，通过准确度和生成质量（例如细节、上下文和一致性）评估模型。

5. 代码是否开源？
是。

6. 用于训练和定量评估的数据集分别是什么？

训练: 无训练
评估:
- 开放式视频问答: MSVD-QA、MSRVTT-QA、TGIF-QA、ActivityNet-QA
- 选择题视频问答: NExTQA、EgoSchema、IntentQA
- 文本生成: VCGBench

7. 论文中的实验和结果有没有很好地支持待验证的假设？
是，实验显示SF-LLaVA在多个基准测试上优于现有的无训练方法，并在一些基准上超越了经过微调的视频模型，验证了双路径设计在视频理解中的有效性。

8. 在你看来这篇论文还有哪些不足？
缺乏对细粒度时间定位的支持，如准确捕捉视频片段的起止时间。均匀采样策略可能会错过关键帧，影响对快速事件的理解。

9. 下一步有什么工作可以深入？
探索动态采样策略，以确保关键视频片段的采样覆盖。

标签：视频,训练,论文,MLLM,LLaVA,20241025,问答,个性化
From： https://www.cnblogs.com/LittleHenry/p/18535927