首页 > 其他分享 >论文阅读20241117

论文阅读20241117

时间:2024-11-22 21:07:18浏览次数:1  
标签:训练 20241117 压缩 论文 任务 token 阅读 视觉

Paper 1

  • 题目: INFERENCE OPTIMAL VLMS NEED ONLY ONE VISUAL TOKEN BUT LARGER MODELS
  • 作者团队: Kevin Y. Li, Sachin Goyal, João D. Semedo, J. Zico Kolter (CMU)
  • 链接: https://arxiv.org/abs/2411.03312

1. 论文试图解决什么问题?是否是一个新问题?
论文试图解决VLMs推理阶段的性能和计算成本之间的权衡问题,提出推理计算最优的scaling law。提出的极限视觉token压缩和scaling optimization是全新的视角。

2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?

  • 相关研究分类
    1. 视觉token压缩:文中5.1提到了TokenPacker和Matryoshka等(孟帆学长的组会讲得更全)。
    2. 推理优化:关注scaling law的研究,如Kaplan等人关于LLM的scaling law。
  • 值得关注的研究员
    • J. Zico Kolter(本论文作者)

3. 论文提到的解决方案的关键是什么(创新点)?

  • 创新点
    1. 提出推理优化的scaling law,量化视觉token数量和LLM规模的最佳组合。
    2. 首次揭示极限视觉token压缩(如1或4个token)的推理最优配置。
    3. 提出基于用户查询的卷积交叉注意力方法(QueCC)(这个好像就是把TokenPacker的Query换成了text的),支持极限token压缩。

4. 论文中的实验如何设计?

  • 实验设计:
    1. scaling law验证:使用不同大小的LLM(0.5B到14B)和不同视觉token数量(1到576),拟合标度曲线并预测性能。
    2. 算法比较:QueCC与现有方法(如TokenPacker、Matryoshka等)在多个任务中的性能对比。
    3. 任务场景扩展:分析OCR任务和视觉推理任务中的推理最优配置。

5. 代码是否开源?
是,https://github.com/locuslab/llava-token-compression

6. 用于训练和定量评估的数据集分别是什么?

  • 训练数据集:LLaVA-Next的。
  • 评估数据集
    1. 视觉推理:GQA, MMBench, MME, ScienceQA等。
    2. OCR任务:TextVQA, DocVQA等。

7. 论文中的实验和结果有没有很好地支持待验证的假设?
实验很好地支持了假设:

  • 标度定律的拟合误差低于2%,证明推理最优配置的可预测性。
  • QueCC在极限token压缩(1或4个)下显著优于其他方法,支持论文对极限压缩的主张。

8. 在你看来这篇论文还有哪些不足?

  • 对于OCR等text recognition任务覆盖不足,没有深入讨论高信息密度场景的优化策略。
  • 提出的定律可能依赖特定模型和任务,泛化性需要进一步验证。

9. 下一步有什么工作可以深入?

  • 针对OCR等高信息密度任务的自适应压缩算法。
  • 验证该定律对其他多模态任务(如视频理解)的适用性。
  • 如何结合更复杂的用户查询和多模态上下文,优化极限压缩场景下的性能。

Paper 2

  • 题目: LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression
  • 作者团队: Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi†, Alan Yuille†
  • 链接: https://arxiv.org/abs/2406.20092

1. 论文试图解决什么问题?是否是一个新问题?
视觉token冗余问题。现在看来貌似也没那么新了:(

2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?
1. 视觉token冗余优化:略~
2. 高效LLM训练:动态token压缩(如Pyramid Transformer)和逐步扩展模型训练深度/宽度的方法。

3. 论文提到的解决方案的关键是什么(创新点)?

  • 视觉上下文压缩器(VCC)
    • 使用平均池化(average pooling)减少视觉token数量,在保证性能的同时降低计算成本。
  • LLaVolta多阶段训练方案
    • 提出逐步减少压缩率的三阶段训练方法,兼顾训练效率和信息保留。
  • 新发现
    • 证明视觉token存在显著冗余,即使减少70%的视觉token,模型性能也仅略微下降。

4. 论文中的实验如何设计?

  • 冗余验证实验
    • 在预训练模型中,通过逐步减少视觉token数量(如70%),验证对性能的影响。
  • 多模态基准测试
    • 在13个数据集(如GQA、MM-Vet、TextVQA)上测试模型性能和训练效率。
  • 对比实验
    • 与其他压缩方法(如K均值聚类、注意力方法)比较。
  • 扩展实验
    • 在视频多模态任务中验证LLaVolta的扩展性。

5. 代码是否开源?
是,GitHub Repository

6. 用于训练和定量评估的数据集分别是什么?

  • 训练数据集:LLaVA-1.5的
  • 评估数据集
    1. 图像任务:GQA、VQA-v2、MMBench
    2. 文本识别:TextVQA
    3. 视频任务:MSVD-QA、ActivityNet-QA等

7. 论文中的实验和结果有没有很好地支持待验证的假设?
是。实验充分验证了视觉token的冗余性,LLaVolta的多阶段压缩训练显著减少了训练时间(16%)且性能提升,在9个基准测试中表现最佳,验证了其理论假设的有效性。

8. 在你看来这篇论文还有哪些不足?

  • 对于高信息密度任务(如OCR)的压缩方法探讨不足。
  • 多阶段训练方案可能在更大规模模型或超长序列上面临扩展性问题?
  • 缺乏对动态自适应压缩机制的探索。

9. 下一步有什么工作可以深入?

  • 开发适应高信息密度任务的压缩算法。
  • 自适应视觉token压缩率,根据图像内容动态调整。

标签:训练,20241117,压缩,论文,任务,token,阅读,视觉
From: https://www.cnblogs.com/LittleHenry/p/18563754

相关文章

  • YOLO系列基础(九)YOLOv2论文及原理详解(上)
    to公司数据合规同事,本文为在家编写博客后采用定时发送机制发送的博文,没有用到任何公司信息和公司代码系列文章地址YOLO系列基础(一)卷积神经网络原理详解与基础层级结构说明-CSDN博客YOLO系列基础(二)Bottleneck瓶颈层原理详解-CSDN博客YOLO系列基础(三)从ResNet残差网络到C3......
  • 微信小程序毕业设计论文范文_小程序开发毕业论文模板本科计算机毕业论文范文
    文章目录前言微信小程序毕业设计论文范文论文目录论文绪论论文系统设计论文总体设计论文数据设计论文致谢为什么选择我更多毕设系统作品演示视频可看这里数据库+源码获取微信小程序毕业设计选题和毕业论文怎么写,答辩流程是怎样的?今天就给大家介绍下小程序开发......
  • flask毕设大学生创新创业项目管理网站(论文+程序)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容选题背景在当前全球创新创业浪潮的推动下,大学生作为最具活力和创造力的群体,其创新创业活动日益受到社会各界的广泛关注。关于大学生创新创业项目管......
  • flask毕设大学生创新创业项目管理系统(论文+程序)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容选题背景随着国家对创新创业教育的重视和推广,大学生创新创业项目日益增多,如何高效、系统地管理这些项目成为高校面临的重要问题。关于创新创业项目......
  • python毕设办公系统程序+论文
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、选题背景关于办公系统的研究,现有研究主要集中在通用办公软件的开发与优化方面,专门针对Python语言开发的办公系统的研究较少。在办公自动化需求......
  • flask框架动物在线领养网站(毕设源码+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、选题背景关于动物在线领养网站的研究,现有研究多侧重于线下领养流程或单独的动物救援方面,专门针对动物在线领养网站全方位功能与运营模式的研究......
  • node.js毕设山西寿阳县特产订购平台程序+论文
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容一、选题背景随着互联网的发展,特产订购平台在各地逐渐兴起。关于特产订购平台的研究,现有研究多以经济发达地区或旅游热门地区为主,专门针对山西寿阳县特产订购平台的......
  • node.js毕设商场会员停车场管理系统的实现程序+论文
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容选题背景在国内外,停车场管理系统的研究多侧重于普通停车场的管理优化,如提高车位利用率、改善停车流程等方面的研究。而针对商场会员停车场这一特定场景的管理系统研......
  • 论文阅读:Deep generative model embedding of scRNA-Seq profiles on hyperspheres an
    Ding,J.,Regev,A.Deepgenerativemodelembeddingofsingle-cellRNA-Seqprofilesonhyperspheresandhyperbolicspaces. NatCommun 12,2554(2021).论文地址:https://doi.org/10.1038/s41467-021-22851-4代码地址:https://github.com/klarman-cell-observatory/......
  • 论文阅读:Structure-preserving visualization for sRNA-Seq profiles using deep mani
    Xu,Y.,Zang,Z.,Xia,J. etal. Structure-preservingvisualizationforsingle-cellRNA-Seqprofilesusingdeepmanifoldtransformationwithbatch-correction. CommunBiol 6,369(2023).论文地址:https://doi.org/10.1038/s42003-023-04662-z代码地址:https:/......