为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了？

时间：2024-09-24 14:53:45浏览次数：8

标签：BLIP BLIP2 模型 AI MLP LLaVA 变少 Former

前言

本篇介绍为什么多模态大语言模型（MLLM）最近的工作中用BLIP2中Q-Former结构的变少了？

简单来说，相较于MLP的方案，即LLaVA-1.5，BLIP-2中的Q-Former模型在参数量上更为庞大，其收敛过程也相对缓慢。在同等条件下，Q-Former的性能并未达到LLaVA-1.5所展现出的卓越水平。值得注意的是，即使在数据和计算资源都很充裕的情况下，Q-Former的性能提升也并不显著。

下面说明原因：

虽然许多人不愿意将Q-Former的成就归功于BLIP系列，并且更倾向于将其称为Attention Pooling。在MLP与Q-Former之间的竞争实质上反映了LLaVA系列与BLIP系列之间的竞争。社群普遍偏好MLP的选择，实际上就是对LLaVA工作的追随和支持。

下图为BLIP2和LLaVA的架构图。

为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了？_ai

为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了？_自然语言处理_02

从图中可以看到，使用query token来压缩视觉信息无法确保无损，并且随着压缩程度的增加，可能导致更严重的幻觉问题。相比之下，直接使用投影（projection）方法将视觉信息无损地传递给大型语言模型（LLM），由其自主决定如何使用这些信息，可能是一个更好的选择。Q-Former的主要动机是减少图像标记的长度，试图通过压缩来简化模型。然而，Q-Former的训练具有一定的挑战性，因为它引入了大量的参数，而在样本量有限的情况下，这些参数难以有效收敛。

另外，Q-Former模型的参数量超过100百万，这样庞大的参数集使得模型在有限的数据量下难以实现有效训练。那么，如果假设数据量充足，Q-Former的性能上限是否可能超越MLP呢？事实上，即便是性能强劲的Qwen-VL模型，在经过大量数据训练后，也未能显著超越LLaVA-1.5的性能表现。这表明即便我们继续沿着BLIP的研究方向前进，也可能会面临一定的困难。

最后的最后

感谢你们的阅读和喜欢，我收藏了很多技术干货，可以共享给喜欢我文章的朋友们，如果你肯花时间沉下心去学习，它们一定能帮到你。

因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更快的提升自己。

大模型知识脑图

为了成为更好的 AI大模型开发者，这里为大家提供了总的路线图。它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了？_ai_03

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平，开拓视野，掌握核心技术，提高解决问题的能力，同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说，阅读经典书籍是非常有必要的。

为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了？_agi_04

实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了？_自然语言处理_05

面试资料

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下

为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了？_人工智能_06

640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了？_人工智能_07

标签：BLIP,BLIP2,模型,AI,MLP,LLaVA,变少,Former
From： https://blog.51cto.com/u_16163442/12099866

创新首发！LightGBM+BO-Transformer-GRU多变量回归交通流量预测(Matlab)
创新首发！秋日私语！LightGBM+BO-Transformer-GRU多变量回归交通流量预测(Matlab)目录创新首发！秋日私语！LightGBM+BO-Transformer-GRU多变量回归交通流量预测(Matlab)效果一览基本介绍程序设计参考资料效果一览基本介绍1.Matlab实现LightGBM+BO-Transformer-GRU多变量回归预测，LightGB......
2024年JCR一区极光优化算法+分解对比！VMD-PLO-Transformer-BiLSTM多变量时间序列光伏功
中秋献礼！2024年中科院一区极光优化算法+分解对比！VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测目录中秋献礼！2024年中科院一区极光优化算法+分解对比！VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测效果一览基本介绍程序设计参考资料效果一览基本介绍1.中秋献礼！2024年......
Informer模型复现项目实战
加入会员社群，免费获取本项目数据集和代码：点击进入>>1.项目简介A034-Informer模型复现项目实战的目标是通过复现Informer模型，帮助理解其在时间序列预测中的实际应用和效果。该项目基于深度学习模型Informer，这是一种针对长序列时间序列预测而优化的Transformer变种。相较......
DeiT：Data-efficient Image Transformer(2020)
Trainingdata-efficientimagetransformers&distillationthroughattention：通过注意力训练数据高效的图像转换器和蒸馏论文地址：https://arxiv.org/abs/2012.12877代码地址：https://github.com/facebookresearch/deit这篇论文在2020年12月23日首次提交，也就是在ViT提......
EfficientFormer实战：使用EfficientFormerV2实现图像分类任务（一）
摘要EfficientFormerV2是一种通过重新思考ViT设计选择和引入细粒度联合搜索策略而开发出的新型移动视觉骨干网络。它结合了卷积和变换器的优势，通过一系列高效的设计改进和搜索方法，实现了在移动设备上既轻又快且保持高性能的目标。这一成果为在资源受限的硬件上有效部署视觉......
EfficientFormer实战：使用EfficientFormerV2实现图像分类任务（二）
文章目录训练部分导入项目使用的库设置随机因子设置全局参数图像预处理与增强读取数据设置Loss设置模型设置优化器和学习率调整策略设置混合精度，DP多卡，EMA定义训练和验证函数训练函数验证函数调用训练和验证方法运行以及结果查看测试完整的代码在上一篇文章中完成了......
ScanFormer：逐层抵达目标，基于特征金字塔的指代表达理解框架 | CVPR'24
指代表达理解（REC）旨在在图像中定位由自由形式自然语言描述指定的目标对象。尽管最先进的方法取得了令人印象深刻的性能，但它们对图像进行了密集感知，包含与语言查询无关的多余视觉区域，导致额外的计算开销。这启发论文探讨一个问题：能否消除与语言无关的多余视觉区域，以提高模型的效率？......
[CVPR2024]DeiT-LT Distillation Strikes Back for Vision Transformer Training on L
在长尾数据集上，本文引入强增强（文中也称为OOD）实现对DeiT的知识蒸馏的改进，实现尾部类分类性能的提升。动机ViT相较于CNN缺少归纳偏置，如局部性（一个像素与周围的区域关系更紧密）、平移不变性（图像的主体在图像的任意位置都应该一样重要）。因此需要大型数据集进行预训练。长尾数据学习......
Transformer模型-7- Decoder
概述Decoder也是N=6层堆叠的结构，每层被分3层:两个注意力层和前馈网络层，同Encoder一样在主层后都加有Add&Norm，负责残差连接和归一化操作。Encoder与Decoder有三大主要的不同：第一层MaskedMulti-HeadAttention:采用Masked操作第二层Multi-HeadAttention:K,V矩阵是......
Matlab 基于NRBO-Transformer-LSTM-SVM多特征分类预测（多输入单输出）[24年算法]
基于NRBO-Transformer-LSTM-SVM多特征分类预测（多输入单输出）NRBO优化参数为隐藏层节点数、正则化系数、学习率！你先用你就是创新！！！1.程序已经调试好，无需更改代码替换数据集即可运行！！！数据格式为excel！2.评价指标包含：分类准确率、灵敏度、特异性曲线下面积(AUC值)、卡帕(Kappa)系......