BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

时间：2024-06-06 20:32:55浏览次数：35

标签：Pre Language text Image Former LLM attn query image

Motivation & Abs

端到端大规模视觉语言预训练的开销极大。为此，本文提出了BLIP2，利用现成的冻住的image encoder以及LLM引导视觉语言预训练。

模态差距：通过两阶段训练的轻量级的Query Transformer（Q-Former）弥补。第一阶段：从冻结的image encoder引导VL学习；第二阶段：从冻结的LLM引导视觉到语言的生成学习。

Method

截屏2024-06-05 16.34.20

截屏2024-06-05 16.42.12

模型结构

Q-Former的作用是从图片中提取固定数量的特征（与图片分辨率无关），从而弥补两个模态之间的差异。Q-Former由两个transformer子模块构成，其共享self-attn层：image transformer与冻结的图像编码器进行交互，以提取视觉特征；text transformer包括encoder和decoder。image transformer的输入为一系列的learned queries，在self-attn层彼此之间进行交互；随后在cross-attn层与冻结的图像特征进行交互（方式类似detr的query）。query还可以通过参数共享的self-attn层与text进行交互。

基于预训练任务，作者使用不同的self-attn mask控制query-text的交互。Q-Former通过\(BERT_{base}\)的权重初始化（cross-attn采用随机初始化），参数量总计188M。在实验中，作者使用32个query，其中每个query的维度为768

从冻结的图像编码器引导视觉语言表征学习

使用图像文本对进行预训练。受到BLIP的启发，作者联合优化了三个预训练目标（共享相同的输入形式以及模型参数），通过三种attention mask进行控制。

Image-Text Contrastive Learning (ITC)学习将图像表征与文本表征对齐以最大化互信息，对比损失的形式与CLIP类似。因为每张图片对应多个query，作者选择了与text相似性最高的token计算image-text similarity。为避免信息泄漏，作者使用了一个统一模态的self-attn mask，query与text彼此不可见。由于image encoder是冻结的，因此每个GPU上可以放更多的样本，作者使用in-batch negatives而非BLIP的momentum queue。

Image-grounded Text Generation (ITG) loss训练Q-Former在给定图像的条件下生成文本。因为image encoder无法直接与text tokens进行交互，因此生成text的信息必须先通过query提取，随后在self-attn层与text token进行交互。在这一过程中query可以相互交互但不能与text交互，而text可以与query以及之前的text交互。

Image-Text Matching (ITM)旨在学习将image与text的表征进行细粒度对齐。这一部分本质上做的是二分类任务，即判断一个image-text pair是否是匹配的。作者使用了bi-directional self-attn mask，其中queries和texts可以相互交互。作者将output query送入一个类别数为2的线性层得到二分类分数，再对所有query得分数进行average得到最终的matching score。作者还使用了难负例挖掘从而创建包含更多信息的负样本对。

从冻结的LLM中引导视觉到语言的生成学习

在生成式预训练阶段，作者将冻结的image encoder以及Q-Former连接到冻结的LLM，从而获得LLM的生成语言能力。作者通过一个FC层将output query投影到LLM的text embedding space。经过预训练的Q-Former给出的query往往包含更有效的视觉信息，减轻了LLM学习视觉语言对齐的负担，也就减轻了灾难性遗忘。

Q-Former与两种不同的LLM结合：

截屏2024-06-06 19.14.44

对于Decoder-only的LLM作者使用language modeling loss，LLM需要给出基于视觉表示的文本；对于encoder-decoder结构的LLM作者使用prefix language modeling loss，prefix text与output query连接作为编码器输入，suffix text作为解码器的生成目标。

模型预训练

略

实验

截屏2024-06-06 19.32.34

Q-Former存在的问题

难训练，训练图像与测试图像有gap的话效果会变差，丢失信息导致幻觉

https://www.zhihu.com/question/626796690

标签：Pre,Language,text,Image,Former,LLM,attn,query,image
From： https://www.cnblogs.com/lipoicyclic/p/18235978

WrodPress基础之前期7个必要的基本设置
不管使用宝塔面板搭建WordPress还是1Panel面板的方式，一个新WordPress网站需要做一些基本设置才能正式的去设计页面，填充网站内容。1.确保网站勾选“建议搜索引擎不收录”网站正式上线前，我们需要反复设计页面，打磨文案，填充内容，操作过程中必然会产生一些无用的链接，若这些链接被谷歌......
Press
Press不妨以位置为\(x\)轴，时间为\(y\)轴。当一个机器人到达点\(A\)后，如果可以继续走到\(B\)当且仅当\(|x_A-x_B|\leq|y_A-y_B|\)。将其在\(T=10^9\)时刻可以按到的按钮用区间表示出来\([x_A-(T-y_A),x_A+(T-y_A)]\)记做\(S_A\)。简单画图不难发现上述条件......
Qt 正则表达式 QRegularExpression
正则表达式QRegularExpression学习在Qt中有两种和正则相关的类，一种是QRegExp类，今天查资料说的好像是从Qt4传承下来的，BUG相对来说比较多，目前基本已停止维护了，多用于正则匹配，还有一种就是今天要讲的QRegularExpression类，是Qt5新开辟出来的类，相对来说比较完善（网上这......
界面控件Telerik UI for WPF中文教程 - 用RadSvgImage升级应用程序UI
TelerikUIforWPF拥有超过100个控件来创建美观、高性能的桌面应用程序，同时还能快速构建企业级办公WPF应用程序。UIforWPF支持MVVM、触摸等，创建的应用程序可靠且结构良好，非常容易维护，其直观的API将无缝地集成VisualStudio工具箱中。TelerikUIforWPF中的RadSvgImage组件使......
界面组件DevExpress Reports v23.2增强用户体验 - 轻松导航Web设计器
DevExpressReporting是.NETFramework下功能完善的报表平台，它附带了易于使用的VisualStudio报表设计器和丰富的报表控件集，包括数据透视表、图表，因此您可以构建无与伦比、信息清晰的报表。DevExpressReportsv23.2(我们最近的主要更新)包含了对DevExpressWeb报表设计器的智能......
Uncaught TypeError: Invalid attempt to spread non-iterable instance.
1、报错信息：报错UncaughtTypeError:Invalidattempttospreadnon-iterableinstance.Inordertobeiterable,non-arrayobjectsmusthavea[Symbol.iterator]()method.at_nonIterableSpread(OgPanel.js:20:39)at_toConsumableArray(OgPanel.js:18:131)......
PHP_CMS系统代码解析-wordpress
WordPress是使用PHP语言开发的博客平台，用户可以在支持PHP和MySQL数据库的服务器上架设属于自己的网站。也可以把WordPress当作一个内容管理系统（CMS）来使用。模板基本文件使用模板通过函数的调用，让模板之间形成完整的整体。style.css:CSS(样式表)......
Day1 学习笔记及成果---MapReduce实现手机流量统计分析
Day1学习笔记及成果—MapReduce实现手机流量统计分析题目统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和）,并且：将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去。13*==>…15*==>…other==>…其中，access.log数据文件部分......
Day2 学习笔记及成果---基于MapReduce项目实现中所遇到的问题及解决方法
Day2学习笔记及成果—基于MapReduce项目实现中所遇到的问题及解决方法问题一：主机和虚拟机互相能ping通，主机能ping通外网，虚拟机不能ping通外网。解决方案：可能的错误原因是网关设置有问题，虚拟机的网关应该和自己的网关一直，自己的网关可在编辑-虚拟网络设置中查看。首先执......
Zibll子比主题美化WordPress底部添加渐变色统计代码新增显示评论总数及本周发布文章
在网站底部添加一个统计信息，可以看到网站的运营情况，如会员数量，文章数量、网站的总浏览量、当天发布的文章数量、网站运营天数等，并且这个统计信息背景是渐变色的，非常漂亮。之前有分享过这个代码，今天新增了一个显示评论总数，把今天发布文章数量我改为了本周发布的数量，如果需要之前......