Pixel Aligned Language Models论文阅读笔记

时间：2024-08-01 17:19:18浏览次数：11

标签：输出 prompt 边界 Language Models 模型 textbf mathcal Aligned

Motivation & Abs

近年来，大语言模型在视觉方面取得了极大的进步，但其如何完成定位任务（如word grounding等）仍然不清楚。本文旨在设计一种模型能够将一系列点/边界框作为输入或者输出。当模型接受定位信息作为输入时，可以进行以定位为condition的captioning。当生成位置作为输出时，模型对LLM生成的每个输出单词的像素坐标进行回归，从而进行dense grounding。

Method

方法

截屏2024-08-01 15.30.45

模型输入为图片以及prompt（可选），如果不指定prompt，默认的prompt为(0, 0, H, W)的box。在captioning的过程中，模型除了输出句子外，还需要输出与句子等长的点序列，每个点对应句子中的一个token。与之前的方法不同，本文方法不强制模型忽略非视觉token。

对于视觉端，首先将图像送入image encoder以及将prompt送入prompt encoder，得到图像特征$\textbf{f}$以及提示特征$\mathcal{P}(b)$，之后使用prompt feature extractor $\mathcal{E}$得到prompt feature：

\[\textbf{f}_l=\mathcal{E}(\textbf{f},\mathcal{P}(b)) \]

其中prompt feature extractor采用类似Q-Former的结构，通过可学习的query提取特征，整体作用类似ROIAlign。

在拿到location-specific的特征$\textbf{f}_l$后，我们可以将其送入语言模型在进行captioning，使用自回归的decoding方式：$w_i=\mathcal{L}(\textbf{f}_l,\textbf{w}_{1:i-1})$。语言模型的最后一个linear为vocabulary mapping layer，将语言空间的特征映射为词汇表的坐标：

\[w_i={\rm argmax}(\textbf{v}\cdot\mathcal{L}^-(\textbf{f}_l,\textbf{w}_{1:i-1})) \]

因此为了得到与语言模型输出类似的定位信息，作者在vocabulary mapping layer旁添加了一个并行的mlp层，将特征映射为2维定位输出：

\[p_i={\rm MLP}(\mathcal{L}^-(\textbf{f}_l,\textbf{w}_{1:i-1})) \]

额外添加的MLP并不会将梯度反传回语言模型，从而避免损害解码文本的能力。

训练

模型的训练在人类标注的captionlocation aligned数据集Localized Narrative上面进行。损失：

截屏2024-08-01 16.41.29

下游任务适配

截屏2024-08-01 16.51.43

截屏2024-08-01 16.52.07

Referring localization and segmentation：虽然可以通过轨迹获得边界框，但这是次优的，因为轨迹边界不是严格的实例边界。因此，作者使用相同的回归 MLP 层训练模型在 <EOS> 标记处输出准确的对象边界框：截屏2024-08-01 16.57.47

同时拿到边界框后，还能通过SAM进行分割。

其它下游任务可以参考原文。

实验

截屏2024-08-01 17.09.13

截屏2024-08-01 17.10.59

标签：输出,prompt,边界,Language,Models,模型,textbf,mathcal,Aligned
From： https://www.cnblogs.com/lipoicyclic/p/18337052

Modelsim仿真实现Verilog HDL序列检测器
检测接收到的数字序列中出现“10011”的次数。例如输入序列为40位：1100_1001_1100_1001_0100_1100_1011_0010_1100_1011从最高位开始检测，出现了2次：1100_1001_1100_1001_0100_1100_1011_0010_1100_1011所以，序列检测器的计数结果应该是2。状态机如下：当前状态current_stat......
3.校验，格式化，ModelSerializer使用
【一】反序列化校验1）三层校验字段自己校验直接写在字段类的属性上局部钩子在序列化中写validata_字段名全局钩子#serializers.pyclassBookSerializer(serializers.Serializer):#1)name字段的要大于1小于10name=serializers.CharField(min_length=......
一文详解Denoising Diffusion Implicit Models（DDIM）
目录0前言1DDIM2总结0前言上一篇博文我们介绍了目前流行的扩散模型基石DDPM，并且给出了代码讲解，有不了解的小伙伴可以跳转到前面先学习一下。今天我们再来介绍下DDPM的改进版本。DDPM虽然对生成任务带来了新得启发，但是他有一个致命的缺点，就是推理速度比较慢，......
易优CMS模板标签language语言列表罗列所有语言列表
【基础用法】标签：languagename值：web_language_switch描述：语言列表标签，获取多语言列表内容。用法：{eyou:languagetype='default'}<ahref="{$field.url}"><imgsrc="{$field.logo}"alt="{$field.title}">{$field.title}</a>{/eyou:......
AI论文阅读笔记 | Timer: Generative Pre-trained Transformers Are Large Time Serie
一、基本信息题目：Timer:GenerativePre-trainedTransformersAreLargeTimeSeriesModels会议：ICML2024原文：https://arxiv.org/abs/2402.02368源码：https://github.com/thuml/Timer二、基本内容 1、解决什么问题虽然深度学习对时间序列的分析做出了显著......
Modelsim仿真实现Verilog HDL频率检测器
检测输入信号的频率，输出8位数码显示，十进制。可以用于八段式数码管显示屏。1clk产生1Hz的方波，这是个很低的频率，被检测的频率都比这个高，因此，1个周期（即1s）内，可以有很多很多个signal的上升沿，只需要统计signal上升沿的数量，就可以算出signal的频率。在clk第1个上升沿发生后，令......
16、flask-模型-models-表的操作-多表操作-多对多
代码如下：变化的只有models.py和views.pymodels.py"""用户：电影=N:M"""#中间表:收藏电影的用户collect=db.Table('collects',db.Column('user_id',db.Integer,db.ForeignKey('usermodel.id'),prima......
15、flask-模型-models-表的操作-多表操作-一对多
这里选择学生表和班级表作为案例app.pyfromAppimportcreate_appapp=create_app()if__name__=='__main__':app.run(debug=True)#运行：flaskrun--debugviews.pyimportrandomfromflaskimportBlueprint,request,render_templatefrom.modelsimpo......
ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference
Motivation&Abs文章关注的任务为用VLM（如CLIP）做开放词汇分割，motivation主要来自于作者的一个观察：分割图中的噪声主要来自于残差连接，这会导致在文本-图像预训练更加强调全局特征，从而牺牲了局部判别能力，从而导致了分割结果中的噪声。为此作者提出了ClearCLIP，对CLIP的特征进行解耦，......
15、flask-模型-models-表的操作-分页paginate()
paginate()的属性属性名说明items返回当前页的内容列表has_next是否还有下一页has_prev是否还有上一页next(error_out=False)返回下一页的pagination对象prev(error_out=False)返回上一页的Pagination对象page当前页的页码pages总页数per_p......

Pixel Aligned Language Models论文阅读笔记

Motivation & Abs

Method

实验

相关文章

赞助商

阅读排行