[RIS]Contrastive Grouping with Transformer for Referring Image Segmentation-CGFormer

时间：2024-08-13 21:24:14浏览次数：23

标签：Transformer Referring Image CGFormer 分组 3.1 3.2 IoU

1. BaseInfo


Title	Contrastive Grouping with Transformer for Referring Image Segmentation
Adress	https://arxiv.org/pdf/2309.01017
Journal/Time	CVPR 2023
Author	上海科技大学
Code	https://github.com/SooLab/CGFormer
Read	202408013
Table	#VisonLanguage #RIS

2. Creative Q&A

Q1：单阶段像素级别
A1 ：

CGFormer 物体级别的信息，分组策略。
可学习的 Q ，交替查询。
对比学习。

3. Concrete

模型结构图，紫色部分的分组特征体现明显

3.1. Model

3.1.1. Input

图片+文本
image size is 480 × 480.

3.1.2. Backbone

Swin Transformer + BERT
visual encoder is pre-trained on ImageNet22K
text encoder is initialized with the weights from HuggingFace
视觉特征的维度：[128, 256, 512, 1024]
语言特征的维度：768
represent referent and other disturbing objects/stuffs ： 512

3.1.3. Neck

3.1.4. Decoder

CGFormer
token_dim
2 个核心的 CGAttention
分组交互

3.1.5. Loss

结合对比损失

3.1.6. Optimizer

AdamW

3.2. Training

Name	Value
batch size	64
Learning rate	1e-4
epoch	50

3.2.1. Resource

NVIDIA Tesla A40 GPUs.

3.2.2 Dataset

Name	Number	Size	Note
RefCOCO	19,994	-	short、3.5 words
RefCOCO+	19,992	-	8.4 words
G-Ref	26,711
ReferIt	19,894

3.3. Eval

IoU (oIoU), mean IoU (mIoU), and precision at the 0.5, 0.7, and 0.9 thresholds of IoU
实验结果

3.4. Ablation

分组加对比损失。提升 4 个点。
多尺度解码。提升不到 1 个点。多尺度解码分组连接，提升 1.47%

4. Reference

5. Additional

主要是将特征图分组的思路比较好。解码头部分的创新。

标签：Transformer,Referring,Image,CGFormer,分组,3.1,3.2,IoU
From： https://blog.csdn.net/weixin_45863274/article/details/141173147

正弦和余弦位置编码 - Transformer教程
正弦和余弦位置编码-Transformer教程在当今的自然语言处理领域，Transformer模型已成为主流。而在Transformer模型中，位置编码（PositionalEncoding）是一个至关重要的概念。本文将深入探讨正弦和余弦位置编码的原理及其在Transformer中的应用。1.位置编码的背景Transformer......
案例分析：GPT系列 - Transformer教程
大家好，今天我们来聊一聊目前大热的GPT系列模型，以及它背后的核心技术——Transformer。通过这个案例分析，希望能帮助大家更好地理解这一领域的前沿技术。首先，我们需要明白什么是GPT系列模型。GPT，全称为GenerativePre-trainedTransformer，是由OpenAI推出的一系列语言模型。这......
2024年新SCI顶刊算法红嘴蓝鹊优化器RBMO优化Transformer模型的多变量时间序列预测
matlabR2024a以上一、数据集二、2024年新SCI顶刊算法红嘴蓝鹊优化器RBMO红嘴蓝鹊优化算法(Red-billedbluemagpieoptimizer,RBMO)是一种新型的元启发式算法（智能优化算法），灵感来源于红嘴蓝鹊的合作、高效的捕食行为。该成果由ShengweiFu等人于2024年5月发表在SCI顶......
黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理
原文链接：https://blog.csdn.net/m0_46163918/article/details/141113273都2024年，还有人不了解Transformer工作原理吗？快来试一试这个交互式工具吧。2017年，谷歌在论文《Attentionisallyouneed》中提出了Transformer，成为了深度学习领域的重大突破。该论文的引用数已经......
《ImageNet: A Large-Scale Hierarchical Image Database》李飞飞论文阅读笔记
OpenSNN开思通智网，官网地址：https://w3.opensnn.com/2024年8月份"O站创作者招募计划"快来O站写文章，千元大奖等你来拿！“一起来O站，玩转AGI！”论文地址:《ImageNet:ALarge-ScaleHierarchicalImageDatabase》这篇论文是关于一个叫做“ImageNet”的大型图像数据库的介绍。......
（3-2）文生图模型架构：Transformer架构
3.2 Transformer架构Transformer是文生图模型架构的重要组成部分之一，具体来说，Transformer被广泛应用于文本编码部分，即实现文本编码器的功能。3.2.1 Transformer的基本结构Transformer架构是由Vaswani等人在2017年提出的一种基于注意力机制的深度学习模型，广泛应用于自然......
Transformer系列：图文详解Decoder解码器原理
Encoder-Decoder框架简介理解Transformer的解码器首先要了解Encoder-Decoder框架。在原论文中Transformer用于解决机器翻译任务，机器翻译这种Seq2Seq问题通常以Encoder-Decoder框架来解决，Transformer的网络结构也是基于encoder-decoder框架设计的。这种框架的模型分为两部......
使用BatchNorm替代LayerNorm可以减少Vision Transformer训练时间和推理时间
以VisionTransformer(ViT)的发现为先导的基于transformer的架构在计算机视觉领域引发了一场革命。对于广泛的应用,ViT及其各种变体已经有效地挑战了卷积神经网络(CNN)作为最先进架构的地位。尽管取得了一些成功,但是ViT需要更长的训练时间,并且对于小型到中型输入数据大小,推理......
docker之pull失败。error pulling image configuration: download failed after attem
一、问题描述docker部署完成后，想pull项目，但是就是报错：errorpullingimageconfiguration:downloadfailedafterattempts=6:dialtcp108.160.170.26:443:connect:connectionrefused，更奇葩的是执行dockersearchhello-world是可以的。二、解决问题1）问题分析：看报......
HuggingFace的transformers 库中的tokenizer介绍
在自然语言处理中，tokenizer是一个非常关键的组件，它将文本转化为模型可以理解的格式。这个过程通常包括以下几个步骤：1.文本标准化小写化：将所有文本转换为小写，以减少不同形式的单词（如"Apple"和"apple"）被视为不同词的情况。去除标点符号：删除或替换标点符号，不过在某些场景下，......