首页 > 其他分享 >[RIS]Contrastive Grouping with Transformer for Referring Image Segmentation-CGFormer

[RIS]Contrastive Grouping with Transformer for Referring Image Segmentation-CGFormer

时间:2024-08-13 21:24:14浏览次数:14  
标签:Transformer Referring Image CGFormer 分组 3.1 3.2 IoU

1. BaseInfo

TitleContrastive Grouping with Transformer for Referring Image Segmentation
Adresshttps://arxiv.org/pdf/2309.01017
Journal/TimeCVPR 2023
Author上海科技大学
Codehttps://github.com/SooLab/CGFormer
Read202408013
Table#VisonLanguage #RIS

2. Creative Q&A

Q1: 单阶段像素级别
A1 :

  • CGFormer 物体级别的信息,分组策略。
  • 可学习的 Q ,交替查询。
  • 对比学习。
    c分组策略

3. Concrete

模型结构图,紫色部分的分组特征体现明显

3.1. Model

3.1.1. Input

图片+文本
image size is 480 × 480.

3.1.2. Backbone

Swin Transformer + BERT
visual encoder is pre-trained on ImageNet22K
text encoder is initialized with the weights from HuggingFace
视觉特征的维度:[128, 256, 512, 1024]
语言特征的维度:768
represent referent and other disturbing objects/stuffs : 512

3.1.3. Neck

3.1.4. Decoder

CGFormer
token_dim
2 个 核心的 CGAttention
分组交互

3.1.5. Loss

结合对比损失

3.1.6. Optimizer

AdamW

3.2. Training

NameValue
batch size64
Learning rate1e-4
epoch50

3.2.1. Resource

NVIDIA Tesla A40 GPUs.

3.2.2 Dataset

NameNumberSizeNote
RefCOCO19,994-short、3.5 words
RefCOCO+19,992-8.4 words
G-Ref26,711
ReferIt19,894

3.3. Eval

IoU (oIoU), mean IoU (mIoU), and precision at the 0.5, 0.7, and 0.9 thresholds of IoU
实验结果

3.4. Ablation

  1. 分组加对比损失。提升 4 个点。
  2. 多尺度解码。提升不到 1 个点。多尺度解码分组连接,提升 1.47%

4. Reference

5. Additional

主要是将特征图分组的思路比较好。解码头部分的创新。

标签:Transformer,Referring,Image,CGFormer,分组,3.1,3.2,IoU
From: https://blog.csdn.net/weixin_45863274/article/details/141173147

相关文章

  • 正弦和余弦位置编码 - Transformer教程
    正弦和余弦位置编码-Transformer教程在当今的自然语言处理领域,Transformer模型已成为主流。而在Transformer模型中,位置编码(PositionalEncoding)是一个至关重要的概念。本文将深入探讨正弦和余弦位置编码的原理及其在Transformer中的应用。1.位置编码的背景Transformer......
  • 案例分析:GPT系列 - Transformer教程
    大家好,今天我们来聊一聊目前大热的GPT系列模型,以及它背后的核心技术——Transformer。通过这个案例分析,希望能帮助大家更好地理解这一领域的前沿技术。首先,我们需要明白什么是GPT系列模型。GPT,全称为GenerativePre-trainedTransformer,是由OpenAI推出的一系列语言模型。这......
  • 2024年新SCI顶刊算法红嘴蓝鹊优化器RBMO优化Transformer模型的多变量时间序列预测
    matlabR2024a以上一、数据集二、2024年新SCI顶刊算法红嘴蓝鹊优化器RBMO红嘴蓝鹊优化算法(Red-billedbluemagpieoptimizer,RBMO)是一种新型的元启发式算法(智能优化算法),灵感来源于红嘴蓝鹊的合作、高效的捕食行为。该成果由ShengweiFu等人于2024年5月发表在SCI顶......
  • 黑匣子被打开了!能玩的Transformer可视化解释工具,本地运行GPT-2、还可实时推理
    原文链接:https://blog.csdn.net/m0_46163918/article/details/141113273都2024年,还有人不了解Transformer工作原理吗?快来试一试这个交互式工具吧。2017年,谷歌在论文《Attentionisallyouneed》中提出了Transformer,成为了深度学习领域的重大突破。该论文的引用数已经......
  • 《ImageNet: A Large-Scale Hierarchical Image Database》李飞飞论文阅读笔记
    OpenSNN开思通智网,官网地址:https://w3.opensnn.com/2024年8月份"O站创作者招募计划"快来O站写文章,千元大奖等你来拿!“一起来O站,玩转AGI!”论文地址:《ImageNet:ALarge-ScaleHierarchicalImageDatabase》这篇论文是关于一个叫做“ImageNet”的大型图像数据库的介绍。......
  • (3-2)文生图模型架构:Transformer架构
    3.2 Transformer架构Transformer是文生图模型架构的重要组成部分之一,具体来说,Transformer被广泛应用于文本编码部分,即实现文本编码器的功能。3.2.1 Transformer的基本结构Transformer架构是由Vaswani等人在2017年提出的一种基于注意力机制的深度学习模型,广泛应用于自然......
  • Transformer系列:图文详解Decoder解码器原理
    Encoder-Decoder框架简介理解Transformer的解码器首先要了解Encoder-Decoder框架。在原论文中Transformer用于解决机器翻译任务,机器翻译这种Seq2Seq问题通常以Encoder-Decoder框架来解决,Transformer的网络结构也是基于encoder-decoder框架设计的。这种框架的模型分为两部......
  • 使用BatchNorm替代LayerNorm可以减少Vision Transformer训练时间和推理时间
    以VisionTransformer(ViT)的发现为先导的基于transformer的架构在计算机视觉领域引发了一场革命。对于广泛的应用,ViT及其各种变体已经有效地挑战了卷积神经网络(CNN)作为最先进架构的地位。尽管取得了一些成功,但是ViT需要更长的训练时间,并且对于小型到中型输入数据大小,推理......
  • docker之pull失败。error pulling image configuration: download failed after attem
    一、问题描述docker部署完成后,想pull项目,但是就是报错:errorpullingimageconfiguration:downloadfailedafterattempts=6:dialtcp108.160.170.26:443:connect:connectionrefused, 更奇葩的是执行dockersearchhello-world是可以的。二、解决问题1)问题分析:看报......
  • HuggingFace的transformers 库中的tokenizer介绍
    在自然语言处理中,tokenizer是一个非常关键的组件,它将文本转化为模型可以理解的格式。这个过程通常包括以下几个步骤:1.文本标准化小写化:将所有文本转换为小写,以减少不同形式的单词(如"Apple"和"apple")被视为不同词的情况。去除标点符号:删除或替换标点符号,不过在某些场景下,......