Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

时间：2024-05-24 17:42:55浏览次数：35

标签：Unified Transformer Towards DINO Mask 分割 Segmentation 掩码

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

Abstract

　　在本文中，我们提出了一个统一的对象检测和分割框架Mask DINO。Mask DINO通过添加一个支持所有图像分割任务（例如，全景和语义）的掩码预测分支来扩展DINO（具有改进的去噪锚盒的DETR）。它利用DINO的查询嵌入来点积高分辨率的像素嵌入图来预测一组二进制掩码。DINO中的一些关键组件通过共享的架构和训练过程进行扩展，用于分割。Mask DINO简单、高效、可扩展，可以受益于联合大规模检测和分割数据集。我们的实验表明，Mask DINO在ResNet-50主干和SwinL主干的预训练模型上都显著优于所有现有的专业分割方法。值得注意的是，Mask DINO在10亿个参数下的模型中建立了迄今为止实例分割（COCO上的54.5 AP）、全景分割（COCO上的59.4 PQ）和语义分割（ADE20K上的60.8 mIoU）的最佳结果。代码位于https://github.com/IDEA-Research/MaskDINO。

1. Introduction

2. Related Work

3. Mask DINO

3.1. Preliminaries: DINO

3.2. Why a universal model has not replaced the specialized models in DETR-like models?

3.3. Our Method: Mask DINO

3.4. Segmentation branch

3.5. Unified and Enhanced Query Selection

3.6. Segmentation Micro Design

4. Experiments

4.1. Main Results

4.2. Comparison with SOTA Models

4.3. Ablation Studies

5. Conclusion

标签：Unified,Transformer,Towards,DINO,Mask,分割,Segmentation,掩码
From： https://www.cnblogs.com/lucifer1997/p/18211399

TS2Vec: 面向通用的时间序列表示《TS2Vec: Towards Universal Representation of Time
今天是2024年5月22日，10:24，今天看这篇经典的论文(如果你问我为什么最近频繁看论文，因为我的创新点无了，要找创新点+太菜了，菜就多看多学)。论文：TS2Vec:TowardsUniversalRepresentationofTimeSeries或者是：TS2Vec:TowardsUniversalRepresentationofTimeSeriesGitHub：https......
Restormer Efficient Transformer for High-Resolution Image Restoration——2022CVP
大佬链接：Restormer:EfficientTransformerforHigh-ResolutionImageRestoration-知乎(zhihu.com)一.Motivation1.CNN感受野有限，因此无法对长距离像素相关性进行建模；卷积滤波器在推理时具有静态权重，因此不能灵活地适应输入内容2.Transformer模型缓解了CNN的缺点（有限的感......
Transformers 加速的一些常用技巧
前言本文介绍了一些Transformers常用的加速策略。本文转载自DeephubImba仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV方向的准研究生们，未来三年如何度过？招聘高光谱图像、语义分割、di......
Transformer中的layer norm(包含代码解释)
https://blog.csdn.net/weixin_42596778/article/details/134848578 layerNorm的代码实现：importtorch#1.使用torch的layernorm来进行操作，然后看一下ln后的矩阵是什么样子#创建了一个2*3*4的随机矩阵batch_size,seq_size,dim=2,3,4embedding=torch.randn(bat......
Transformers 加速的一些常用技巧
前言本文介绍了一些Transformers常用的加速策略。本文转载自DeephubImba仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV方向的准研究生们，未来三年如何度过？招聘高光谱图像、语义分割、di......
LSTM卷土重来！xLSTM：一举超越Mamba、Transformer！
前言 LSTM：这次重生，我要夺回Transformer拿走的一切。本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV方向的准研究生们，未来三年如何度过？招聘高光谱图像、语义分割、diffu......
万事通，专精部分领域的多功能 Transformer 智能体
介绍我们很高兴分享“万事通”(JackofAllTrades，简称JAT)项目，该项目旨在朝着通用智能体的方向发展。该项目最初是作为对Gato(Reed等，2022年)工作的公开复现启动的，Gato提出训练一种能够执行视觉与语言以及决策任务的Transformer。于是我们首先构建了Gato数据集的开放......
Transformers 加速的一些常用技巧
Transformers是一个强大的架构，但模型因其采用的自注意力机制，虽然能够有效地处理序列数据并捕获长距离依赖关系，但同时也容易导致在训练过程中出现OOM（OutofMemory，内存不足）或者达到GPU的运行时限制。主要是因为参数数量庞大：Transformer模型通常包含大量的参数，尤其是在模型层面......
经典译文：Transformer--Attention Is All You Need
经典译文：Transformer--AttentionIsAllYouNeed来源 https://zhuanlan.zhihu.com/p/689083488 本文为Transformer经典论文《AttentionIsAllYouNeed》的中文翻译:https://arxiv.org/pdf/1706.03762.pdf注意力满足一切AshishVaswaniGoogleBrainavaswani@google.co......
AdaZoom: Towards Scale-Aware Large Scene Object Detection 论文解读
《AdaZoom:TowardsScale-AwareLargeSceneObjectDetection》笔记1.研究动机1.1挑战与困难小目标检测和对象尺度差异存在挑战现有研究方法对于大场景中如此极端尺度变化的物体缺乏灵活性，缺乏对不同尺度物体的适应性。1.2解决方案构建了一个自适应缩放网络(简称AdaZoom)，对......

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

相关文章

赞助商

阅读排行