首页 > 其他分享 >ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量!

ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量!

时间:2023-09-17 23:57:55浏览次数:43  
标签:分割 SAM 实体 ICCV 2023 EntitySeg 数据 标注

前言 在本文中,High-Quality Entity Segmentation对分割问题进行了全新的探索。

本文转载自CVer

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!

稠密图像分割问题一直在计算机视觉领域中备受关注。无论是在Adobe旗下的Photoshop等重要产品中,还是其他实际应用场景中,分割模型的泛化和精度都被赋予了极高的期望。对于这些分割模型来说,需要在不同的图像领域、新的物体类别以及各种图像分辨率和质量下都能够保持鲁棒性。为了解决这个问题,早在SAM[6]模型一年之前,一种不考虑类别的实体分割任务[1]被提出,作为评估模型泛化能力的一种统一标准。

在本文中,High-Quality Entity Segmentation对分割问题进行了全新的探索,从以下三个方面取得了显著的改进:

  1. 更优的分割质量
    正如上图所示,EntitySeg在数值指标和视觉表现方面都相对于SAM有更大的优势。令人惊讶的是,这种优势是基于仅占训练数据量千分之一的数据训练取得的。
  2. 更少的高质量数据需求
    相较于SAM使用的千万级别的训练数据集,EntitySeg数据集仅含有33,227张图像。尽管数据量相差千倍,但EntitySeg却取得了可媲美的性能,这要归功于其标注质量,为模型提供了更高质量的数据支持。
  3. 更一致的输出细粒度(基于实体标准)
    从输出的分割图中,我们可以清晰地看到SAM输出了不同粒度的结果,包括细节、部分和整体(如瓶子的盖子、商标、瓶身)。然而,由于SAM需要对不同部分的人工干预处理,这对于自动化输出分割的应用而言并不理想。相比之下,EntitySeg的输出在粒度上更加一致,并且能够输出类别标签,对于后续任务更加友好。

在阐述了这项工作对稠密分割技术的新突破后,接下来的内容中介绍EntitySeg数据集的特点以及提出的算法CropFormer。

主页:http://luqi.info/entityv2.github.io/论文:https://arxiv.org/abs/2211.05776代码(已开源):https://github.com/qqlu/Entity/blob/main/Entityv2/README.md

根据Marr计算机视觉教科书中的理论,人类的识别系统是无类别的。即使对于一些不熟悉的实体,我们也能够根据相似性进行识别。因此,不考虑类别的实体分割更贴近人类识别系统,不仅可以作为一种更基础的任务,还可以辅助于带有类别分割任务[2]、开放词汇分割任务[3]甚至图像编辑任务[4]。与全景分割任务相比,实体分割将“thing”和“stuff”这两个大类进行了统一,更加符合人类最基本的识别方式。

EntitySeg数据集

由于缺乏现有的实体分割数据,作者在其工作[1]使用了现有的COCO、ADE20K以及Cityscapes全景分割数据集验证了实体任务下模型的泛化能力。然而,这些数据本身是在有类别标签的体系下标注的(先建立一个类别库,在图片中搜寻相关的类别进行定位标注),这种标注过程并不符合实体分割任务的初衷——图像中每一个区域均是有效的,哪怕这些区域无法用言语来形容或者被Blur掉,都应该被定位标注。此外,受限于提出年代的设备,COCO等数据集的图片域以及图片分辨率也相对单一。因此基于现有数据集下训练出的实体分割模型也并不能很好地体现实体分割任务所带来的泛化能力。最后,原作者团队在提出实体分割任务的概念后进一步贡献了高质量细粒度实体分割数据集EntitySeg及其对应方法。EntitySeg数据集是由Adobe公司19万美元赞助标注完成,已经开源贡献给学术界使用。项目主页:http://luqi.info/entityv2.github.io/

EntitySeg数据集有三个重要特性:

  1. 数据集汇集了来自公开数据集和学术网络的33,227张图片。这些图片涵盖了不同的领域,包括风景、室内外场景、卡通画、简笔画、电脑游戏和遥感场景等。
  2. 标注过程在无类别限制下进行的掩膜标注,并且可以覆盖整幅图像。
  3. 图片分辨率更高,标注更精细。如上图所示,即使相比COCO和ADE20K数据集的原始低分辨率图片及其标注,EntitySeg的实体标注更全且更精细。

最后,为了让EntitySeg数据集更好地服务于学术界,11580张图片在标注实体掩膜之后,以开放标签的形式共标注了643个类别。EntitySeg、COCO以及ADE20K数据集的统计特性对比如下:

通过和COCO以及ADE20K的数据对比,可以看出EntitySeg数据集图片分辨率更高(平均图片尺寸2700)、实体数量更多(每张图平均18.1个实体)、掩膜标注更为复杂(实体平均复杂度0.719)。极限情况下,EntitySeg的图片尺寸可达到10000以上。

与SAM数据集不同,EntitySeg更加强调小而精,试图做到对图片中的每个实体得到最为精细的边缘标注。此外, EntitySeg保留了图片和对应标注的原始尺寸,更有利于高分辨率分割模型的学术探索。

基于EntitySeg数据集,作者衡量了现有分割模型在不同分割任务(无类别实体分割,语义分割,实例分割以及全景分割)的性能以及和SAM在zero-shot实体级别的分割能力。

CropFormer算法框架

除此之外,高分辨率图片和精细化掩膜给分割任务带来了新的挑战。为了节省硬件内存需求,分割模型需要压缩高分辨率图片及标注进行训练和测试进而导致分割质量的降低。为了解决这一问题,作者提出了CropFormer框架来解决高分辨率图片分割问题。CropFormer受到Video-Mask2Former[5]的启发, 利用一组query连结压缩为低分辨率的全图和保持高分辨率的裁剪图的相同实体。因此,CropFormer可以同时保证图片全局和区域细节属性。CropFormer是根据EntitySeg高质量数据集的特点提出的针对高分辨率图像的实例/实体分割任务的baseline方法,更加迎合当前时代图片质量的需求。

最后在补充材料中,作者展示了更多的EntitySeg数据集以及CropFormer的可视化结果。下图为更多数据标注展示:

下图为CropFormer模型测试结果:

[1] Open-World Entity Segmentation. TAPMI 2022.

[2] CA-SSL: Class-agnostic Semi-Supervised Learning for Detection and Segmentation. ECCV 2022.

[3] Open-Vocabulary Panoptic Segmentation with MaskCLIP. ICML 2023.

[4] SceneComposer: Any-Level Semantic Image Synthesis. CVPR 2023.

[5] Masked-attention Mask Transformer for Universal Image Segmentation. CVPR 2022.

[6] Segment Anything. ICCV 2023.

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

听我说,Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香

1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!

GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

标签:分割,SAM,实体,ICCV,2023,EntitySeg,数据,标注
From: https://www.cnblogs.com/wxkang/p/17710290.html

相关文章

  • Matlab-resample
    1.resample步骤1:低通滤波首先,resample函数会应用一个低通滤波器,以滤除输入信号中高于重采样频率的频率成分。这是为了防止混叠现象,即重采样后出现在新采样率频带之外的频率成分。在MATLAB中,默认使用一个FIR滤波器进行低通滤波,滤波器的设计根据重采样因子和滤波器长度来确定。此外......
  • 2023 ICPC 网络赛 9.17
    没留够时间准备导致开考的时候耽搁了开场我先写缺省源,抄串了一行,后面才发现。。。然后看了L发现是签到,此时ddw会了A让zsy上去写,我等了一会才把zsy撵下来写L是个失误没沟通好导致我跟ddw都做了D,zsy先后过了DA期间我会了I,ddw会了J,我先上去写,写完没过样例,zsy......
  • 2023-2024-1 20211306 密码系统设计与实现课程学习笔记2
    20211306密码系统设计与实现课程学习笔记2学习任务详情自学教材第九章,提交学习笔记本章是复习C语言中的文件操作内容,结构化从文本文件操作,二进制文件操作两个大内容考虑,以前可能只关注文本文件的操作,我们以后更多的是操作二进制文件。文本文件中考虑字符读写,行读写,任意位......
  • 2023.37 AI辅助医疗诊断
    日常生活看病,有一个难题就是不知道自己要去那个科室,以之前自己去医院看牙齿疼为例,各种搜索确认后才知道要挂口腔内科,中间还有点其它问题医生建议看其它科室,不过最终还算顺利。牙疼尚且如此,更不用说其它罕见病,比如下面链接中的故事。4岁男孩得了罕见病,母亲找了17位专家无果,受自己......
  • 2023.9.17——每日总结
    学习所花时间(包括上课):9h代码量(行):0行博客量(篇):1篇今天,上午做任务,下午做任务。我了解到的知识点:1.完成任务环境配置;明日计划:1.上课;2.继续完成我的任务;......
  • 2023 CSP-J详解
    csp崩了,滚来写题解,悄悄话,我服了今年这么简单我竟然崩了(蒟蒻石锤)话不多,来吧上题目原谅我上来就用四级标题一.T1.1.在C++中,下面那个关键字用于声明一个变量,其值不能被修改?()A.unsignedB.constC.staticD.mutable这个题不用我多说吧,有点常识就知道A.无符号性B.定义......
  • 【愚公系列】2023年09月 WPF控件专题 ListView控件详解
    (文章目录)前言WPF控件是WindowsPresentationFoundation(WPF)中的基本用户界面元素。它们是可视化对象,可以用来创建各种用户界面。WPF控件可以分为两类:原生控件和自定义控件。原生控件是由Microsoft提供的内置控件,如Button、TextBox、Label、ComboBox等。这些控件都是WPF中常见......
  • 2023年icpc网络赛第一场七题代码
    A模拟题首先跑一遍,得到校排名然后对两个比赛的校排名进行合并即可#include<bits/stdc++.h>usingnamespacestd;intn,m;map<string,int>o;strings[10010];vector<string>a,b;intmain(){cin>>n>>m;for(inti=1;i<=n;i++){cin>&......
  • 2023年9月17日
    HTML<!DOCTYPEhtml><html> <head> <metacharset="utf-8"/> <title>2023年9月17日</title> </head> <body> 数据区:<spanid="sp"title="helloworld">您好,欢迎你使用JavaScript</sp......
  • 20211325 2023-2024-1 《信息安全系统设计与实现(上)》第二周学习笔记
    202113252023-2024-1《信息安全系统设计与实现(上)》第二周学习笔记 一、任务要求自学教材第九章,提交学习笔记(10分)本章是复习C语言中的文件操作内容,结构化从文本文件操作,二进制文件操作两个大内容考虑,以前可能只关注文本文件的操作,我们以后更多的是操作二进制文件。文本文......