首页 > 其他分享 >真正的包罗“万”象!上海AI实验室、港中文等提出V3Det目标检测数据集,含有13029个类别!

真正的包罗“万”象!上海AI实验室、港中文等提出V3Det目标检测数据集,含有13029个类别!

时间:2023-08-12 13:22:41浏览次数:39  
标签:AI 检测 V3Det 专栏 类别 13029 数据 CV

前言 数据集标签纷繁复杂,一直缺少系统、完善的分类体系,而这恰恰又是通用目标检测大模型的重要基础。
今天,给大家介绍一篇超级“狠活”文章,来自上海人工智能实验室和香港中文大学的学者提出了一个海量类别的目标检测数据集V3Det,总类别数达到13029!

本文转载自我爱计算机视觉

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!

V3Det: Vast Vocabulary Visual Detection Dataset

论文作者:Jiaqi Wang,Pan Zhang,Tao Chu,Yuhang Cao,Yujie Zhou,Tong Wu,Bin Wang,Conghui He,Dahua Lin

作者单位:Shanghai AI Laboratory(上海人工智能实验室); The Chinese University of Hong Kong(香港中文大学); Centre of Perceptual and Interactive Intelligence

论文链接:http://arxiv.org/abs/2304.03752v1

这个世界有多少种类别的物体?仅目前已经发现的昆虫,就有1000多万种。而目前计算机视觉领域大部分的数据集类别都是非常有限的,之前最多类别的LVIS有1203类,所以在真实世界中检测任意对象的研究往往是在类别受限的目标检测数据集上训练和评估的。

V3Det,正是为了应对这一挑战而开发的,不仅图像数量多(245k),而且类别个数多(13029),且具有精确的标注(1753k个包围框)。

相信构建这一数据集过程也是异常费时费力的!

为更好地理解数据,作者们还为V3Det构建了层次分类树,可以方便访问和研究类别之间的包含关系,每个类别都有专业的描述。

V3Det提供了广泛的探索空间,可以在广泛和开放的目标检测任务上进行广泛的基准测试,为研究提供新的观察、实践和见解。它有潜力成为开发更普遍的视觉感知系统的重要参考数据集!

V3Det与其他知名目标检测数据集的统计比较:

V3Det类别数是之前最大数据集的10倍!

如此大规模多类别的数据集标注过程肯定是异常艰辛的,为了保证标注数据的准确性,数据创建团队付出了大量的工作。

V3Det的标注过程:

包括分组、粗粒度标注、合并与联合验证、细粒度标注、类别的验证、类别描述等过程。

比较有意思的是,在对类别进行描述的步骤中,ChatGPT也参与进来。

下图是对V3Det和其他数据集的统计分析:

包括类别分布、均值分辨率、包围框分布。

下图展示了常见的目标检测算法在V3Det上评估的表现:

作者还根据不同采样方法、表示方法、算法框架等对数据集进行了各种评估:

下面这张图展示了类别层次图的可视化,相当震撼!

V3Det数据集中“粗类别”的统计和描述:

可见Animal & Human 相关的类别是最多的,达到7485类,其次是Flower,1911类。

 

类别描述示例:

标注示例:

包围框真是密密麻麻!(数据创建团队辛苦了!!)

这是一项特别有意义的工作,也是非常有价值的资产,相信能够促进大规模海量类别目标检测的相关研究。

V3det 数据集已上架 OpenDataLab,欢迎大家探索、体验:https://opendatalab.org.cn/V3Det

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

CV的未来发展方向?平时最喜欢逛的几个地方

训练网络loss出现Nan解决办法

比Meta「分割一切AI」更全能!港科大版图像分割AI来了:实现更强粒度和语义功能

Segment Anything项目整理汇总

Meta Segment Anything会让CV没前途吗?

CVPR'2023年AQTC挑战赛第一名解决方案:以功能-交互为中心的时空视觉语言对齐方法

6万字!30个方向130篇 | CVPR 2023 最全 AIGC 论文汇总

知识蒸馏最新进展

ICCV2023 | 当尺度感知调制遇上Transformer,会碰撞出怎样的火花?

CVPR 2023 | 完全无监督的视频物体分割 RCF

新加坡国立大学提出最新优化器:CAME,大模型训练成本降低近一半!

SegNetr来啦 | 超越UNeXit/U-Net/U-Net++/SegNet,精度更高模型更小的UNet家族

ReID专栏(二)多尺度设计与应用

ReID专栏(一) 任务与数据集概述

libtorch教程(三)简单模型搭建

libtorch教程(二)张量的常规操作

libtorch教程(一)开发环境搭建:VS+libtorch和Qt+libtorch

NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子使用

NeRF与三维重建专栏(二)NeRF原文解读与体渲染物理模型

NeRF与三维重建专栏(一)领域背景、难点与数据集介绍

异常检测专栏(三)传统的异常检测算法——上

异常检测专栏(二):评价指标及常用数据集

异常检测专栏(一)异常检测概述

BEV专栏(二)从BEVFormer看BEV流程(下篇)

BEV专栏(一)从BEVFormer深入探究BEV流程(上篇)

可见光遥感图像目标检测(三)文字场景检测之Arbitrary

可见光遥感目标检测(二)主要难点与研究方法概述

可见光遥感目标检测(一)任务概要介绍

TensorRT教程(三)TensorRT的安装教程

TensorRT教程(二)TensorRT进阶介绍

TensorRT教程(一)初次介绍TensorRT

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

标签:AI,检测,V3Det,专栏,类别,13029,数据,CV
From: https://www.cnblogs.com/wxkang/p/17624691.html

相关文章

  • mage-ai 替换airflow 的现代数据pipeline 平台
    mage-ai是一个可以替换airflow的现代数据pipeline平台包含的特性友好的开发体验支持python,sql,r语言不以来DAG的可开发模式交互式代码数据优先基于云的协作快速部署扩展简单提供可观测性说明官方提供来的demo站点,可以方便的体验学习,目前来看mage-ai算是一个很......
  • GPT之路(一) AI基础之自然语言处理NLP工作原理
    这篇随笔主要是介绍AI基础知识,自然语言处理NLP1.自然语言处理NLP工作原理自然语言处理(NaturalLanguageProcessing,NLP)是指计算机与人类自然语言进行交互的技术领域,它涉及到语音识别、文本分析、机器翻译、情感分析、自然语言生成等多个方面。NLP是人工智能的一个分支,它使计......
  • AirNet使用笔记9
    摘要:音视频工具;1、合成通用音视频工具,工具支持将屏幕操作记录文件(.dat/.fdat)和语音回放文件(.wav)合成为通用视频格式文件(例如.mp4).dat是一种自定义的数据格式;.fdat是mp4格式;合并时候需要直接把fdat和wav进行合成(屏幕记录文件(.dat/.fdat)放入工具目录下的datafiles文件夹中;将音频文......
  • AI 一键去水印:教你无限量使用商业图片的技巧
    场景再现刚开始注册账号(啥账号具体不表了,小编不喜欢的那个),想弄个闪亮,好看,有个性化的Logo。作为一名非专美工小白人员,网上翻了很久作图工具,要么就是不好用,好用的大部分都收费。最后没办法,找到一个相对来说用起来顺手而收费的网站。如下是我用该网站自行设计的一个Logo。没错,正如......
  • 我决定花一小时教会你如何AI战疫
    面对新冠肺炎疫情,AI开发者们正在积极运用算法、算力、软件等“武器”助力抗疫。......
  • AIGC做副业,月入过万不是梦
    @\背景最近,尝试利用AIGC在头条号、微信公众号上开始写文章,并且通过这个机会赚取了一笔的外快。这个经历让我深刻认识到,通过互联网平台展示自己的才华和知识,不仅可以实现个人价值,还能创造经济回报。在这个数字化时代,AIGC为我们提供了一个无限的创作空间,让我们可以分享自己的见解......
  • 大模型时代的程序员:不会用AIGC编程,未来5年将被淘汰?
    作者|郭炜策划|凌敏前言下面是一段利用Co-Pilot辅助开发的小视频,这是ApacheSeaTunnel开发者日常开发流程中的一小部分。如果你还没有用过Co-Pilot、ChatGPT或者私有化大模型帮助你辅助开发的话,未来的5年,你可能很快就要被行业所淘汰。因为这些善于使用AIGC辅助编......
  • 面对AI冲击,技术人才该如何考核?
    一天下午,在与知名企业的技术交流会议室里,一位兄弟企业的CTO小力苦笑着,分享了一个技术招聘的故事: “我们有个高级工程师,为了搞定MySQL三个表Join的问题,搞了一整天都研究不出来。结果他尝试将表结构扔给AI,谁知道5分钟内就解决了这个难题。” 同时,一位知名互联网企业的技术主管......
  • Windows中实现类似tail -f 的命令
    1.说明需要在PowerShell中使用,Shift+鼠标右键,即可出现打开PowerShell窗口的命令,如图:打开之后是这样的2实时查看文件命令类似于Linux中的"tail-f<文件名>"的命令2.1语法结构完整写法get-content[-wait][-encoding字符编码][File]缩写,与完整写法效果是一样的gc[-wait][-en......
  • Kail-john
    用于密码破解,暴力破解分为2种穷举法和字典本,john属于通过字典本实现拷贝某台主机的shadow文件破解shadow文件中口令,默认使用密码字典文件/usr/share/john/password.lst#john--showshadow#johnshadow指定密码文件#john--wordlist=/tmp/mima.txt......