首页 > 其他分享 >多种模态数据集

多种模态数据集

时间:2023-11-05 23:35:26浏览次数:32  
标签:模态 多种 示例 https 视觉 org 文本 数据 图片

图像描述 Image Captioning

LAION-5B

  • 2022.3发布的迄今为止最大规模的图文对的多模态数据集。共计约5.85B数据,是基于CLIP过滤的。基于这个大型数据集,作者也发布不同侧重的子集。LAION2B-en是包含英文注释文本的,LAION2B-multi是包含100多种的其它注释文本语言的,LAION2B-nolang其中文本注释至少包含一种无法准确检测识别的语言等等。
  • 示例 https://laion.ai/blog/laion-5b/

COCO-700M

COCO

  • 微软发布的上下文通用物体数据集,该数据集涵盖了目标检测、分隔、关键点检测、图文注释这4个方面,共计有328k张图片。
  • 示例 https://cocodataset.org/#home

NoCaps

  • 从OpenImages数据集中验证与测试集中挑选出15k张图片,并为这些图片以人工方式,生成166k个与图片内容效能相关的文本描述语句。
  • 示例 https://nocaps.org/

Flickr30K

TextCaps

  • 28k张图片,共计145k条文本描述语句。该数据集要求模型识别文本并与视觉上下文建立联系。并决定复制或者解释句子中的某个部分,对文本中实体与视觉中实体之间进行空间位置、语义、和视觉推理。
  • 示例 https://arxiv.org/pdf/2003.12462.pdf https://textvqa.org/textcaps/

视觉问答类 Visual Question Answering (VQA)

依据图片中展示出的视觉信息,提出若干个问题,并给于每个问题正确的答案。

VQAv2

OKVQA

  • 需要外部知识才能回答的问题。14k个开放性问题,每个问题5个相关答案,
  • 示例 https://okvqa.allenai.org/

TextVQA

  • 基于图片中文字信息进行视觉问答。要求可以读取识别图片中的文本信息,并回答与之相关的问题。来自OpenImage的28k张图片,45k个问题及453k个答案。
  • 示例 https://textvqa.org/

VizWiz-VQA

OCR-VQA

ScienceQA

  • 21208个不同科学主题的多模态多项选择题,大多数问题都有答案及对应的讲座或者详细解释。
  • 示例 https://scienceqa.github.io/

TDIUC

Visual Grounding

根据文本问题,定位出图片中与之相关的物体

Visual7W

RefCOCO/RefCOCO+

标签:模态,多种,示例,https,视觉,org,文本,数据,图片
From: https://www.cnblogs.com/wolfling/p/17810520.html

相关文章

  • 【专题】中国服务机器人产业研究报告PDF合集分享(附原数据表)
    原文链接:https://tecdat.cn/?p=34144原文出处:拓端数据部落公众号仿生机器人作为一类结合了仿生学原理的机器人,具备自主决策和规划行动的能力,正逐渐进入大众视野。它们的核心技术要素包括感知与认知技术、运动与控制技术、人机交互技术和自主决策技术。阅读原文,获取专题报告合集......
  • 【专题】2023年中国手术机器人行业专题报告PDF合集分享(附原数据表)
    原文链接:https://tecdat.cn/?p=34144原文出处:拓端数据部落公众号仿生机器人作为一类结合了仿生学原理的机器人,具备自主决策和规划行动的能力,正逐渐进入大众视野。它们的核心技术要素包括感知与认知技术、运动与控制技术、人机交互技术和自主决策技术。阅读原文,获取专题报告合集......
  • 喜讯!极限科技成功签约中国一汽搜索数据库三年许可订阅合同!
    中标喜讯!极限科技INFINI Easysearch 成功签约中国第一汽车股份有限公司三年订阅合同!一汽集团作为国内汽车行业龙头企业,数字化转型伴随业务发展不断深化,非结构化数据日益成为各类组织数据的增长主力,逐渐成为数据要素的重要组成部分。以自动分词技术、倒排索引技术、相关度计算、......
  • java 基本数据类型和引用数据类型02
    ......
  • 【MySQL】MVCC机制、ReadView数据结构、匹配规则详解
    (目录)MySQLMVCC机制1.隔离级别在MySQLInnoDB存储引擎下,RC、RR基于MVCC(多版本并发控制)进行并发事务控制MVCC是**基于”数据版本”**对并发事务进行访问2.场景分析UNDO_LOG不是会被删除吗?中间数据万一被删了版本链不就断了?UNDO_LOG版本链不是立即删除,MySQL确保版......
  • 数据结构的初认识
    一般,我们将数据结构分为逻辑结构和物理结构。逻辑结构:是指数据对象中数据元素的相互关系。逻辑结构包括:集合结构,线性结构,树型结构,图形结构。       物理结构:是指数据的逻辑结构在计算机中的存储形式。根据物理结构的定义,我们实际上研究的的就是如......
  • 异常检测算法-完全卷积数据描述子FCDD
    文献来源:EXPLAINABLEDEEPONE-CLASSCLASSIFICATION   最近在做一些异物检测之类的算法任务,原本想使用目标识别算法,但是问题是正样本太多,而负样本没几个。所以有必要使用异常检测算法,日后不妨再结合目标识别任务去做。在正式开始前,需要先简单介绍一个广义损失函数的东西......
  • mysql教程:更改数据页的大小(innodb_page_size)
    修改注意:更改innodb_page_size参数后,需要重新编译mysql的源码才能生效。在MySQL中,更改数据页的大小涉及到重新创建数据库的过程,因为数据页大小是在数据库创建时确定的,并且不能直接更改。以下是一般的步骤:备份数据库:在进行任何结构更改之前,强烈建议备份数据库以防止数据丢失。停止My......
  • 大数据可视化分析建模:每个人都是数据分析师
    ......
  • mysql教程:binlog日志和数据备份
    DMLDDL数据恢复、主从复制数据备份:全量备份、增量备份数据恢复的步骤:备份数据库–还原数据文件–应用binlog–验证数据mysqlbinlog工具、将备份后的修改操作应用到数据库,将数据库恢复到最新的状态数据库的完整性、一致性binlog和数据备份数据备份是将数据库的数据文件复制到另......