首页 > 其他分享 >多模态+大模型领域的开源数据集(持续更新中20230508)

多模态+大模型领域的开源数据集(持续更新中20230508)

时间:2023-05-08 15:44:40浏览次数:52  
标签:模态 CLIP 数据 开源 400M 图像 LAION 20230508 图文

 Conceptual Caption

简称cc,minigpt4就使用这个数据集,一个大规模的图像文本配对数据集,包含超过30万个图像,每个图像都有5个人工描述。这个数据集的目的是为了促进计算机视觉和自然语言处理之间的研究交叉,可以用于图像检索、视觉问答等任务的训练和评估。

Conceptual Captions为从互联网获取的图文数据集。首先按格式、大小、内容和条件筛选图像和文本,根据文字内容能否较好地匹配图像内容过滤图文对,对文本中使用外部信息源的部分利用谷歌知识图谱进行转换处理,最后进行人工抽样检验和清理,获得最终数据集。Changpinyo等人(2021)基于Conceptual Captions将数据集的规模从330万增加到了1200万,提出了Conceptual12M。

下载地址: https://opendatalab.org.cn/Conceptual_Captions/download

 

SBU

一个用于图像标注的数据集,包含约1万张图片和每张图片5个描述。这个数据集中的描述是通过Amazon Mechanical Turk(一个众包平台)上的工人来收集的,可以用于图像标注、多模态数据集的训练等任务。

SBU(Ordonez等,2011)数据集: SBU是较为早期的大规模图像描述数据集。收集数据时,先使用对象、属性、动作、物品和场景查询词对图片分享网站Flickr进行查询,得到大量携带相关文本的照片,然后根据描述相关性和视觉描述性进行过滤,并保留包含至少两个拟定术语作为描述。

下载地址: https://opendatalab.org.cn/SBU_Captions_Dataset/download

LAION(Large-scale AI Open Network,“大规模人工智能开放网络”的简称)

项目链接:htttps://laion.ai/blog/laion-400-open-dataset/
论文标题:LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs
论文链接:https://arxiv.org/abs/2111.02114
一个优秀的图文多模态数据集LAION,跟CLIP原始训练数据集就有相当体量,即400个million.

 

多模态语言-视觉模型通常是数亿个图文对(image-text pair)上训练出来的,比如CLIP、DALL-E。对于绝大部分研究者而言,要收集这样一个级别的数据集还是有相当难度的。这也是LAION团队收集并开源LAION-400M的原因。而且LAION-400M是用CLIP进行过滤的,所以理论上这个数据集质量会高于CLIP团队所用的400million的数据。

LAION-400M不仅给了这么大数量的图文对,还用CLIP把数据都推理了一遍,并且保存了embedding和kNN索引,咱们可以对这个大数据集高效索引。

索引网站:https://rom1504.github.io/clip-retrieval/

LAION-400M的概述如上。4亿个图片-文本对,并且附带4亿个URL和4亿个图片嵌入表示。一些kNN索引来支持快速搜索,以及一个数据处理库。

LAION-400M在收集数据时,做了一些过滤设定:

将文本短于5个字母或者图像小于5kb的图文对丢弃;
去重操作;
用CLIP计算图文相似性,抛弃掉相似性低于0.3的图文对;(重要)
筛除一些不合法的图文对,比如adult/violence/insulting等等。(love and peace化)
PS: 我在做实验的过程中,发现第三点尤为重要,之前团队收集过400M的某专用领域数据,一直训不到好结果。但用similarity 0.3过滤以后,哪怕数据量只有之前的1/10,训练效果却能达到非常好。

 

标签:模态,CLIP,数据,开源,400M,图像,LAION,20230508,图文
From: https://www.cnblogs.com/chentiao/p/17381616.html

相关文章

  • 开源免费绘制小工具drawio推荐
    最近给客户做架构评估写报告时,需要画一些架构示例简图,需求很简单,没到非要用付费软件的程度。同事推荐一款开源免费的绘制软件drawio,实际体验不错,可以满足我的使用需求。drawio官方网站:https://www.drawio.com/不但有提供Windows的版本,也有我需要的macOS版本,真香!......
  • 任意大模型低成本变类ChatGPT方法开源
    科幻中有机器人三原则,IBM说不够,要十六原则最新大模型研究工作中,以十六原则为基础,IBM让AI自己完成对齐流程。全程只需300行(或更少)人类标注数据,就把基础语言模型变成ChatGPT式的AI助手。更重要的是,整个方法完全开源,也就是说,任何人都能按此方法,低成本把......
  • [20230508]crack oracle执行文件.txt
    [20230508]crackoracle执行文件.txt--//昨天看了链接:https://www.xifenfei.com/2023/04/ora-07445-kglsget.html--//提到open阶段执行如下:-----CurrentSQLStatementforthissession(sql_id=gtf6tgc2ycgxx)-----selectcount(*)fromXDB.XDB$SCHEMAswheres.xmldata.s......
  • boot-admin开源项目中有关后端参数校验的最佳实践
    我们在项目开发中,经常会对一些参数进行校验,比如非空校验、长度校验,以及定制的业务校验规则等,如果使用if/else语句来对请求的每一个参数一一校验,就会出现大量与业务逻辑无关的代码,繁重不堪且繁琐的校验,会大大降低我们的工作效率,而且准确性也无法保证。为保证数据的正确性、完整性,前......
  • 什么是多模态
    大模型的多模态指的是利用深度学习等技术,将不同类型的多模态数据结合起来训练的模型。这种模型通常使用多个模态的数据(例如图像、文本、语音、视频等)作为输入,并将它们融合在一起,以实现更全面、更准确的理解和推理。这种多模态模型的应用广泛,例如图像描述生成、视频分类、音频识别......
  • 开源项目消息推送平台Austin
    开源项目消息推送平台Austin终于要上线了,迎来在线演示的第一版!......
  • 《安富莱嵌入式周报》第311期:300V可调节全隔离USB PD电源,开源交流负载分析仪,CANFD Tra
    周报汇总地址:http://www.armbbs.cn/forum.php?mod=forumdisplay&fid=12&filter=typeid&typeid=104 视频版:https://www.bilibili.com/video/BV1Hh4y1H7dR1、运行速度1Hz木头材料晶体管https://liu.se/en/news-item/varldens-forsta-tratransistor研究人员设计并测试了第......
  • 国内公司的开源的开发工作
    淘宝:淘宝内核组淘宝对Linux内核的贡献阿里云博客小米https://github.com/micodehttps://github.com/XiaoMi重要的一点:不仅仅要站在巨人的肩膀上,更要为巨人指方向赢得话语权,影响开源项目的走向-向有利于自己公司的方向发展避免内部分支与社区主干分支渐行渐远-否则,有可能远......
  • 新一代开源VoIP协议栈--OPAL(OpenH323 v2)
     OPAL是OpenPhoneAbstractionLibrary的字母缩写,仍然是Equivalence公司开发的开源VoIP协议栈,从2001年便开始开发了,直到现在还没有正式发布过一个版本,只能从CVS: http://cvs.sourceforge.net/viewcvs.py/openh323/opal下载最新的版本,而且现在的2.05bate版有着非常多的问题,但这......
  • 基于.Net开发的数据库导入导出的开源项目
    在项目开发过程中,我们经常碰到从数据库导入导出的需求,虽然这样的功能不是很复杂,但是往往我们都会碰到一些问题。比如导入的Excel格式问题、Excetl中图片导入问题,导出的需求为了方便客户查看,会面临更多个性化的需求,为了满足这些需求,开发还是比较繁琐的。今天给大家推荐一个开源库......