首页 > 其他分享 >超全的OCR数据集

超全的OCR数据集

时间:2022-10-06 11:11:06浏览次数:76  
标签:文本 http 超全 Text 图像 OCR 数据 链接


1、SynthText in the Wild dataset

数据集下载链接:

​http://www.robots.ox.ac.uk/~vgg/data/scenetext/​


数据集介绍:一个综合生成的数据集,其中单词实例放置在自然场景图像中,同时考虑场景布局。数据集由大约80万个合成词实例的800万个图像组成。每个文本实例都使用其文本字符串、字级和字符级边界框进行注释。

2、Google FSNS

数据集下载链接:

​http://rrc.cvc.uab.es/?ch=6&com=downloads​


数据集介绍:Google FSNS数据集包含了100多万张从法国Google街景图片中截取的街道名称标志图片。每个图像包含同一街道名称标志的四个视图。路标上的文字最多可以跨越三行。每一个路标都有一个规范的抄本。

3、COCO-Text

数据集下载链接:

​https://vision.cornell.edu/se3/coco-text-2/​


数据集介绍:63686个图像,145859个文本实例,3个细粒度文本属性。

此数据集基于MSCOCO数据集。

主要内容:

  • Text localizations as bounding boxes
  • Text transcriptions for legible text
  • Multiple text instances per image
  • More than 63,000 images
  • More than 145,000 text instances
  • Text instances categorized into machine printed and handwritten text
  • Text instances categorized into legible and illegilbe text
  • Text instances categorized into English script and non-English script

                                             超全的OCR数据集_3d

4、MSRA-TD500

数据集下载链接:

​http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_%28MSRA-TD500%29​


数据集介绍:MSRA文本检测500数据库(MSRA-TD500)包含500幅自然图像,这些图像是使用袖珍相机从室内(办公室和商场)和室外(街道)场景拍摄的。室内图像以标牌、门牌、警示牌为主,室外图像以复杂背景下的导板、广告牌为主。图像的分辨率从1296x864到1920x1280不等。由于文本的多样性和图像中背景的复杂性,数据集是具有挑战性的。文本有不同的语言(中文、英文或两者的混合)、字体、大小、颜色和方向。背景可能包含植被(如树木和灌木丛)和重复的图案(如窗户和砖块),这些图案与文本没有太大的区别。数据集分为训练集和测试集两部分,训练集包含从原始数据集中随机选择的300个图像,其余200个图像构成测试集,此数据集中的所有图像都已完全注释。

超全的OCR数据集_数据集_02

5、ICDAR

数据集下载链接:https://rrc.cvc.uab.es/


ICDAR作为一个Challenge性质的平台,包含了2011~2019年各类OCR相关的数据集。

超全的OCR数据集_3d_03

超全的OCR数据集_3d_04

6、Reading Chinese Text in the Wild(RCTW-17)

数据集下载链接:http://rctw.vlrlab.net/dataset/


数据集介绍:主要包括12000多张图片的数据集,大部分图片是通过手机摄像头在野外采集的,有些是截图。这些图片展示了各种各样的场景,包括街景、海报、菜单、室内场景和手机应用程序的截图。

7、Chinese Text in the Wild(CTW)

数据集下载链接:https://ctwdataset.github.io/


数据集介绍:主要包括3万多幅街景图像中注释的3850个独特的中文文本数据集,其中约有100万个汉字。这是一个具有挑战性的数据集,具有良好的多样性,包括平面文本、凸起文本、弱光下文本、远处文本、部分遮挡文本等。

超全的OCR数据集_微信_05超全的OCR数据集_微信_06

8、Text in Videos

数据集下载链接:

​http://rrc.cvc.uab.es/?ch=3&com=introduction​


数据集介绍:基于不同的短序列(10秒到1分钟长),通过不同类型的摄像机进行选择,使它们代表广泛的现实生活场景。数据集涵盖不同的脚本和语言(西班牙语、法语、英语),将在每一帧的单词级别提供本地化的基本事实。

超全的OCR数据集_3d_07

9、The Uber Text dataset

数据集下载链接:

​https://s3-us-west-2.amazonaws.com/uber-common-public/ubertext/index.html​


数据集介绍:包含了从车载传感器采集的街道级图像和由图像分析团队注释的Ground Truth。

该数据集的特点包括:

(1)街道图像及其文本区域多边形和相应的文本

(2)9个类别表示商业名称文本、街道名称文本和街道编号文本等

(3)一组包含超过110k个图像

(4)平均每个图像4.84个文本实例

超全的OCR数据集_数据集_08

超全的OCR数据集_数据集_09

10、The Chars74K dataset

数据集下载链接:

​http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/​


数据集介绍:

  • 包括64类(0-9、A-Z、A-Z)
  • 自然图像7705个字符
  • 使用平板电脑绘制3410个手写字符
  • 62992个计算机字体合成的字符
  • 共提供了超过74K个图像(解释了数据集的名称)。

超全的OCR数据集_微信_10

上述内容,如有侵犯版权,请联系作者,会自行删文。


标签:文本,http,超全,Text,图像,OCR,数据,链接
From: https://blog.51cto.com/u_14439393/5733424

相关文章

  • 汇总|医学图像数据集
    一、胰腺分割数据集数据下载链接:​​http://academictorrents.com/details/80ecfefcabede760cdbdf63e38986501f7becd49​​数据介绍:包含82个病例的胰腺数据集。二、MICCAI胰......
  • ts+vite3+vue3+mock+qs实现本地模拟数据功能
    第一步:安装qs因为项目中用到了ts,所以还需要安装:第二步:安装mock第三步:创建Vue页面:Category.vue<template><button@click="getById">getById</button><button......
  • .mkp和.Elbie勒索加密数据库可恢复
    最近有朋友咨询了两种win机器文件加密的oracle数据库,通过判断均可修复然后正常open库.DBF.[5D00A5FE].[[email protected]].mkp,可以实现数据文件数据0丢失,和强制拉库......
  • 详解机器学习中的数据处理(二)——特征归一化
    摘要:在机器学习中,我们的数据集往往存在各种各样的问题,如果不对数据进行预处理,模型的训练和预测就难以进行。这一系列博文将介绍一下机器学习中的数据预处理问题,以\(\col......
  • 汇总|缺陷检测数据集
    一、弱监督学习下的工业光学检测(DAGM2007)数据下载链接:​​https://hci.iwr.uni-heidelberg.de/node/3616​​数据集介绍:主要针对纹理背景上的杂项缺陷。较弱监督的训练数据......
  • dagster开源数据资产可观测平台调度平台
    dagster是基于python开发的数据调度平台,可以方便的处理数据的pipeline同时支持数据资产的可观测性而且还可以支持dbt处理参考架构  说明dagster支持的集成是......
  • Redis常用数据类型以及操作
    Redis常用数据类型以及操作一、String数据类型String是redis最基本的类型,最大能存储512MB的数据,String类型是二进制安全的,即可以存储任何数据、比如数字、图片、序列化对......
  • NET第一章:数据类型与转换
    vs快捷键:Ctrl+J快捷键能够打开代码提示框;F12快速转到定义。一、数据类型inti=100;//整型floatf=10.00f;//小数浮点型默认是double类型,需要加f强制转换为fl......
  • 数据结构-关键路径解法思路
    关键路径是有向带权无环图的一种寻求路径的算法,采用四组数据,两组点的,两组边的,表格化后一目了然。分别是:ve(k),vl(k),e(i),l(i)点:k表示点的标识ve:最早发......
  • 记一次 .NET 某工控数据采集平台 线程数 爆高分析
    一:背景1.讲故事前几天有位朋友在B站加到我,说他的程序出现了​​线程数​​爆高的问题,让我帮忙看一下怎么回事,截图如下:说来也奇怪,这些天碰到了好几起关于线程数无缘无故......