1、SynthText in the Wild dataset
数据集下载链接:
http://www.robots.ox.ac.uk/~vgg/data/scenetext/
数据集介绍:一个综合生成的数据集,其中单词实例放置在自然场景图像中,同时考虑场景布局。数据集由大约80万个合成词实例的800万个图像组成。每个文本实例都使用其文本字符串、字级和字符级边界框进行注释。
2、Google FSNS
数据集下载链接:
http://rrc.cvc.uab.es/?ch=6&com=downloads
数据集介绍:Google FSNS数据集包含了100多万张从法国Google街景图片中截取的街道名称标志图片。每个图像包含同一街道名称标志的四个视图。路标上的文字最多可以跨越三行。每一个路标都有一个规范的抄本。
3、COCO-Text
数据集下载链接:
https://vision.cornell.edu/se3/coco-text-2/
数据集介绍:63686个图像,145859个文本实例,3个细粒度文本属性。
此数据集基于MSCOCO数据集。
主要内容:
- Text localizations as bounding boxes
- Text transcriptions for legible text
- Multiple text instances per image
- More than 63,000 images
- More than 145,000 text instances
- Text instances categorized into machine printed and handwritten text
- Text instances categorized into legible and illegilbe text
- Text instances categorized into English script and non-English script
4、MSRA-TD500
数据集下载链接:
http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_%28MSRA-TD500%29
数据集介绍:MSRA文本检测500数据库(MSRA-TD500)包含500幅自然图像,这些图像是使用袖珍相机从室内(办公室和商场)和室外(街道)场景拍摄的。室内图像以标牌、门牌、警示牌为主,室外图像以复杂背景下的导板、广告牌为主。图像的分辨率从1296x864到1920x1280不等。由于文本的多样性和图像中背景的复杂性,数据集是具有挑战性的。文本有不同的语言(中文、英文或两者的混合)、字体、大小、颜色和方向。背景可能包含植被(如树木和灌木丛)和重复的图案(如窗户和砖块),这些图案与文本没有太大的区别。数据集分为训练集和测试集两部分,训练集包含从原始数据集中随机选择的300个图像,其余200个图像构成测试集,此数据集中的所有图像都已完全注释。
5、ICDAR
数据集下载链接:https://rrc.cvc.uab.es/
ICDAR作为一个Challenge性质的平台,包含了2011~2019年各类OCR相关的数据集。
6、Reading Chinese Text in the Wild(RCTW-17)
数据集下载链接:http://rctw.vlrlab.net/dataset/
数据集介绍:主要包括12000多张图片的数据集,大部分图片是通过手机摄像头在野外采集的,有些是截图。这些图片展示了各种各样的场景,包括街景、海报、菜单、室内场景和手机应用程序的截图。
7、Chinese Text in the Wild(CTW)
数据集下载链接:https://ctwdataset.github.io/
数据集介绍:主要包括3万多幅街景图像中注释的3850个独特的中文文本数据集,其中约有100万个汉字。这是一个具有挑战性的数据集,具有良好的多样性,包括平面文本、凸起文本、弱光下文本、远处文本、部分遮挡文本等。
8、Text in Videos
数据集下载链接:
http://rrc.cvc.uab.es/?ch=3&com=introduction
数据集介绍:基于不同的短序列(10秒到1分钟长),通过不同类型的摄像机进行选择,使它们代表广泛的现实生活场景。数据集涵盖不同的脚本和语言(西班牙语、法语、英语),将在每一帧的单词级别提供本地化的基本事实。
9、The Uber Text dataset
数据集下载链接:
https://s3-us-west-2.amazonaws.com/uber-common-public/ubertext/index.html
数据集介绍:包含了从车载传感器采集的街道级图像和由图像分析团队注释的Ground Truth。
该数据集的特点包括:
(1)街道图像及其文本区域多边形和相应的文本
(2)9个类别表示商业名称文本、街道名称文本和街道编号文本等
(3)一组包含超过110k个图像
(4)平均每个图像4.84个文本实例
10、The Chars74K dataset
数据集下载链接:
http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
数据集介绍:
- 包括64类(0-9、A-Z、A-Z)
- 自然图像7705个字符
- 使用平板电脑绘制3410个手写字符
- 62992个计算机字体合成的字符
- 共提供了超过74K个图像(解释了数据集的名称)。
上述内容,如有侵犯版权,请联系作者,会自行删文。