graviti
产品公开数据集应用市场解决方案知识库关于我们

常见OCR/文本检测数据集合集

发布于2021-04-27

OCR全称为Optical Character Recognition,是一种用于识别图像和图形中字符的识别技术。其实现原理是通过如扫描仪或数码相机等电子设备输入图形图像信息,将图像信息中的印刷体文字通过相应的转换形成一定的字符,并与字符数据库进行比对,最终将标准的文本信息输出。

随着大数据时代的快速发展和移动拍摄设备的普及,人们对于能够将存在于自然场景图像中的文字提取并识别的需求已经越来越迫切。自然场景下的文本检测与识别作为计算机视觉中的一个重要分支方向,引起了研究人员的广泛关注。同时,自然场景文本图像的大量产生也为这一任务提供了数据基础。文字作为记录和传递信息的重要工具,将图像中的文字提取并识别 ,并通过人工智能运用到各个领域,能够使人们生活更加便利和自动化。

OCR/文本检测数据集在便利人们生活、自动化等方面发挥着重要的作用,此类数据集在工程师的日常工作中也越来越多的被使用。

Graviti Open Datase为大家准备了许多公开OCR/文本检测数据集,点击链接查收。https://gas.graviti.cn/open-datasets

接下来将为大家介绍一些常见的OCR/文本检测数据集,并附高速下载地址。

1.数据集名称:CCPD-Green

数据集简介:

该数据集是中成城新能源汽车数据集的一个八位数车牌号子数据集。

数据集高速下载地址:https://gas.graviti.cn/dataset/data-decorators/CCPDGreen

2.数据集名称:SVHN

数据集简介:

SVHN是一个真实世界的图像数据集,用于机器学习和对象识别算法,对数据预处理和格式化的要求比较低。该数据集与MNIST风格相似(例如,图像是小的裁切数),但包含一个数量级更多的标签数据(超过60万数字图像),并来自一个明显更困难、未解决的真实世界问题(识别自然场景图像中的数字和数字)。SVHN是从谷歌街景图像中的门牌号码中获取的。

数据集高速下载地址:https://gas.graviti.cn/dataset/data-decorators/SVHN

3.数据集名称:MNIST

数据集简介:

手写数字的MNIST数据库有60000个样本的训练集和10000个样本的测试集。它是NIST提供的一个更大的集合的子集。这些数字已经被大小标准化,并在固定大小的图像中居中。对于那些希望在实际数据上尝试学习技术和模式识别方法,同时又不需要花费太多精力进行预处理和格式化的人来说,这是一个很好的数据库。

数据集高速下载地址:https://gas.graviti.cn/dataset/data-decorators/MNIST

4.数据集名称:The IIIT 5K-word

数据集简介:The IIIT 5K-word数据集来自谷歌图像搜索。查询词如广告牌,招牌,门牌号,电影海报等,被用来收集图像。该数据集包含5000张来自Scene Texts和born-digital images的裁剪单词图像。数据集分为训练部分和测试部分。该数据集可用于大词典裁剪词的识别。该数据集提供了一个包含50多万个单词的词典。

数据集高速下载地址:https://gas.graviti.cn/dataset/shannont/IIIT5KWord

5.数据集名称:Text in the wild

数据集简介:Text in the wild提供了一个新创建的约100万汉字数据集的细节,该数据集由专家在30000多张街景图像中标注了3850个独特的汉字。

这是一个具有多样性和挑战性的数据集,包含平面文本,凸起的文本,光线较暗的文本,距离较远的文本,部分遮挡的文本等。

数据集高速下载地址:https://gas.graviti.cn/dataset/shannont/TextInWild

6.数据集名称:ICDAR 2013 Handwriting Segmentation Contest

数据集简介:1.150幅画使用希腊语和英语书写,50幅画使用印度孟加拉语书写。

2.黑白手写文件图像由许多作家在拉丁语(希腊语和英语)和印度语言。

3.训练和测试的数据集都只由二值图像组成。

数据集高速下载地址:https://gas.graviti.cn/dataset/hellodataset/ICDAR2013HandwritingSegmentationContest