本文主要讨论如何做到深入了解OCR，怎么看论文是否是水论文。OCR的识别现在发展到什么样的状态。主流方法有哪些。回答这几个问题，我们首先需要了解OCR领域的数据集，每个数据集的规模多大，如何收集，包含哪些文字，如何标注的，识别难易程度。

本文的主要思路是

介绍OCR领域论文中常用的数据集，以及对应的特性，指标代表一个什么含义。如何测试。
通过了解数据集的方式，了解OCR领域的一些问题、发展方向。
每个数据集要么需要注册，要么格式不统一，解析麻烦，因此这里提供一份已经做好的格式，供下载；为读论文，写论文，开发算法的同学提供便利

一、OCR Regular Latin Datasets

1.1. IIIT5k-Words(IIIT5k)

Scene Text Recognition using Higher Order Language Priors
简介，5K张裁剪好的文字图片，如上图。2K张训练集，3K张测试集。测试集中包含了街景，网络图片等。仅标注62个字符，52个字母以及10个数字。
Every image is associated with a 50-word lexicon and a 1,000-word lexicon. Specifically, the lexicon consists of a ground-truth word and some randomly picked words.
我这边整理了一份可用的，GT区分大小写，供下载，GT为txt格式密码:u461。

1.2 . Street View Text (SVT)

1.3 . ICDAR 2003 (IC03)

1.4 . ICDAR 2013 (IC13)

1.5 . ICDAR 2015 (IC15)

1.6 . Total-Text

二、OCR Irregular Latin Datasets

2.1. Street View Text Perspective(SVTP) 以透视文字为主

2.2. Curve Text (CUTE80)以弯曲文本为主

3. 大型公有训练集

3.1 Synth90k

We provide datasets for text recognition

注意：文章在更新中，有些地方存在问题

Ref

【1】https://www.ctolib.com/HCIILAB-Scene-Text-Recognition.html#11-regular-latin-datasets
【2】http://www.robots.ox.ac.uk/~vgg/data/text/
【3】https://arxiv.org/pdf/2003.08077.pdf

OCR 识别数据集、统计脚本总结供下载相关推荐

python 汉字识别训练数据生成_中文识别数据集生成脚本
一.开发背景随着近几年来计算机算力的不断提升,机器学习也迎来了爆发式的发展,图像识别作为机器学习最典型也是最主要的应用之一,目前应用前景火热. 机器学习最重要的一步就是获取数据集,没有一个坚实的数据 ...
百度OCR识别表格文字，并自动下载到本地(准确率很高)
一.输入文件及申请的Token import java.io.BufferedReader; import java.io.IOException; import java.io.InputStrea ...
中文ocr识别数据集地址
https://github.com/WenmuZhou/OCR_DataSet ctpn https://github.com/BADBADBADBOY/pytorch.ctpn/archive/m ...
目标检测算法——车辆牌照识别数据集汇总 2（附下载链接）
1、基于Keras、Mnist手写数字识别数据集构建全连接（FC）神经网络训练模型
文章目录前言一.MNIST数据集是什么? 二.构建神经网络训练模型 1.导入库 2.载入数据 3.数据处理 4.创建模型 5.编译模型 6.训练模型 7.评估模型三.总代码前言提示: 1.本 ...
TF之DNN：利用DNN【784→500→10】对MNIST手写数字图片识别数据集(TF自带函数下载)预测(98%)+案例理解DNN过程
TF之DNN:利用DNN[784→500→10]对MNIST手写数字图片识别数据集(TF自带函数下载)预测(98%)+案例理解DNN过程目录输出结果案例理解DNN过程思路代码设计输出结果案 ...
#超全#行人重识别数据集整理，附下载链接和介绍
数据集名称时间图片尺寸 (总)行人数量/图像训练集人数/图像 query集人数/图像 gallery 集人数/图像摄像头数量图片说明简介图片命名下载链接文献 1.Market-150 ...
CASIA-SURF活体识别数据集免费免积分下载
网上很多地方下载都要积分(说的就是xsdn).百度这里有一个免积分的下载地址.注册就能下: CASIA-SURF活体识别数据集: https://aistudio.baidu.com/aistudio ...
人脸识别数据集整理以及下载
人脸识别数据集整理下方是整理的人脸识别数据集列表,有需要的小伙伴下载获取,仅限学习交流,不能用作他处,感谢理解. 下载链接:https://download.csdn.net/download/m0 ...

OCR 识别数据集、统计脚本总结供下载

一、OCR Regular Latin Datasets

1.1. IIIT5k-Words(IIIT5k)

1.2 . Street View Text (SVT)

1.3 . ICDAR 2003 (IC03)

1.4 . ICDAR 2013 (IC13)

1.5 . ICDAR 2015 (IC15)

1.6 . Total-Text

二、OCR Irregular Latin Datasets

2.1. Street View Text Perspective(SVTP) 以透视文字为主

2.2. Curve Text (CUTE80)以弯曲文本为主

3. 大型公有训练集

3.1 Synth90k

Ref

OCR 识别数据集、统计脚本总结供下载相关推荐

最新文章

热门文章

OCR 识别数据集、统计脚本总结供下载

一 、OCR Regular Latin Datasets

1.1. IIIT5k-Words(IIIT5k)

1.2 . Street View Text (SVT)

1.3 . ICDAR 2003 (IC03)

1.4 . ICDAR 2013 (IC13)

1.5 . ICDAR 2015 (IC15)

1.6 . Total-Text

二 、OCR Irregular Latin Datasets

2.1. Street View Text Perspective(SVTP) 以透视文字为主

2.2. Curve Text (CUTE80)以弯曲文本为主

3. 大型公有训练集

3.1 Synth90k

Ref

OCR 识别数据集、统计脚本总结供下载相关推荐

最新文章

热门文章

一、OCR Regular Latin Datasets

二、OCR Irregular Latin Datasets