OCR 识别数据集、统计脚本总结供下载
本文主要讨论如何做到深入了解OCR,怎么看论文是否是水论文。OCR的识别现在发展到什么样的状态。主流方法有哪些。回答这几个问题,我们首先需要了解OCR领域的数据集,每个数据集的规模多大,如何收集,包含哪些文字,如何标注的,识别难易程度。
本文的主要思路是
- 介绍OCR领域论文中常用的数据集,以及对应的特性,指标代表一个什么含义。如何测试。
- 通过了解数据集的方式,了解OCR领域的一些问题、发展方向。
- 每个数据集要么需要注册,要么格式不统一,解析麻烦,因此这里提供一份已经做好的格式,供下载;为读论文,写论文,开发算法的同学提供便利
一 、OCR Regular Latin Datasets
1.1. IIIT5k-Words(IIIT5k)
Scene Text Recognition using Higher Order Language Priors
简介,5K张裁剪好的文字图片,如上图。2K张训练集,3K张测试集。测试集中包含了街景,网络图片等。仅标注62个字符,52个字母以及10个数字。
Every image is associated with a 50-word lexicon and a 1,000-word lexicon. Specifically, the lexicon consists of a ground-truth word and some randomly picked words.
我这边整理了一份可用的,GT区分大小写,供下载,GT为txt格式 密码:u461。
1.2 . Street View Text (SVT)
- 共350张图片,均为.jpg 格式,街景。249张测试图(可以切出 647 word images)。101张训练图(可以切出 257 word images)。
- 标注信息含有:每个word的矩形框标注,以及不区分大小写的识别GT。
- 提供数据形式: 切割好的图片,以及 GT,这个GT仍然是不分区大小写的。供下载,GT为txt格式 密码:cjap。
1.3 . ICDAR 2003 (IC03)
- Icdar 2013 robust reading competition. In 2013 12th International Conference on Document Analysis and Recognition
- recognition task contains 860 horizontal focused images.
- 此数据集识别任务中,包含867张图,不过现在的主流论文中,大部分采用860张的形式(剔除少于3个字符的样本)。
- GT是大小写敏感的。当下流行OCR的论文中已经去掉了词库的辅助,那个部分不是OCR的任务。
- 提供数据形式: 切割好的图片,以及 GT,GT区分大小写。供下载,GT为txt格式 密码:xchd。
1.4 . ICDAR 2013 (IC13)
- Icdar 2013 robust reading competition. In 2013 12th International Conference on Document Analysis and Recognition
- 共350张图片,均为.jpg 格式,街景。249张测试图(可以切出 647 word images)。101张训练图(可以切出 257 word images)。
- 标注信息含有:每个word的矩形框标注,以及不区分大小写的识别GT。
- 提供数据形式: 切割好的图片,以及 GT,这个GT仍然是不分区大小写的。供下载,GT为txt格式 密码:cjap。
1.5 . ICDAR 2015 (IC15)
- Icdar 2015 competition on robust reading. In Document Analysis and Recognition (ICDAR) , 2015 13th International Conference
- noisy, blurry, and rotated, and some are also of low resolution.
- It contains 4,468 images for training and 2,077 images for evaluation
- 提供数据形式: 切割好的图片,以及 GT,这个GT是区分大小写的。供下载,GT为txt格式 密码:cdej。
1.6 . Total-Text
- Total-text: A comprehensive dataset for scene text detection and recognition. In Document Analysis and Recognition (ICDAR), 2017 14th IAPR International Conference
- 共 2201 cropped images
- text instances are ranged from slightly toextremely curved.
- TOTAL-TEXT is a word-level based English curve text dataset.
- 提供数据形式: 切割好的图片,以及 GT,这个GT仍然是不分区大小写的。供下载,GT为txt格式 密码:cjap。
二 、OCR Irregular Latin Datasets
2.1. Street View Text Perspective(SVTP) 以透视文字为主
- 包含238个街景图片,与SVT图像同源。
- 共645个切好的图片,这些图片大部分带有透视
- It is built based on the original SVT dataset by selecting the images at the same address on Google Street View but with different view angles. 跟SVT拍摄的地址是同样的,不过换了视角
- Each image is associated with a 50-word lexicon and a full-word lexicon. 这里的词典与SVT的词典是一样的。
- 提供数据形式: 切割好的图片,以及 GT,这个GT仍然是不分区大小写的。供下载,GT为txt格式 密码:42oa。
2.2. Curve Text (CUTE80)以弯曲文本为主
- 一般情况下这个识别的标注很难找到,我这边整理了一份。供下载,GT为txt格式 供下载,GT为txt格式 密码:g26d。
- No lexicon is associated with CUTE80.
- 供80个图像,288个切好的文本区域,该数据集专注曲线文本识别,检测。不过识别标注统一不区分大小写,后面我会修复掉这个标注,提供一份 case sensitive 的GT。
3. 大型公有训练集
3.1 Synth90k
Ref
- 【1】https://www.ctolib.com/HCIILAB-Scene-Text-Recognition.html#11-regular-latin-datasets
- 【2】http://www.robots.ox.ac.uk/~vgg/data/text/
- 【3】https://arxiv.org/pdf/2003.08077.pdf
OCR 识别数据集、统计脚本总结供下载相关推荐
- python 汉字识别训练数据生成_中文识别数据集生成脚本
一.开发背景 随着近几年来计算机算力的不断提升,机器学习也迎来了爆发式的发展,图像识别作为机器学习最典型也是最主要的应用之一,目前应用前景火热. 机器学习最重要的一步就是获取数据集,没有一个坚实的数据 ...
- 百度OCR识别表格文字,并自动下载到本地(准确率很高)
一.输入文件及申请的Token import java.io.BufferedReader; import java.io.IOException; import java.io.InputStrea ...
- 中文ocr识别数据集地址
https://github.com/WenmuZhou/OCR_DataSet ctpn https://github.com/BADBADBADBOY/pytorch.ctpn/archive/m ...
- 目标检测算法——车辆牌照识别数据集汇总 2(附下载链接)
- 1、基于Keras、Mnist手写数字识别数据集构建全连接(FC)神经网络训练模型
文章目录 前言 一.MNIST数据集是什么? 二.构建神经网络训练模型 1.导入库 2.载入数据 3.数据处理 4.创建模型 5.编译模型 6.训练模型 7.评估模型 三.总代码 前言 提示: 1.本 ...
- TF之DNN:利用DNN【784→500→10】对MNIST手写数字图片识别数据集(TF自带函数下载)预测(98%)+案例理解DNN过程
TF之DNN:利用DNN[784→500→10]对MNIST手写数字图片识别数据集(TF自带函数下载)预测(98%)+案例理解DNN过程 目录 输出结果 案例理解DNN过程思路 代码设计 输出结果 案 ...
- #超全#行人重识别数据集整理,附下载链接和介绍
数据集名称 时间 图片尺寸 (总)行人数量/图像 训练集人数/图像 query集人数/图像 gallery 集人数/图像 摄像头数量 图片说明 简介 图片命名 下载链接 文献 1.Market-150 ...
- CASIA-SURF活体识别数据集免费免积分下载
网上很多地方下载都要积分(说的就是xsdn).百度这里有一个免积分的下载地址.注册就能下: CASIA-SURF活体识别数据集: https://aistudio.baidu.com/aistudio ...
- 人脸识别数据集整理以及下载
人脸识别数据集整理 下方是整理的人脸识别数据集列表,有需要的小伙伴下载获取,仅限学习交流,不能用作他处,感谢理解. 下载链接:https://download.csdn.net/download/m0 ...
最新文章
- 服务器修改跳转接口,vue-element登录切换到服务器api后 有返回 但是跳转路由报错...
- java主线程控制子线程_CountDownLatch控制主线程等子线程执行完--Java多线程
- 矩阵分析(三):矩阵的列空间、行空间与零空间
- QQ截图取色器:没有吸管工具的情况下,跨软件随时随地快捷取色
- 随机数生成器与线性同余法产生随机数
- 爬虫基础练习—python爬虫下载豆瓣妹子图片
- C语言加法测试题,c语言50练习题.doc
- Kali Linux破解WiFi密码完整步骤
- 免费节假日API第一时间更新2019年节假日放假安排 可怜的五一
- 宋体 ttf_Linux安装7种思源宋体的5个步骤
- 对搜索引擎技术的认识和发展
- 需求与商业模式创新-商业模式考试复习
- EF(Entity Framework、EF Core)
- 部署Openstack-train版
- 如何自学UI设计?如何成为UI设计师?
- 有哪些好用的设备巡检类的软件?
- 实现JS标签切换效果【CSS图片切换】
- 全面剖析亚马逊,让你开店不迷茫!
- html消除绝对定位的影响,css怎么清除绝对定位?
- input光标的移动和选中
热门文章
- 单片机中存储器扩展位地址线怎么算_单片机外部扩展存储器时,分时复用做数据线和低8位地址线的是( )。 (2.0分)_学小易找答案...
- C++用指针写哈夫曼树
- RestTemplate HttpClient 加载 SSL/PKCS12/微信API证书
- ROS 教育越野机器人TRANSBOT 新品发布
- 风投们进入区块链领域的正确姿势(知识)
- D3临摹作业_数据采集(西安交大国家艺术基金数据可视化培训第27天)
- C#毕业设计——基于C#+asp.net+sqlserver的公司员工管理系统设计与实现(毕业论文+程序源码)——员工管理系统
- 基于java的超市收银管理和基于SSM+mysql的Web便利店收银管理系统
- 细菌、真菌和病毒的区别
- 通过NAT ALG实现FTP服务器的访问【实例】