自然场景OCR任务介绍

文字识别(optical character recognition,OCR)是指例如扫描仪或数码相机的电子设备检查图像中的字符,然后用字符识别方法将形状翻译成计算机文字的任务。
OCR应用场景比较丰富,包括自然场景、手写场景、文档识别等。作为OCR任务中应用最广泛、具备巨大市场需求的场景之一是自然场景OCR。自然场景是指人们日常生活涉及到的OCR场景,文字载体通常可以为商店牌匾、站牌、海报、路标、漫画、井盖画、提示语、警示语、包装说明、菜单、建筑物标志等。
图片
图片
自然场景OCR数据标注方式

按照不同的标注精细程度,通常可以分为文本行级标注和字符级标注(拉丁语系存在单词的还会进行单词级标注)。标注方式通常为文本框+字符转写,基于不同的任务需求,文本框可以为矩形框或者四边形框。

图片
图片
自然场景OCR任务难点

从技术角度出发,自然场景OCR任务存在以下四个难点。

语种众多
不同国家常用语言不同,不同语言的字符形态区别也很大,增加了OCR算法的识别难度。

字体形态复杂
在自然场景中,文字通常为艺术字体,艺术字体的状态与标准字体差异较大;此外,自然场景中文字大小不一、颜色多变等因素更增加了OCR任务的难度。

拍摄角度多样
用户大多会使用手机作为拍摄文字的设备,不同用户拍摄习惯不同,会导致拍摄时的拍摄角度多样,给OCR算法对角度倾斜的鲁棒性提出了挑战。

文字载体多样
自然场景OCR文字载体分布比较丰富,部分载体会造成文字扭曲。例如食品包装经常会发生形变,造成文字的弯曲,增加了OCR任务难度。

数据堂自然场景OCR数据集
数据堂针对自然场景OCR任务需求和难点,从数据层面针对性设计了下述数据集,分别介绍如下:
1

222289张中文自然场景OCR数据

该数据集为中文自然场景OCR数据。在数据采集方面,采集设备为手机及相机;文字载体为常见的商店牌匾、海报、路标、提示语、警示语、包装说明、菜单等;场景分布方面,数据采集于多种室内室外场景。在数据标注方面,对图片中字符进行了行级、单词级和字符级的矩形框+文字转写标注。
数据规模
222289张图像
采集环境
室内、室外
采集多样性
多种场景、多种拍摄角度
采集设备
手机、相机
拍摄角度 仰视、俯视、平视
数据格式 图像为jpg、png、jpeg;标注文档为json
标注内容
行级矩形框标注、行级内容转写
准确率
检测框标注、文本转写准确率>95%

2

71535张英文自然场景OCR数据

该数据集为英文自然场景OCR数据。在数据采集方面,采集设备为手机、相机和平板电脑;文字载体为常见的商店牌匾、海报、路标、提示语、警示语、包装说明、菜单、建筑物标志等;场景分布方面,该数据采集于多种室内室外场景。在数据标注方面,对图片中字符进行了行级、单词级和字符级矩形框+文字转写标注。
数据规模
71535张图像,每张图像有1-200个单词
采集环境
英国、美国实地商店牌匾、海报、路标、提示语、警示语、包装说明、菜单、建筑物标志等
采集多样性
多种场景、多种拍摄角度、多种光照条件
采集设备
手机、相机、平板电脑
拍摄角度 仰视、俯视、平视
数据格式 图像为jpg;标注文档为json
标注内容
行级、单词级、字符级矩形框或四边形框标注、文本转写
准确率
检测框标注、文本转写准确率>95%

3

105941张12种语言自然场景OCR数据

该数据集为多国语言自然场景OCR数据。在数据采集方面,采集设备为手机及相机;文字载体为常见的商店牌匾、站牌、海报、车票、路标、漫画、井盖画、提示语、警示语、包装说明、菜单、建筑物标志等;场景分布方面,该数据采集于多种室内室外场景。在数据标注方面,对图片中字符进行了行级四边形框+文字转写标注。
数据规模
105941张图像,包含日语、韩语、印尼语、马来语、越南语、泰语、法语、德语、意大利语、葡萄牙语、俄语、西班牙语
采集环境
商店牌匾、站牌、海报、车票、路标、漫画、井盖画、提示语、警示语、包装说明、菜单、建筑物标志等
采集多样性
12种语言、多种场景、多种拍摄角度(仰视、俯视、平视)
采集设备
手机、相机
数据格式 图像为jpg;标注文档为json
标注内容
行级矩形框标注、行级内容转写
准确率
四边形框顶点偏差不超过5个像素为正确检测,检测框精度、文本转写精度>97%

4

3506张印地语OCR标注及转写数据

该数据集为印地语OCR数据。在数据采集方面,采集场景包括自然场景、互联网图像和文本图像。采集设备为手机;文字载体为牌匾、包装说明、小广告、菜单、海报等、杂志封面、漫画封面、文本文档等;场景分布方面,该数据采集于多种室内室外场景。在数据标注方面,对图片中行级字符进行行级四边形框+文字转写标注,对于数列文本进行竖列四边形框+文字转写标注。
数据规模
3056张图像,包含自然场景、互联网图像文字、文本图像
采集环境
牌匾、包装说明、小广告、菜单、海报、杂志封面、漫画封面、文本文档等
采集多样性
多种场景、多种角度、多种光照条件
采集设备
手机
拍摄角度 仰视、平视
数据格式 图像为jpg;标注文档为json
标注内容
行级矩形框标注、行级内容转写;竖列四边形标注、竖列内容转写
准确率
四边形框顶点偏差不超过10个像素为正确检测,检测框精度、文本转写精度>97%

5

4995张越南语OCR标注及转写数据

该数据集为越南语OCR数据。在数据采集方面,采集场景包括自然场景、互联网图像和文本图像。采集设备为手机;文字载体为牌匾、包装说明、小广告、菜单、海报等、杂志封面、漫画封面、文本文档等;场景分布方面,该数据采集于多种室内室外场景。在数据标注方面,对图片中行级字符进行行级四边形框+文字转写标注,对于数列文本进行竖列四边形框+文字转写标注。

数据规模
4995张,包含自然场景、互联网图像文字、文本图像
采集环境
牌匾、包装说明、小广告、菜单、海报、杂志封面、漫画封面、文本文档等
采集多样性
多种场景、多种角度、多种光照条件
采集设备
手机
拍摄角度 仰视、平视
数据格式 图像为jpg;标注文档为json
标注内容
行级矩形框标注、行级内容转写;竖列四边形标注、竖列内容转写
准确率
四边形框顶点偏差不超过10个像素为正确检测,检测框精度、文本转写精度>97%
依托自身的数据优势以及丰富的数据处理经验,数据堂推出的自然场景多国语言系列OCR标注及转写数据,为自然场景OCR技术应用的广泛落地提供助力。

数据推荐 | 自然场景OCR文字识别数据集一览相关推荐

  1. 基于dnn的车牌识别_自然场景中文文字识别,身份证火车票都能识别

    图像处理中OCR(Optical Character Recognition光学字符识别)场景非常多,也给大家的工作生活带来了很多便利,比如车牌识别就能管理停车场车辆的出入,快递时只需给一个带有快递信 ...

  2. 人工智能OCR文字识别研究

    1 研究背景 人工智能是研究开发能够模拟.延伸和扩展人类智能的理论.方法.技术及应用系统的一门新的技术科学,研究目的是促使智能机器会听(语音识别.机器翻译等).会看(图像识别.文字识别等).会说(语音 ...

  3. 人工智能最新研究发展方向——OCR文字识别简述

    1 研究背景 人工智能是研究开发能够模拟.延伸和扩展人类智能的理论.方法.技术及应用系统的一门新的技术科学,研究目的是促使智能机器会听(语音识别.机器翻译等).会看(图像识别.文字识别等).会说(语音 ...

  4. 行业洞察 | OCR文字识别技术都有哪些用途

    现在连一支笔也卷起来了. 近期,网易有道先后发布了新一代词典笔,此前科大讯飞也发布了智能录音笔.这些科技含量满点的笔不仅可以支持高质量的录音和高效率的文字转写,同时能够识别众多语种和方言,中文在线转写 ...

  5. 淡谈自然场景下小样本OCR文字识别

    淡谈自然场景下小样本OCR文字识别 1. 环境准备 实验中使用了centos7.6,intel core i4710,gtx980M(老机器重装) 安装的时候要注意,linux内核版本和实际版本要一致 ...

  6. 【Keras+计算机视觉+Tensorflow】OCR文字识别实战(附源码和数据集 超详细必看)

    需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一.OCR文字识别简介 利用计算机自动识别字符的技术,是模式识别应用的一个重要领域.人们在生产和生活中,要处理大量的文字.报表和文本.为了减轻人们 ...

  7. 5款OCR文字识别软件推荐_分享好用的OCR(图片转文字)工具

    5款OCR文字识别软件推荐 不知道大家是不是不知道OCR单词识别这个词. 小编认为,经常处理各种办公文件的朋友,对OCR文字识别这个词肯定有一定的了解,因为在处理办公文件的时候,很有可能会遇到对OCR ...

  8. mac 文字识别软件ocr_mac超快速ocr文字识别软件 mac上超好用的文字识别软件推荐...

    OCR文字识别软件是在日常的生活和工作中十分常用的一款软件.而当下使用mac系统的用户也越来越多了,相比较于windows不同的是,mac上能够使用的ocr用具基本上会比较难找.这里就为大家推荐几款在 ...

  9. 精品软件 推荐 ABBYY FineReader 世界排名第一的 OCR 文字识别工具

    ABBYY FineReader 是世界排名第一的 OCR 文字识别工具,提供高效和精准的文档识别.数据提取解决方案,支持多国字符和彩色文件识别,主要用于将扫描图像.图片型PDF转化成可编辑的文本. ...

  10. 自然场景文本检测识别技术集合(转)

    本文及其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次. 书的购买链接 书的勘 ...

最新文章

  1. python列表根据值找索引_python实现列表中由数值查到索引的方法
  2. VTK:简单操作之ProjectPointPlane
  3. 的union_C语言“隐秘的角落”——union没那么简单
  4. opencv编译python库_linux 下编译安装 opencv-python
  5. [ASP.NET Core 3框架揭秘] 异步线程无法使用IServiceProvider?
  6. Java集合系列---TreeMap源码解析(巨好懂!!!)
  7. 数组实例的fill()方法 fill()方法
  8. 商务专业考计算机二级,计算机二级ms考什么
  9. LaTeX tikz初探——利用emoji画GPS卫星3D分布图(3)
  10. 应用题分析思路--关注点分离
  11. 转《18个实时音视频开发中会用到开源项目》
  12. iOS底层探索之类的结构—cache分析(下)
  13. 牛客网月赛24--ABC
  14. 【运动学】基于matlab速度+加速度数值计算(匀速圆周运动) 【含Matlab源码 975期】
  15. 软考数据库系统工程师day01
  16. Java到底能干什么?有哪些实际用途?
  17. android手机拍照软件,安卓手机拍照软件哪个好(五款手机拍摄软件深度横评)...
  18. LeetCode311 稀疏矩阵的乘法
  19. 网易互娱2017实习生招聘在线笔试第一场-3划线
  20. C++之enum与switch

热门文章

  1. Django省市区三级联动
  2. 算法图解笔记(附PDF下载地址)
  3. 【python】ssh密码字典攻击
  4. 生信学习笔记:生物信息学测序分析基本流程入门笔记
  5. MyLibrary --Qt + sqlite 图书馆管理系统
  6. 瑞友天翼(GWT system)移动办公远程接入解决方案
  7. 计算机刷bios版本,技嘉bios升级工具(@BIOS)
  8. 后妈茶话会_歌词(Tough Love)
  9. Linux+ps进程解释,linux ps查看进程命令详解
  10. pyqt5制作定时关机软件