文章目录

  • 1 OCR的应用场景
  • 2 OCR目前的技术综述以及文献
    • 2.1 文本检测
    • 2.2 文本识别
  • 3 最新比赛进展

本文目的是为了总结OCR各类技术的发展,从搜集资料到整理,可以看出OCR技术目前的一个大致发展趋势。目前还处于随时添加状态,敬请期待!

【更新时间】2019年9月26日

【很好的参考资料】这个GitHub收集了文本检测、文本识别、端到端的论文以及部分开源代码,很好的学习资料!

1 OCR的应用场景

目前OCR的应用场景主要分为以下三个方面:

1、自然场景下多形态文本检测与识别

2、手写体文本检测与识别

3、文档的文本检测与识别(版面分析等)

2 OCR目前的技术综述以及文献

2.1 文本检测

1、CTPN(基于Faster RCNN):目前比较成熟的文本检测框架,精确度较好。但是检测时间较长,有很大的优化空间。

【文献】Detecting Text in Natural Image with Connectionist Text Proposal Network

2、TextBoxes、TextBoxes++(基于SSD):调整Anchor长宽比,适用于文字细长的特点,但针对小文本会有漏检。

【文献】TextBoxes: A Fast Text Detector with a Single Deep Neural Network
TextBoxes++: A Single-Shot Oriented Scene Text Detector

3、SegLink(CTPN+SSD):通常用于自然场景下,检测多角度文本。

【文献】Detecting Oriented Text in Natural Images by Linking Segments

4、DMPNet:采用非矩形四边形选定Anchor进行检测,通过Monte-Carlo方法计算标注区域于矩形候选框和旋转候选框的重合度后重新计算顶点坐标,得到非矩形四边形的顶点坐标。适用于自然场景下文本检测。

【文献】Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection

5、YOLO:文本检测时间短,精确度较好。但针对小目标效果一般,容易造成大范围漏检。

【文献】YOLOv3: An Incremental Improvement

6、EAST:采取FCN思路,做特征提取和特征融合,局部感知NMS阶段完成检测。网络的简洁使得检测准确率和速度都有进一步提升。(针对自然场景下使用较多)

【文献】EAST: An Efficient and Accurate Scene Text Detector

7、Pixel-Anchor:针对Anchor数量多引起文本出现的丢失问题、Pixel感受野不足引起长文本丢失情况,结合两者各自的优点,对于长行的中文检测场景有较好的适应性。网络结构可以分为两部分,其中pixel-based的方法为对EAST的改进,anchor-based的方法为对SSD的改进。前者主要为了检测中等的文本,后者主要为了检测长行和较小的文本。

【文献】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

8、IncepText:针对大尺度、长宽比及方向变化问题,借鉴GoogLeNet中的inception模块来解决这些问题。在inception结构中通过不同尺寸的卷积核设计达到检测不同大小和宽高比的文字,同时引入deformable卷积层操作和deformable PSROI pooling层提升任意方向文字的检测效果。

【文献】IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection

2.2 文本识别

1、CNN+RNN+CTC(如CRNN):使用目前最为广泛的一种文本识别框架。需要自己构建字词库(包含常用字、各类字符等)。

【文献】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

【讲解及优化】https://blog.csdn.net/qq_14845119/article/details/78934334

2、CNN(如Densenet)+CTC:资料不多,效果一般,泛化能力较差。没有加入了RNN的效果好。

【文献】暂未找到,可参考GitHub

3、Tesserocr(Tesseract):使用比较广泛的一种开源识别框架,支持多语言多平台。Tesseract在识别清晰的标准中文字体效果还行,稍微复杂的情况就很糟糕(多字体等),而且花费的时间也很多。

【文献】暂未找到,可参考GitHub

4、RARE:主要用于识别变形的文本图像效果好,用于自然场景下文本识别。

【文献】Robust Scene Text Recognition with Automatic Rectification

5、FOTS(EAST+CRNN):端到端OCR模型,检测和识别任务共享卷积特征层,既节省了计算时间,也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域(RoIRotate), 可以从卷积特征图中产生出定向的文本区域,从而支持倾斜文本的识别。

【文献】FOTS: Fast Oriented Text Spotting with a Unified Network

【讲解】https://blog.csdn.net/qq_14845119/article/details/84635847

6、ASTER:模型主要分为两个部分,一个是矫正模型,一个是识别模型。文本矫正模型,不需要任何矫正标注信息,对弯曲文本、透视文本有着很好的矫正效果。识别模型中的CNN使用了ResNet的结构,最后的解码部分使用的是Sequence2Sequence机制来进行解码,不同于CRNN的CTCLoss。

【文献】ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

3 最新比赛进展

说道OCR的比赛,最著名的当属ICDAR了,即文档分析与识别国际会议(International Conference on Document Analysis and Recognition,ICDAR)。目前是每两年举办一次,2019年举办了一次比赛(ICDAR 2019),共分为以下六个赛道:

(1)Scene Text Visual Question Answering(ST-VQA,场景文本识别并回答问题)

(2)Multi-lingual scene text detection and recognition(MLT,多语言场景文本检测和识别)

(3)Large-scale Street View Text with Partial Labeling(LSVT,部分标签的大型街景文本识别)

(4)Arbitrary-Shaped Text(ArT,任意形状文本识别)

(5)Scanned Receipts OCR and Information Extraction(SROIE,扫描收据OCR和信息提取)

(6)Reading Chinese Text on Signboard(ReCTS,在商家招牌上识别中文)

目前有几个赛道的比赛结果已出,而每一个赛道中又会有不同的子任务。例如SROIE中,会有文本检测、文本识别、关键信息提取三个子任务。

从比赛结果中,我们可以得出各个参赛队伍使用哪一种先进的方法去提升自己的模型的分数。

比赛网址:https://rrc.cvc.uab.es/

OCR目前的发展现状综述相关推荐

  1. 基于图像的数据增强方法发展现状综述

    基于图像的数据增强方法发展现状综述 人工智能技术与咨询 2022-03-22 20:57 点击蓝字 · 关注我们 来源:< 计算机科学与应用> ,作者冯晓硕等 关键词: 数据增强:图像数据 ...

  2. 2022-2028年中国LCD(液晶显示器)行业市场发展现状及投资策略研究报告

    报告类型:产业研究 报告格式:电子版.纸介版 出品单位:智研咨询-产业信息网 智研咨询发布的<2022-2028年中国LCD(液晶显示器)行业市场发展现状及投资策略研究报告>共十四章.首先 ...

  3. 目标检测、视觉弱监督学习、大脑多模态成像技术等CV综述来了!图像图形学发展年度报告综述专刊!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 中国图象图形学学会 和中国图象图形学报联合重磅发布 2021年图像 ...

  4. GAITC 2020 演讲实录丨张立华:机器智能的发展现状

    2020-08-18 22:53:14 ​​7月25日-26日,在中国科学技术协会.中国科学院.中国工程院.浙江省人民政府.杭州市人民政府.浙江省人工智能发展专家委员会指导下,由中国人工智能学会.杭州 ...

  5. 【AI不惑境】模型量化技术原理及其发展现状和展望

    大家好,这是专栏<AI不惑境>的第十篇文章,讲述模型量化相关的内容. 进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考.如果说学习是一个从模仿,到追随,到创造的过程,那么 ...

  6. 【图像分类】简述无监督图像分类发展现状

    无监督图像分类问题是图像分类领域一项极具挑战的研究课题,本文介绍了无监督图像分类算法的发展现状,供大家参考学习. 作者 | 郭冰洋 编辑 | 言有三 1 简介 近年来,深度学习在图像识别领域取得了前所 ...

  7. 深度强化学习发展现状及展望:万字总结解读83篇文献

    深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习.深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场 ...

  8. 2022-2028年中国康复理疗行业市场发展现状及竞争格局预测报告

    报告类型:产业研究 报告格式:电子版.纸介版 出品单位:智研咨询-产业信息网 智研咨询发布的<2022-2028年中国康复理疗行业市场发展现状及竞争格局预测报告>共十四章.首先介绍了康复理 ...

  9. 2020年全球及中国自动化设备发展现状及市场竞争情况分析,本土企业加速布局,未来可期「图」

    一.自动化设备综述 自动化设备面向整个制造业生产效率的提升,更符合当前"高质量发展"的时代特征,具体包含了通用.专用自动化两大类.其中,专用自动化面向下游的3C.光伏.锂电等行业, ...

最新文章

  1. IDEA配置NodeJS项目遇到问题及解决
  2. 从R-CNN到Mask R-CNN的思维跃迁
  3. ubuntu系统下用kazam软件录制的视频不能在windows系统下播放的解决方案
  4. Fast-RCNN解析:训练阶段代码导读
  5. 科研实习 | 北京大学前沿中心王鹤老师具身智能课题组招收科研实习生
  6. 第一章 PX4-Pixhawk-程序编译过程解析
  7. 剑指offer 包含min函数的栈
  8. 机器学习-算法背后的理论与优化(part6)--正则化的优缺点
  9. Class类的创建方式大全
  10. PyQt5学习--基本窗口控件--QLabel
  11. Wannafly挑战赛9: B. 数一数
  12. python windows 远程执行bat
  13. C++STL源码剖析之vector
  14. 商户监控中一个基础的反洗钱规则不要漏了
  15. java 多线程m3u8下载
  16. [网络] 数字签名和数字证书的原理机制
  17. 计算年龄的sql语句
  18. java-12:spring MVC - 控制反转IOC,依赖注入DI
  19. 13、python网络编程之网络通信协议
  20. 尼日利亚4g频段_全球主要4G频段资料全解.doc

热门文章

  1. 《算法分析与设计》练习6
  2. MySQL更新数据流程
  3. 【Stanford CNN课程笔记】4. 反向传播算法
  4. appinventor mysql_利用AppInventor实现登录功能(完整版).docx
  5. MySQL表的插入详解
  6. QQ用户这两个文件夹要定时清理
  7. Mac OS X: 再续〉安全警告,病毒就在你身边
  8. deflate树与deflate编码
  9. Java后端技术框架
  10. 最近项目用到Dubbo框架,临时抱佛脚分享一下共探讨。