1.技术背景

1.1技术背景——什么是文本检测与识别

OCR全称Optical Character Recognition,即光学字符识别,最早在1929年被德国科学家Tausheck提出,定义为将印刷体的字符从纸质文档中识别出来。现在的OCR,狭义上指对输入扫描文档图像进行分析处理,识别出图像中文本信息。而随着OCR技术的日益发展,人们已不再仅仅满足于文档或书本上的文本,开始将目标转移到现实世界场景中的文本,这被称为场景文本识别(Scene Text Recognition,STR)。

因此目前的OCR通常泛指所有图像文本检测和识别技术,包括传统文档图像识别与场景文本识别技术。自然场景文本提取技术是传统 OCR 技术在自然场景图像的扩展和延伸,具有广阔的应用前景。 自然场景文本主要出现在车牌、广告牌、路标和招牌等场景上。不同于传统的扫描图像文本,自然场景文本因表现形式丰富,图像背景复杂,以及图像拍摄引入的干扰因素等的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。

自然场景中文本的多样性和多变性:与文档中的脚本不同,自然场景中的文本表现出更高的多样性和多变性。例如,场景文本的实例可以使用不同的语言、颜色、字体、大小、方向和形状。此外,场景文本的高宽比和布局可能会有显著差异。所有这些变化都为为自然场景中的文本检测和识别算法设计提出了挑战。

背景的复杂性和干扰性。自然场景的背景几乎是不可预测的。可能会有与文本非常相似的模式(例如,树叶、交通标志、砖块、窗户和栅栏),或者由异物造成的遮挡,这可能会导致混淆和错误。

不完美的成像条件:在不受控制的情况下,无法保证文本图像和视频的质量。也就是说,在较差的成像条件下,文本实例可能由于拍摄距离或角度不当而导致低分辨率和严重失真,或由于失焦或抖动而模糊,或由于低光水平而产生噪声,或被高光或阴影破坏。

虽然说普通文档识别与场景文本识别相比通常来说难度更小,但具体到细分领域也面临着许多挑战。比如目标扫描票据,往往由于扫描仪分辨率低、纸张、油墨质量差等原因导致扫描的票据质量低下,同时,字体过小、存在干扰文本也是需要考虑的问题。

文本检测和识别技术应用场景广泛,存在着巨大商业价值。各大互联网公司也纷纷推出了许多相关技术支持或应用,涉及方方面面,包括名片、快递单、身份证、银行卡、车牌、路牌、广告牌、商品包装袋、营业证、试卷、发票收据等。

场景文本的提取技术可以分为两个不同的子任务,包括自然场景文本检测和自然场景文本识别。自然场景文本检测是准确定位自然场景中文本的位置,自然场景文本识别则是识别自然场景图像中的文本信息,而端到端自然场景文本检测与识别则是将检测与识别组合成一个完整的过程,在成功定位到文本位置的同时识别出对应的文本内容。近年来,随着深度学习技术的快速发展,国内外学者针对各种问题和挑战,在自然场景文本检测、识别以及端到端自然场景文本检测与识别的任务中都尝试提出了相应的解决方案,极大地促进了自然场景文本提取和理解技术的发展。相比于传统的依赖于手工设计特征的自然场景文本检测与识别算法,基于深度学习的方法具有以下特征:

1)自动化程度高。基于深度学习的自然场景文本检测与识别算法可以自动地捕获文本图像的高级视觉特征,不仅使研究人员和相关从业人员摆脱了手工设计特征和验证特征的繁复过程,而且大大降低了研究人员的门槛。

2)检测识别性能高效。基于深度学习的自然场景文本检测与识别算法的识别性能相比于基于手工设计特征的传统文本识别算法而言,识别性能更好。

3)泛化性能优越。基于深度学习的自然场景文本检测与识别算法具备更优越的泛化性能,可以很容易地应用于相似的视觉任务中。

近年来随着深度学习技术的飞速发展,OCR 技术逐渐由手工设计文本特征训练模型的方式演变成使用深度神经网络模型,在文本识别效果上也有了较大的提升。基于深度学习的方法可分为独立两阶段方法以及端到端的一段式的文本定识方法。下文中将分别介绍独立两阶段的文本检测和文本识别的方法,以及端到端的一段式的文本检测识别方法。

参考文献:

刘崇宇,陈晓雪,罗灿杰,金连文,薛洋,刘禹良. 2021. 自然场景文本检测与识别的深度学习方法. 中国图象图形学报,26(06):1330-1367

Zobeir Raisi,Mohamed A. Naiel,Paul Fieguth,Steven Wardell,John Zelek,“Text Detection and Recognition in the Wild: A Review“ arXiv:2006.04305v2 [cs.CV] 30 Jun 2020

Shangbang Long ,Xin He,Cong Yao,Scene Text Detection and Recognition:The Deep Learning Era“ arXiv:1811.04256v5 [cs.CV] 9 Aug 2020

【技术白皮书】第一章:基于深度学习的文本检测与识别的技术背景相关推荐

  1. 基于深度学习的花卉检测与识别系统(YOLOv5清新界面版,Python代码)

    摘要:基于深度学习的花卉检测与识别系统用于常见花卉识别计数,智能检测花卉种类并记录和保存结果,对各种花卉检测结果可视化,更加方便准确辨认花卉.本文详细介绍花卉检测与识别系统,在介绍算法原理的同时,给出 ...

  2. 基于深度学习的水果检测与识别系统(Python界面版,YOLOv5实现)

    摘要:本博文介绍了一种基于深度学习的水果检测与识别系统,使用YOLOv5算法对常见水果进行检测和识别,实现对图片.视频和实时视频中的水果进行准确识别.博文详细阐述了算法原理,同时提供Python实现代 ...

  3. 【camera】基于深度学习的车牌检测与识别系统实现(课程设计)

    基于深度学习的车牌检测与识别系统实现(课程设计) 代码+数据集下载地址:下载地址 用python3+opencv3做的中国车牌识别,包括算法和客户端界面,只有2个文件,surface.py是界面代码, ...

  4. 基于深度学习的目标检测研究综述

    基于深度学习的目标检测研究综述 摘要:深度学习是机器学习的一个研究领域,近年来受到越来越多的关注.最近几年,深度学习在目标检测领域取得了不少突破性的进展,已经运用到具体的目标检测任务上.本文首先详细介 ...

  5. 毕业设计 - 题目:基于深度学习卷积神经网络的花卉识别 - 深度学习 机器视觉

    文章目录 0 前言 1 项目背景 2 花卉识别的基本原理 3 算法实现 3.1 预处理 3.2 特征提取和选择 3.3 分类器设计和决策 3.4 卷积神经网络基本原理 4 算法实现 4.1 花卉图像数 ...

  6. 基于深度学习的目标检测技术演进:从目标检测到人脸检测

    本篇博客主要转载两篇写得好的分别介绍基于深度学习的目标检测和人脸检测的文章,最近在调研基于深度学习的人脸检测相关的文章,在网上查相关资料时,有幸看到.文末附带基于深度学习的目标检测和人脸检测相关经典文 ...

  7. 基于深度学习的VQA(视觉问答)技术

    深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动.请关注我们的知乎专栏! 视觉问答导读 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视 ...

  8. 基于深度学习的病毒检测技术无需沙箱环境,直接将样本文件转换为二维图片,进而应用改造后的卷积神经网络 Inception V4 进行训练和检测...

    话题 3: 基于深度学习的二进制恶意样本检测 分享主题:全球正在经历一场由科技驱动的数字化转型,传统技术已经不能适应病毒数量飞速增长的发展态势.而基于沙箱的检测方案无法满足 APT 攻击的检测需求,也 ...

  9. 基于深度学习的智能车辆视觉里程计技术发展综述*--陈涛

    [1]陈涛, 范林坤, 李旭川,等. 基于深度学习的智能车辆视觉里程计技术发展综述[J]. 汽车技术, 2021(1):10. 本文内容: 介绍了基于模型的里程计研究现状 对比了常用智能车数据集, 将 ...

最新文章

  1. linux网卡绑定lacp,服务器网卡绑定为LACP 802.3ad,交换机是应该配置链路聚合吗?...
  2. rabbitmq 启动报错 Failed to get nic info
  3. bzoj千题计划323:bzoj1951: [Sdoi2010]古代猪文(Lucas+CRT+欧拉定理)
  4. Python操作MySQL数据库的三种方法
  5. 从Satin到Lyra 为何微软、谷歌都盯向音频编解码器?
  6. php实现把es6转为es5,使用webpack将ES6转化ES5的实现方法
  7. linux中pak命令,如何在Linux系统中安装Flatpak
  8. 3.7.5 - Modifying Strings
  9. java url类下载_Java根据url下载图片或文件的工具类-Fun言
  10. (二)zookeeper安装
  11. 数据结构:zyf树/毒瘤树
  12. screen.colorDepth(色彩深度) 和 screen.pixelDepth(像素深度)
  13. C++一周学习总结(2021/05/03)
  14. Linux-常用快捷键
  15. 网页回拨-Web CallBack
  16. Adobe国际认证|面向大学生和青少年的数字安全提示
  17. Hadoop HIPI
  18. pmsm什么意思_PMSM是什么意思
  19. Nginx使用场景及相关配置
  20. List其实可以容纳不同类型的元素

热门文章

  1. 【Adobe】Photoshop :Windows 系统 Photoshop 软件更换许可指引
  2. 云端赋能安全驱动,知道创宇2021新品发布季强势来袭!
  3. 无忧·企业文档2.1.4版本更新清单说明来啦
  4. 请领导过目文件怎么说_【文件夹】英文怎么说?
  5. signature=32d532a97f37c02b1149992578cf4af9,~(11)C-CFT PET功能显像Parkin基因缺陷少年型帕金森病患者脑多巴胺转运体...
  6. 【非常重要】运行supervisorctl错误提示【FATAL或BACKOFF 】Exited too quickly (process log may have details)问题总结
  7. 大学计算机案例教程旧照片修复,破损旧照片修复教程
  8. HyperV Windows系统端口转发给主机 2021-12-13
  9. C语言计算BMI值,一看就会
  10. 18、关于oracle 认证的几个问题