【摘要】 主要是文字检测和文字识别作为计算机视觉一部分的重要性,基本知识,面临的挑战,以及部分最新的成果。

人类认识了解世界的信息中91%来自视觉,同样计算机视觉成为机器认知世界的基础,也是人工智能研究的热点,而文字识别是计算机的重要组成部分。我们生活当中文字是无处不在的,可以说离开了文字我们衣食住行各方面都会很不方便。

首先,文字并非自然产生,而是人类特有的造物,是高层语义信息的载体,文字从整个文化的角度来讲也是非常重要的,人类的文明离不开文字,文字是我们学习知识、传播信息、记录思想很重要的载体,没有文字人类的文明无从谈起。比如说王羲之的“兰亭序“,不只是文化作品,也是人类历史上璀璨的明珠之一。比如诗经,通过诗经,我们既可以学习它郎朗上口的文学特性,也可以通过它了解两千年前历史的故事和先人的思想。

右边的两幅图呢,是我自己拍的啊,里面有建筑、有场景、有树木,如果仅仅看到这两幅图,相信大家并不知道这是在说什么,但是结合了文字之后,我们可以一目了然的看到要讲的内容。所以说文字是计算机视觉的重要线索,与其他视觉信息有重要的互补作用,可以和对话、NLP等,合成多模态语义分析。

首先让我们看一个概念,光学字符识别,英文是OCR。光学字符识别是指把图片、PDF中的文字转换成可编辑的文字,也就是通常所说的文字识别,因为如果我们只提光学字符识别。我估计很多人不知道这是什么意思,所以大家通常把光学字符识别说成为文字识别。实际呢,一般包括检测和识别等多个过程。文字检测呢,是指,判断是否存在文字实例,并给出具体位置的过程。而文字识别是指把文字区域转化成计算机可读和编辑的符号。

方法呢,有很多,一种是基于手工设计的特征,这个在2014年前是主流的方法,比如MSER,SIFT等,2014年之后,大家主要用的方法是深度学习。左边这两张图分别是把发票和文档转化成文字。

文字和检测和识别的难点非常的多,首先呢,大家可以看一下这张图,它的背景非常的复杂,有各种字体;颜色呢,也是多种多样的,比如说白色,比如说是金色,比如说是黑色。方向呢,也是多种朝向,比如说是竖直、倾斜、水平等等,大小也各不相同,比如说这个路牌儿。语言也不统一,我们常见的是中文和英文,但是在海外也会出现各种其他语言组合,比如阿拉伯语、泰语啊。模板也不固定,不只是场景文字,即使我们的文档也会有各种各样的文档。

日常生活的指示栏、窗户、砖块、图标、花草、栅栏、树木、机电等都与文字有一定的相似性,给检测和识别带来很大的干扰。

图像本身和成像也会存在的问题,比如分比率、曝光、反光、局部遮挡、干扰等,给检测和识别带来很大的挑战。

深度学习时代的文字和检测和识别,主要是基于深度学习。其中的文字检测,和目标检测类似,主要是基于物体检测和基于分割。比如说我们左上边看到的textbox是基于SSD目标检测网络,主要改了anchor的设置。左下图的pixellink,则是基于分割。其中基于目标检测呢,更多是侧重比较规整的、可以用四点表示的。而分割呢,更多倾向于各种不规则形状的文字。

文字识别呢,最常用的思想是把文字分成一个个字符,然后直接分类,这是以前传统方法最常用的技术之一。中间一个呢,也是基于分类,但是是基于单词的,对整句话非常难以处理好。最后呢,是基于序列的特征,提取基本特征,比如说CTC,是参考语音识别的,比如说Attention,比如说基于sequence2sequence。还有一点呢,就是端到端,这个是在一个网络里同时做到文字检测和识别,检测和识别可以相辅相成,提高性能。

这是华中科技大学许老师等做的工作,提出一个TextField的概念,就是文字方向场的概念,传统基于分割的文字检测方法有一个很大的局限性就是对密集文本无法有效区分开,他们提出一个文字方向场,基于像素做回归,然后通过后处理组合成一个文字条,对于弯曲特别离谱的文字都可以检测出来。许老师是我们的合作老师之一。

‘在文字识别当中非常有代表性的一个方法是就是华中科技大学白老师团队做的CRNN模型(后正式发表在IEEE TPAMI2016上),称之为 CRNN,其底层用 CNN 提取特征,中层用 LSTM 进行序列建模,上层用 CTC  loss 对目标进行优化。它是一个端到端可训练的文字识别结构,但并未使用 Attention。目前,CRNN 已成长为该领域的一个标准方法。白老师也是我们合作的老师之一。

作者:blackmoon

OCR文字识别在计算机视觉的重要性、基本技术和最新进展相关推荐

  1. 【Keras+计算机视觉+Tensorflow】OCR文字识别实战(附源码和数据集 超详细必看)

    需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一.OCR文字识别简介 利用计算机自动识别字符的技术,是模式识别应用的一个重要领域.人们在生产和生活中,要处理大量的文字.报表和文本.为了减轻人们 ...

  2. 人工智能OCR文字识别研究

    1 研究背景 人工智能是研究开发能够模拟.延伸和扩展人类智能的理论.方法.技术及应用系统的一门新的技术科学,研究目的是促使智能机器会听(语音识别.机器翻译等).会看(图像识别.文字识别等).会说(语音 ...

  3. 人工智能最新研究发展方向——OCR文字识别简述

    1 研究背景 人工智能是研究开发能够模拟.延伸和扩展人类智能的理论.方法.技术及应用系统的一门新的技术科学,研究目的是促使智能机器会听(语音识别.机器翻译等).会看(图像识别.文字识别等).会说(语音 ...

  4. 通用印刷体文字识别_五个超级实用的OCR文字识别小程序,完全免费、值得收藏!...

    平常大家做ppt时可能经常会遇到一些无法复制的文字(图片中的文字)或者看书时遇到一些不错的句子想要保存下来,这时,你就需要一个OCR文字识别工具帮你快速提取文字,而这些文字识别工具现在有很多,有付费的 ...

  5. OCR文字识别—基于CTC/Attention/ACE的三大解码算法

    本文全面梳理一下OCR文字识别三种解码算法,先介绍一下什么是OCR文字识别,然后介绍一下常用的特征提取方法CRNN,最后介绍3种常用的解码算法CTC/Attention/ACE. 什么是OCR文字识别 ...

  6. 【深度学习】OCR文字识别—基于CTC/Attention/ACE的三大解码算法

    本文全面梳理一下OCR文字识别三种解码算法,先介绍一下什么是OCR文字识别,然后介绍一下常用的特征提取方法CRNN,最后介绍3种常用的解码算法CTC/Attention/ACE. 什么是OCR文字识别 ...

  7. Windows下使用Tesseract进行OCR文字识别

    Windows下使用Tesseract进行OCR文字识别 Tesseract最初由惠普实验室支持,用于电子版文字识别,1996年被移植到Windows上,1998年进行了C++化,在2005年Tess ...

  8. OCR文字识别软件的快速任务功能如何用

    2019独角兽企业重金招聘Python工程师标准>>> 在使用ABBYY FineReader Pro for Mac OCR文字识别软件处理文档时,经常会执行一系列相同的步骤,如扫 ...

  9. 对OCR文字识别软件进行自动分析和识别设置的教程

    2019独角兽企业重金招聘Python工程师标准>>> ABBYY FineReader 12这款OCR文字识别软件具有着强大的自主功能,在默认情况下,会自动分析并识别 FineRe ...

最新文章

  1. MATLAB中PI调节器设计,华中科技大学电气学院matlab选修课大作业pi控制器的设计...
  2. supervisord+supervisorclusterctl+supervisord-monit
  3. 【sping揭秘】9、容器内部事件发布(二)
  4. mysql的root用户密码_MySQL的root用户密码忘了 , 该怎么办?
  5. 信息学奥赛一本通 1122:计算鞍点 | OpenJudge NOI 1.8 05:计算鞍点
  6. 工程数学(数值分析)第四讲:插值逼近
  7. 关于AAARR模型,还停留在理论却不会用?附实例讲解
  8. 【4】CCNA理论第三天
  9. MVC+WebApi+Restful
  10. go 控制台程序 重复启动_WebAssembly 与 go
  11. 欧姆龙服务器显示oE,欧姆龙OPC服务器(OMRON OPC Server) v1.0免费版
  12. 在html中函数无效,无法在按钮点击HTML中调用JavaScript函数
  13. 线性可分支持向量机与软间隔最大化
  14. linux运维工程师 pdf下载,linux运维工程师命令.pdf
  15. 关于ancher box 和bounding box的区别
  16. The Multiversity 的 “非常重要的生命体” NFT 推出
  17. review代码从哪些角度_CodeReview正确的姿势是什么?
  18. USACO Monthly Expense
  19. GBase 8a 数据抽取工具orato8a用法介绍
  20. php如何把图片铺满,用Dreamweaver8设计网页,怎样使背景图片铺满全屏?

热门文章

  1. 设置ROS机器人避免行走到地图未知区域
  2. z变换解差分方程例题_某些常见微分方程的一般解法(工具向)
  3. java filter过滤器_JavaWeb之 Filter(过滤器)
  4. (转载)委托与函数指针辨析
  5. 微信H5支付(基于Java实现微信H5支付)
  6. bzoj1051: [HAOI2006]受欢迎的牛(tarjan强连通分量)
  7. ACache【轻量级的开源缓存框架】
  8. 开源web应用防火墙 - Naxsi
  9. 关于SQL EXPRESS 2005的连接问题
  10. 移动视频监控(2)---原型开发---(音视频编解码多平台移植(for window/wince))ffmpeg --自由之路即是曲折之路。...