读光OCR-文字识别技术解读与应用案例分析

摘要:大数据上云特惠活动系列直播,阿里巴巴高级算法专家永攀对读光OCR-文字识别技术和行业应用进行讲述。OCR的本质是识别图片中的文字,即在复杂的图片背景下中对所需目标文字进行识别提取。主要从OCR商业应用场景、OCR算法和读光产品进行了介绍。展示读光OCR在在文字识别中强大的应用。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧
直播视频请点击
下载PPT请点击
更多印刷文字识别OCR相关信息请点击

OCR商业应用场景

OCR的本质是识别图片中的文字。根据需要处理的数据类型可以分为四种数据场景,数字原生类、文档类、拍照表单类和自然场景类。

数字原生类

淘宝商品图是最具代表的数字原生类字图。图片中的文字是机器生成,后期添加到图片中。该类字图具有最复杂多样、最有价值和图片量最大等特征。在淘宝的商品图里面包含了各种各样的数字原生类图片,其中包含各种字体、背景、排列和组合等。阿里巴巴最近就淘宝商品图举行了一场比赛——MTWI挑战赛,这是目前最大的OCR竞赛。最有价值主要体现在淘宝图上除了有商品的图片以外,还有很多的文字信息,它是商品信息传递的一个载体;这个商品图汇聚了商家美工、制作等很多人的工作。图片数量巨大,淘宝商品的背后大概有千亿图片,而且这些图片非常的有活力,每日不停地更新。读光OCR在淘宝的商品图上做了大量的工作,目前覆盖了所有电商图片的OCR识别。

文当类

文档类OCR需求非常的广,涉及各种公务场景。文档类图片相对于其他类文档相对简单,没有复杂的背景、复杂的字体,但是需要做到100%的识别率。正常人在放松情况下的输入准确率为98%,在此基础上探索AI识别的极限;读光的
易用性是完善的功能,贴近业务的产品需求实现;文档类商业的成熟更加易于商业的应用。读光也在阿里云上输出成熟OCR云产品的文档。

拍照表单类

拍照表单类OCR价值非常大,比较复杂,也非常具有挑战性。根据场景和数据得知,拍照表单类的数据具有隐私性,拍照表单应用都是和我们个人信息息息相关的,比如个人身份证、结婚证、房产证等等,需要典型的应用场景沉淀技术能力;拍照类表单的应用范围非常的广,所以需要制定一套通用性的解决方案。读光提出了一种专家知识+模板=文本理解的结构模式,这样一套方案能够解决文字识别和结构化的功能,实现了产品的通用性。它的商业价值和行业场景深度接入,AI能力改善行业数据流程。阿里云提供了定制的拍照表格识别和结构化云服务。

自然场景类

自然场景类是OCR学术研究的重点方向,没有具体的数据类型定义,比如街拍数据;目前遇到的本质的技术难点是定位和识别;市场的商业价值非常的大,主要应用于车牌识别、摄像监控和自动驾驶等。目前读光OCR具有相对领先的技术能力。

OCR算法

读光有两种核心的算法能力——通用文字和通用结构化。通用文字识别是识别图片中文字所在的位置,并识别出文字的内容。在文字识别的基础上,结合用户的实际需要进行结构化就是通用结构化。

算法如上图所示,该算法是在CV的基础上进行扩展的,首先是基于文字定位和文字识别的,根据图片进行图像分析、图像提取和表格提取。需要根据应用进行结构化,根据实体的检测,同时根据语义和图形图像的空间关系实现结构的关系,最后实现文本的理解,文本分析和KV结构化输出。根据工程设计的能力实现相应的产品,需要考虑深度学习引擎的环境,通过私有云系统进行输出。通过文本理解和工程设计,最终实现了产品的构建。产品的输出包括通用OCR、文档OCR、表单OCR、OCR小程序、端上OCR。

文字定位

文字定位的目标是定位文字在图像中的位置并表征成行。背景特征的干扰问题,特征问题是不可避免的问题,随着深度学习发展,现在已经能够较好的解决特征问题点。
scale问题就是物体定位的共性问题,在复杂的图片中,文字的高度也是不同,需要解决更好的识别文字;这个问题经过如图上进程不断地改进,最终通过统一样本学习,多尺度特种输出和多尺度Attention融合已经得到了解决。

成行的问题是文字定位特有的问题,文字可能横着、斜着甚至是弧形的排列。刚开始使用行mask解决,但是存在粘连问题;后来定义了行,但是发现定义不清,很难进行标注;最后用起始和方向进行行定义,如果知道行的起始、结尾和方向就可以很容易的定义行,解决了行粘连问题。

文字识别

文字识别就是在文字定位的基础上,识别文字内容同时,输出单字位置和识别用于文本的理解。文字识别包含分类和序列两部分,分类就是精细特征的提取问题;序列就是从人的认知进行分析。
文字识别存在的两大难题就是相似字和生僻字的识别。相似字识别是学术难题。现在发现一共有2278个形近字,CRN对这2278个字进行单独的识别测试,识别率只达到83%,最终发现识别率低的原因是softmax不能有效的表征差异导致的偏差。常用汉字大约有3700个,覆盖了99%书面资料,但是姓名、地名大概有21303个,包含大量的生僻字,而且姓名和地名在我们的实际应用中又有着非常重要的价值。CRN进行测试发现识别率只达到21%。样本量的过少,不能进行充分的训练,识别率很难进行提高。

生僻字的解决方法如上图所示,首先使用行识别,再进行了Attention单字识别方案解决了生僻字语料偏少的问题,Attention可以解决单字切字问题。通过上述方法,我们对2万多生僻字测试集进行了测试,精确度从21%提高到了99%,基本上解决了生僻字问题。

相似字的解决方案如上图所示,之前无法解决相似字的原因是softmax不能有效的表征差异导致的偏差。现在提出了CentleLoss强化特征之间的差异,解决了形似字分类困难的问题。同时结合CTC和CentleLoss这两个技术,对30万形近字进行了测试,精确度从原来的83%提高到了97%。相似字得到了识别。

通用结构化

通用结构化中结构化的目的是把二维文字图像转化成一维文字或多维结构化输出KV序列。一维文本就是按照阅读顺序进行分析,多维结构化是通过关系分析。例如卡证类,样式是相对固定的,但是种类非常的繁多。表单类样式更加的多样,不计其数。因为种类的繁多,我们必须通用化的结构才能解决繁重的工作量。
通用结构化的实现包括匹配、更新、搜索和过滤四部分。匹配是通过实体和全局的位置实现KV的关系对;更新是通过多阶的局部关系来实现更新;搜索是模糊位置关系的处理,首先需要对模糊的位置进行计算分数,然后进行全局最优的方式进行选择。过滤是当不同信息混合在一起时,使用语义模型和空间规则进行处理分离。

系统效率

提高系统效率就是要提升GPU的使用率,实现CPU和GPU计算的高效切换,解决显存的瓶颈。使得算法的复杂度不断加大,RT降低。业务的功能不断的增强,QPS不断地提升。目前业界高效的网络结构层出不穷,高效的引擎迅速发展。我们在提高系统效率能够从三个方面进行优化,优化网络结构、优化推理引擎、实现全GPU化。最终实现“小快准”模型架构,该模型精度上大大的提升,效率上可以满足端上运行。

读光产品

读光OCR是一项技术,从技术到产品需要规模化,需要从通用、效率、功能三个方面进行实现。

文档OCR

文档OCR云产品是最简单的产品之一。如上图所示,文档OCR主要包括文字图像获取、文字识别和识别内容理解三部分。会用到前面讲到的一些关键技术进行实现。

如上图所示是一个案例的实现,首先获取图像,并进行相应处理,最后进行四种输出包括行输出、单字输出、表格输出和段落输出。

表单OCR

表单OCR产品比文档OCR更加的复杂,它同样需要文字图像获取、文字识别和识别内容理解。在图像获取这一块,要求图像的质量更加高。文字识别这一块和文档OCR相似,但是难度会更大。识别内容理解需要KV结构化和空间拓扑。

表单OCR案例,上图是一个房产证,首先进行表格提取,如图1所标的绿色框,然后进行文字提取,如紫色框所示,再进行语义和空间关系提取,如蓝色线条所示,最后进行KV的输出。

总结

读光产品主要包括全文识别产品和结构化产品。全文识别产品用于多场景的普通性文字识别算法体系,具有高效性、通用性和高实时性。结构化产品链接行业知识和算法,具有高鲁棒性、易配置和扩展性强。读光OCR在阿里落地,主要应用在内容质量管理、内容知识挖掘和运营效率提高三个方面,实现智能化电商平台治理,商品信息化实现商品信息大全,智能运营代替人工运营。读光OCR已进行集团全覆盖,已处理2000亿张图,覆盖阿里云的淘宝、1688、支付宝、钉钉等公司。读光OCR云产品在云上也推出了通用文字识别和通用结构化。主要用于信息治理、内容知识挖掘和表单结构化。
大家如果有任何需求与咨询可以点击链接提交:
https://market.tianchi.aliyun.com/outsource/offer/publish.htm?type=PROJECT

读光OCR-文字识别技术解读与应用案例分析相关推荐

  1. 汉字进行计算机识别的原理,计算机OCR文字识别技术的原理和未来发展趋势

    杨俊叶++王训伟 摘要:文章首先对OCR技术的发展背景进行了介绍,指出了OCR文字识别系统在扫描仪.文字编辑等领域的应用及优势.通过对OCR技术工作原理的介绍,重点论述了OCR文字识别系统主要的图像处 ...

  2. ocr文字识别技术有什么意义

    OCR(Optical Character Recognition,光学字符识别)是一种将印刷体或手写字转换成电子文本的技术.OCR文字识别技术有以下意义: 提高工作效率:OCR文字识别技术可以将印刷 ...

  3. 怎样实现ocr文字识别技术

    OCR(Optical Character Recognition,光学字符识别)是一种将印刷体字符转换为电子文本的技术.要实现OCR文字识别技术,通常需要以下步骤: 收集图像:首先,需要收集包含要识 ...

  4. 软件测试 给视频添加字幕功能,巧用百度OCR文字识别技术,实现视频字幕识别...

    前言:我们都知道,现在有很多文字识别技术,但是如何合理的应用于生活呢?我当时马上就想到了电影字幕的提取,很多人在看外国新闻的时候,会发现,只有英文字幕呀,怎么办呢,所以这个功能我就研发了出来 一.运用 ...

  5. 行业洞察 | OCR文字识别技术都有哪些用途

    现在连一支笔也卷起来了. 近期,网易有道先后发布了新一代词典笔,此前科大讯飞也发布了智能录音笔.这些科技含量满点的笔不仅可以支持高质量的录音和高效率的文字转写,同时能够识别众多语种和方言,中文在线转写 ...

  6. OCR文字识别技术总结(四)

  7. OCR文字识别技术总结(三)

  8. OCR文字识别技术总结(二)

  9. 如何精准实现OCR文字识别?

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由云计算基础发表于云+社区专栏 前言 2018年3月27日腾讯云云+社区联合腾讯云智能图像团队共同在客户群举办了腾讯云OCR文字识别-- ...

最新文章

  1. 用paddleocr识别汉字_汉字设计中的度量标准(三)
  2. OpenCV跟踪支持的实例(附完整源代码)
  3. 内容页响应母版页控件的事件
  4. MTK 驱动(58)---MTK G-sensor
  5. python的pass语句_Python pass语句–通过Python
  6. net.java.html.boot.BrowserBuilder
  7. php中strtotime函数,PHP中strtotime函数用法举例
  8. 关于计算机学院 公众号的名字,好听的公众号名称大全
  9. 铲雪车(信息学奥赛一本通-T1374)
  10. 某内容管理系统最最最详细的代码审计
  11. 2048C语言源码linux
  12. 屏幕正中间浮窗html,HTML 纯css浮窗居中和打开or关闭
  13. 【点云系列】综述: Deep Learning for 3D Point Clouds: A Survey
  14. Win10怎么看内存条频率
  15. DOS运行GHOST加参数
  16. 本实例要求输出名言“贵有恒,何必三更起五更睡:最无益,只怕一日曝十日寒。
  17. git reset 怎么还原_git 本地修改被reset后怎么恢复
  18. XeLaTeX+xeCJK中文字体设置
  19. 简单算法 - 链表逆序思路详解
  20. Java银行柜员业务绩效考核系统(含源码+论文+答辩PPT等)

热门文章

  1. HDU 3669 Cross the Wall(斜率DP+预处理)
  2. Python练习-装饰器版-为什么我的用户总被锁定
  3. AJAX JSON之讲解
  4. Qt4: Show an image in your widget – 在Qt里面显示图像
  5. 字符串转HTML段落
  6. 什么是IEC 61508?
  7. java的反射机制的好处
  8. 《ActionScript 3.0基础教程》——1.3 在显示面板输出信息
  9. how tomcat works 读书笔记(一)----------一个简单的webserver
  10. AppStore ipa (苹果内购)笔记