OCR技术 之 Layout Analysis
今天就来谈谈OCR技术下的Layout Analysis,中文名叫版面分析;根据个人的研究,文献中还有一些名字,其实也是说这个意思,形如:document layout analysis, page segmentation等。
可能有小伙伴对于OCR技术也不是很了解,作为一篇科普性的文章,就先从OCR技术说起。
目录
OCR技术
Layout Analysis (版面分析)
Layout Analysis技术之——版面划分
OCR技术
先来一个百度百科上的解释:OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术,就如下图所示:
简单来说,OCR技术就是自动提取文档页面中的文字等信息,例如拍个照片,能自动认识照片上写的是啥字,腾讯最新的这个版本,截图可以识别其中的文字,这也是OCR技术,腾讯有一个挺厉害的OCR团队,目前国内做OCR技术的团队不多,这个团队是深耕在这个领域很出色的一个。
了解了OCR之后,我们进入今天的主题:Layout Analysis
Layout Analysis (版面分析)
版面分析,顾名思义,是对于版面进行分析,这里的版面,一般意义上来讲指的是例如杂志、报刊、书本这样的版面,那么比如说你自己记录的笔记,不管是手写的还是打印的,那算不算版面呢?其实吧也算,有很多相关工作就是来处理手写文档的(HandWritten)。
那么版面分析要做的是一个什么事呢,我们说OCR是为了识别一个文档页面中的文字,这个步骤,实际上叫做text recognition,也是一个专门的领域,OCR主要做的是识别出文字,让计算机知道写在纸上的是什么字,打个比方,如果纸上只有一个大大的“人”字,那么计算机一眼就能认出来这是一个“人"字,但是如果此时这个字的旁边还挨着一只狗狗的照片,那么显然会对于计算机的理解造成干扰,那么这个时候就需要版面分析出马了。
版面分析要干的事情,就是在OCR识别文字之前,先将版面进行板块划分,哪一块是属于文字部分要送给其余的OCR系统处理的,哪一块是属于图像要送给CNN进行图像识别的,哪一块是一个表格要进行表格处理的,如下图所示。这样就可以先将版面进行内容上的划分,从而大大提高OCR系统整体的精确度,可以说版面分析是OCR系统的排头兵,只有版面分析处理的好,才能做好OCR系统,这么一说,是不是感受到了Layout analysis的重要性!!!
以上就是对于OCR技术和版面分析技术的一些科普性的内容,那么接下来的内容,就是给想要入门Layout Analysis的同学提供一些系统以及技术上的帮助。
Layout Analysis技术之——版面划分
这里先介绍版面划分的内容吧,像上图所示,我们要确定哪个快是文字,以便于送入后续OCR中进行处理,首先就要将版面的各个结构划分开来,暂且不提识别哪个部分是图像、哪个部分是文字,先对于版面进行划分。那么接下来从这三个方面介绍版面:
1.版面中元素的特征:
同质:
1) 区域的内容是单一的,例如文本行、图片等;
2) 再细入到文字区域而言,同一区域内部的文字也应该有大致相同的物理性质,例如:字号、行宽等。
2.如何对版面结构进行划分:
1) 层次化版面:指版面图像中各区域都能用一个矩形来描述,且所有的区域的方向都是一致的,就是我们日常遇到的大多数版面,称为:Manhattan版面;
2) 对于层次化的版面进行segmentation:
a) 自顶向下:模型驱动方法,从整个文档图像着手,使用递归的切分方法,把整个文档一步步划分为越来越小的区域。一般利用某个已知的文档结构或者各个物理组件之间用于间隔的空白区域的信息来逐步切分,它的速度比较快,适用于版面结构比较简单或者某种已知版面结构的文档图像。
b) 自底向上:数据驱动方法,从连通体着手,使用递归合并的方法,逐步把连通体合并为越来越大的区域。比较费时,但是比较灵活,适用于版面结构比较复杂且对版面结构没有太多先验知识的情况。
3) 属于自底向上的方法有:连通体分析、游程合并算法(RLAS)、基于背景分析法
4) 属于自顶向下的方法有:投影分析(X-Y algorithm)
先介绍这些算法,感兴趣的话,我再来一一解释这些算法。
3.一般版面的分析流程:
(注:上述图中的图源来自于百度图库 )
先介绍到这里,有人看了再补充完善。
-----------------------------updated by 12.22.2020-----------------------------
Layout analysis方向,确实在2020年来看已经落伍了,起码不是主流的方向,也很少看到近期的相关paper,对于投稿来说也比较难;
但是,很多大公司都需要有自己的OCR处理小组,会需要相关的人才;
Authored by : Gulucaptain
OCR技术 之 Layout Analysis相关推荐
- OCR - 关于OCR技术体系的发展的了解
一.光学字符识别(OCR) 光学字符识别(Optical Character Recognition, OCR)这一概念,最早由德国科学家Tausheck在1929年提出. 汉字识别最早是由IBM公司 ...
- OCR技术简介.md
光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程.亦即将图像中的文字进行识别,并以文本的形式返回. ...
- 数平精准推荐 | OCR技术之系统篇
导语:如果说算法和数据是跑车的发动机和汽油,那么系统则是变速箱,稳定而灵活的变速箱,是图像识别服务向前推进的基础.算法.数据.系统三位一体,随着算法的快速发展和数据的日益积累,系统也在高效而稳定地升级 ...
- 数平精准推荐 | OCR技术之数据篇
导语:深度学习在OCR领域的成功应用需要大量数据,数平精准推荐团队利用图像增强,语义理解,生成对抗网络等技术生成高质足量的数据,为算法模型提供燃料,帮助OCR技术服务在多种业务场景中快速迭代,提升效果 ...
- OCR技术系列实践:银行卡、身份证、门牌号、护照、车牌、印刷体汉字识别
OCR技术系列: 身份证识别 深度学习实践系列之--身份证上汉字及数字识别系统的实现 https://github.com/Raymondhhh90/idcardocr:web部署,第二代居民身份证信 ...
- VIN码识别又叫车架号识别,OCR技术深度应用
什么叫VIN码? VIN码又叫车架号也叫车辆识别代码,是制造厂为了识别而给一辆车指定的一组编号.由于VIN码的数字和英文字母是不断切换,共有十七个数字及字母组成的编码. 现在,通过自主研发的OCR技术 ...
- OCR技术1-字符识别技术总览
什么是OCR? OCR英文全称是Optical Character Recognition,中文叫做光学字符识别.它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受 ...
- 使用OCR技术将扫描PDF转换为可编辑的Word文档。
随着技术的发展,越来越多的文档以PDF格式存储和分享.不过,PDF文档通常是静态的,不能编辑.如果您需要编辑PDF文件中的文本,您可以使用光学字符识别(OCR)技术将PDF转换为可编辑的Word文档. ...
- 基于全景分割Max-Deeplab的版面分析:Towards End-to-End Unified Scene Text Detection and Layout Analysis
目录 一.全景分割介绍 二.Max-Deeplab 1.粗略框架 2.官方框架 3.详细框架 (1)Encoder (2)self-attention (3)Decoder (4)Output 4 ...
最新文章
- linux下修复win8引导文件,微软为推广win8系统linux删除文件的修复技巧
- 「智源论坛Live报名」清华大学董胤蓬:深度学习对抗攻防平台
- 步态识别 GaitSet
- golang中的sync.Map
- html手机和电脑显示内容不同,同一个网站,手机端跟电脑端显示不同是怎么实现的?...
- Matplotlib实例教程(三)折线图 plt.plot()
- 全球及中国电池行业需求前景与十四五投资规划分析报告2022-2028年版
- android系统应用功能,Android系统应用(12)
- 一起谈.NET技术,异步调用与多线程的区别
- ylbtech-LanguageSamples-Porperties(属性)
- Jmeter中JDBC Connection Configuration实现MySQL JDBC Request数据库处理
- 使用NSURLProtocol实现UIWebView的离线缓存
- Android NFC开发详细总结
- 一口气拿到了 8 个 Offer,我该怎么选择?
- Spring Security OAuth2.0_实现分布式认证授权_集成测试_Spring Security OAuth2.0认证授权---springcloud工作笔记155
- imei模拟修改_悟空分身 — 支持位置模拟设备修改
- L1-014. 简单题-PAT团体程序设计天梯赛GPLT
- 怎么取消百度右侧栏的搜索热点
- 编译lua5.3.2报错提示libreadline.so存在未定义的引用解决方法
- nodejs 下载最新版本