OCR技术之 Layout Analysis

今天就来谈谈OCR技术下的Layout Analysis，中文名叫版面分析；根据个人的研究，文献中还有一些名字，其实也是说这个意思，形如：document layout analysis, page segmentation等。

可能有小伙伴对于OCR技术也不是很了解，作为一篇科普性的文章，就先从OCR技术说起。

OCR技术

Layout Analysis (版面分析)

Layout Analysis技术之——版面划分

OCR技术

先来一个百度百科上的解释：OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术，就如下图所示：

简单来说，OCR技术就是自动提取文档页面中的文字等信息，例如拍个照片，能自动认识照片上写的是啥字，腾讯最新的这个版本，截图可以识别其中的文字，这也是OCR技术，腾讯有一个挺厉害的OCR团队，目前国内做OCR技术的团队不多，这个团队是深耕在这个领域很出色的一个。

了解了OCR之后，我们进入今天的主题：Layout Analysis

Layout Analysis (版面分析)

版面分析，顾名思义，是对于版面进行分析，这里的版面，一般意义上来讲指的是例如杂志、报刊、书本这样的版面，那么比如说你自己记录的笔记，不管是手写的还是打印的，那算不算版面呢？其实吧也算，有很多相关工作就是来处理手写文档的(HandWritten)。

那么版面分析要做的是一个什么事呢，我们说OCR是为了识别一个文档页面中的文字，这个步骤，实际上叫做text recognition，也是一个专门的领域，OCR主要做的是识别出文字，让计算机知道写在纸上的是什么字，打个比方，如果纸上只有一个大大的“人”字，那么计算机一眼就能认出来这是一个“人"字，但是如果此时这个字的旁边还挨着一只狗狗的照片，那么显然会对于计算机的理解造成干扰，那么这个时候就需要版面分析出马了。

版面分析要干的事情，就是在OCR识别文字之前，先将版面进行板块划分，哪一块是属于文字部分要送给其余的OCR系统处理的，哪一块是属于图像要送给CNN进行图像识别的，哪一块是一个表格要进行表格处理的，如下图所示。这样就可以先将版面进行内容上的划分，从而大大提高OCR系统整体的精确度，可以说版面分析是OCR系统的排头兵，只有版面分析处理的好，才能做好OCR系统，这么一说，是不是感受到了Layout analysis的重要性！！！

以上就是对于OCR技术和版面分析技术的一些科普性的内容，那么接下来的内容，就是给想要入门Layout Analysis的同学提供一些系统以及技术上的帮助。

Layout Analysis技术之——版面划分

这里先介绍版面划分的内容吧，像上图所示，我们要确定哪个快是文字，以便于送入后续OCR中进行处理，首先就要将版面的各个结构划分开来，暂且不提识别哪个部分是图像、哪个部分是文字，先对于版面进行划分。那么接下来从这三个方面介绍版面：

1.版面中元素的特征：

同质：
1）区域的内容是单一的，例如文本行、图片等；
2）再细入到文字区域而言，同一区域内部的文字也应该有大致相同的物理性质，例如：字号、行宽等。

2.如何对版面结构进行划分：
1）层次化版面：指版面图像中各区域都能用一个矩形来描述，且所有的区域的方向都是一致的，就是我们日常遇到的大多数版面，称为：Manhattan版面；

2）   对于层次化的版面进行segmentation：
a)   自顶向下：模型驱动方法，从整个文档图像着手，使用递归的切分方法，把整个文档一步步划分为越来越小的区域。一般利用某个已知的文档结构或者各个物理组件之间用于间隔的空白区域的信息来逐步切分，它的速度比较快，适用于版面结构比较简单或者某种已知版面结构的文档图像。
b)   自底向上：数据驱动方法，从连通体着手，使用递归合并的方法，逐步把连通体合并为越来越大的区域。比较费时，但是比较灵活，适用于版面结构比较复杂且对版面结构没有太多先验知识的情况。

3）属于自底向上的方法有：连通体分析、游程合并算法（RLAS）、基于背景分析法

4）属于自顶向下的方法有：投影分析（X-Y algorithm）

先介绍这些算法，感兴趣的话，我再来一一解释这些算法。

3.一般版面的分析流程：

（注：上述图中的图源来自于百度图库）

先介绍到这里，有人看了再补充完善。

-----------------------------updated by 12.22.2020-----------------------------

Layout analysis方向，确实在2020年来看已经落伍了，起码不是主流的方向，也很少看到近期的相关paper，对于投稿来说也比较难；

但是，很多大公司都需要有自己的OCR处理小组，会需要相关的人才；

Authored by : Gulucaptain