(论文研读后,感觉有用的一些笔记,主要是给自己记录)
论文:熊雨点,基于深度学习的表单识别系统的研究与实现

基于深度学习的表单识别

    • 前言:
  • 文档检测方法:
    • 基于扩张卷积残差网络的表单文档定位方法:
    • 扩张卷积:
    • 基于扩张卷积残差网络的表单文档定位
  • 文字识别:
    • 训练集:
    • Gabor变换
    • 基于 Gabor 与卷积神经网络的文字识别
    • 实验分析:

前言:

  • 一般OCR识别主要分为两个阶段:文本检测与文本识别。 文本检测,通过检测出文档所在的位置信息和坐标信息;文本识别:将文本检测框中的文本值进行识别,得到文本值。

文档检测方法:

基于扩张卷积残差网络的表单文档定位方法:

  • 表单文档的定位方法。通过两种网络架构对比与改进,确定采用带扩张卷积的残差网络首先粗定位文档的四个关键点,即左上角点,右上角点,右下角点和左下角点,接着利用这四个点将文档划分为四个区域,再将这四个区域依次送入带扩张卷积的残差网络,以递归的形式一步步地收敛得到准确的角点位置。
    相比于自然场景的文字识别,对于图像中任意若干可见文字识别的任务,本文的表单识别是针对特定形式目标表单中的文字识别,所以,首先将目标表单与背景隔离开显得尤为重要。

扩张卷积:

  • 扩张卷积,也称为带孔卷积或空洞卷积,是由Yu和Koltun[43]在2015年提出的,其可以大大增加感受野。在卷积神经网络中,确定输出中像素值的输入层区域被称为感受野,越大的感受野可以获得越多的上下文信息。对于扩张率为1的普通卷积,卷积层k∈{1,2…,n}的感受野大小计算公式如下所示。

  • 扩张卷积可以理解为间隔着去做卷积操作,相当于把卷积核放大了,这样获得的感受野更大,这将提高CNN的性能。

基于扩张卷积残差网络的表单文档定位

  • 表单文档定位的问题被处理为八个特征点的检测-左上角点、右上角点、右下角点、左下角点以及四个中点。通过中点约束来使角点的定位更加准确。以左上角点开始,余下三个点按顺时针方向标记,依次为TL,TR,BR和BL。
  • 表单文档定位问题主要分为两个步骤。第一步是使用残差网络定位文档的四个角点,在网络训练优化过程中,通过一级这样的网络想要准确定位出四个角点的位置可能比较困难,此步骤提取的四个角点只是只是大致粗略估计四个角点的位置,所以,第二步依然使用第一步中的网络架构以递归形式细化每个角点。所有图像尺寸在送入网络前被调整为32×32。
  • (1)角点检测
  • 首先使用扩张卷积残差网络来获得四个预测的角点,即TL,TR,BR和BL。

  • (2)角点细化
  • 在此步中,将四个区域中的每一个区域大小调整为32×32并送入到第一步中使用的残差网络,目的是以递归方式精确定位每一个角点。在每次迭代中,丢弃最不可能包含角落的全分辨率图像的一部分,并将剩余的图像再次发送到同一网络。超参数PF(PreserveFactor)用于量化每次迭代中应丢弃多少图像,PF的值在0和1之间。例如,PF值为0.95,在n次迭代后,尺寸大小为M×N的图像被裁剪为M×(PF)n,N×(PF)n。当图像大小小于12×12时,迭代过程停止。这种裁剪操作和递归网络使我们能够精确地收敛到角落。本文选择PF值为0.95。以左下角区域为例,细化过程如图所示。

文字识别:

  • Tesseract-OCR 和卷积神经网络对文字识别进行了研究,对于 Tesseract-OCR方法,主要介绍了方法步骤,对于卷积神经网络,从网络结构,滤波器的尺寸大小、Dropout技术以及与Gabor特征相结合等方面来对文字进行了识别。

  • OCR(OpticalCharacterRecognition,光学字符识别)是指通过扫描仪或数码相机等电子设备对文本资料进行扫描,然后对文本图像进行分析处理,获取其文字部分并转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的文本的计算机输入技术。它可以快速地将纸质文档数字化,广泛应用于票据识别、表格识别、文案的录入和处理等领域。Tesseract是一个开源的OCR字符图像识别引擎,目前已支持100多种语言,其最先由惠普实验室于1985年开始研发,后来由Google维护与优化,目前已经作为开源项目发布在GoogleProject,其最新版本Tesseract4.0,支持中文识别,并提供了官方训练集以及字符库训练方法,用户可以根据自己的需要去训练所需语言的字符,从而有效地提高识别率。
    以 tesseract 3.04为例来训练自己的数据集。

训练集:

  • 训练的汉字字符集包含《通用规范汉字表》中收录的一级汉字的3500个常用汉字。
  • 首先将要需要的字符图像合并为一个.tif 文件,命名为 chisim.font.exp0.tif,然后再使用命令 tesseract
    chisim.font.exp0.tif chisim.font.exp0 -l chi_sim batch.nochop
    makebox生成.box 文件,chisim.font.exp0.tif 是上一步生成的.tif
    文件名,chisim.font.exp0 表示生成的 Box 文件名。

  • Box文件校正:利用jTessBoxEditor工具来校正Box文件。通过运行j Tess Box Ed-itor
    下的train.bat来打开工具,打开chisim.font.exp0.tif,可以通过此工具对识别错误的汉字进行校正。
  • 定义字体特征文件:创建一个名为font_properties.txt 的字体特征文件:font 0 0 0 0
    0,其中font表示自定义的字体名称,后面的0表示字体不是粗体,不是斜体等。
  • 产生文字特征文件:使用如下命令:tesseract chisim.font…exp0.tif chisim.font.exp0 box.
    train,会生成 chisim.font…exp0.tr 文件和 chisim.font…exp0.txt
    文件,tr文件即为字符特征文件。
  • 生成字符集文件:使用如下命令:unicharset_extractor
    chisim.font…exp0.box,生成uni-charset 字符集文件。
  • 生成聚类文件:使用如下命令:shapeclustering -F font_properties.txt -U unicharset chisim.font.exp0.tr 来生成 shapetabel 聚类文件。 使用如下命令:mftraining -F font_properties.txt -U unicharset -O chisim.unicharset
    chisim.font.exp0.tr,会生成当前语言的字符集文件chisim.unicharset,同时还会生成 inttemp 文件和 pffmtable 文件,分别表示图形原型文件和每个字符所对应的字符特征数文件,其中 inttemp文件包含了所有需要产生的字的图形原型。 使用如下命令:cntraining chisim.font.exp0.tr 来生成字符形状正常化特征文件normproto。
  • 合并:将以上步骤所产生的 unicharset、inttemp、pffmtable、shapetable、normproto 这五个文件前面都加上font,然后使用如下命令 :combine_tessdata
    font,生成所需的.traineddata训练集。将此训练集复制到 Tesseract-OCR 安装目录下的 tessdata 文件夹中即可用来识别汉字。

Gabor变换

  • 经典的傅里叶(Fourier)变换可以把时域信号转换到频域进行分析是线性系统分析的有力工具,其表达式如公式所示,

  • 从以上定义可以看出,傅里叶变换表示的是信号在整个时域内的积分,因此反映的是信号频率的统计特性,没有对信号进行局部化分析,那么对傅里叶谱中的某一频率,无法知道此频率是在何时产生的。为解决傅里叶变换的局限性,产生了 Gabor 变换,Gabor 变换是通过 Fourier变换提取局部信息,引入了时间局部化的窗函数,得到了窗口 Fourier 变换,又称为加窗短时 Fourier 变换。利用 Gabor 变换可以在频域不同尺度、不同方向上提取相关的特征,Gabor 变换在图像处理方面得到了广泛的应用,在汉字识别上也获得了较好的效果。Gabor 变换表达式如公式4-2所示。

基于 Gabor 与卷积神经网络的文字识别

  • Le Net 作为经典的 CNN 结构模型,在 MNIST 数据集上的识别率超过了99%。将在LeNet网络结构基础上通过调整网络层数、滤波器个数、卷积核大小,来设计出合适的网络结构,然后再与Gabor特征结合来进一步得到比较好的实验结果。如图所示,在Le Net结构基础上在第三层卷积层后加入一层卷积层,再增加了一个池化层,由此引入了卷积块的概念,即2-3个卷积层连续相连,此网络命名为Hyper-LeNet1。其中网络的输入为 64×64 的二值汉字图。

  • 首先会通过对上图的网络结果进行改进根据实验结果对比选定合适的网络,然后与Gabor特征进行结合一起送入神经网络进行训练。选取的八个方向Gabor特征分别为0°,22.5°,45°,67.5°,90°, 112.5°,135°,157.5°,波长为4√2,以汉字“中”为例,获得的八个方向特征图如图示。


实验分析:

  • (1)将 Hyper-Le Net1与原始Le Net进行对比实验:

  • (2)随着网络层数在一定范围内的增加,网络模型识别率得到提高,Hyper-Le Net1显示出更好的网络性能。

  • 为了验证卷积核大小对识别率的影响,将修改卷积核做如下实验。

  • 1、将网络中所有卷积核大小改为 3×3,在所有的卷积层后添加激活函数 Re
    LU 层,命名网络为 Le Net3×3;
    2、将网络中所有卷积核大小改为 7×7,在所有的卷积层后添加激活函数 Re LU层,命名网络为 Le Net7×7;
    3、将网络中所有卷积核大小改为 9×9,在所有的卷积层后添加激活函数 Re LU 层,命名网络为Le Net9×9;
    4、将卷积层中所有的 5×5 卷积核的卷积核用两个 3×3 的卷积核代替,在所有的卷积层后添加激活函数 Re LU层,命名网络为 Hyper-Le Net2。

  • 实验结果如表 4-2 所示。

  • 在一定范围内,随着卷积核增大,学习到的特征越丰富,识别率有所提高,而使用2个3×3的卷积核的效果最佳,减少了网络参数的数量,同时在保证具有相同感知野的条件下,也提升了网络的深度,一定程度上提升了网络的效果。同时,小尺寸滤波器需要更多的激活层,所以网络的非线性特征增强,可在一定程度上加快收敛速度。
  • 经过多次实验,最终确定使用 3×3 卷积核,并在每一层卷积层后加入 Re LU 层,网络结构图如图 4.7 所示,汉字识别的正确率为
    0.9634。

  • 为了验证Dropout对网络识别率的影响,接下来将在隐藏层采用Dropout技术,实验结果如表4-3所示。分析可知,在一定范围内,随着dropout值的增大,识别率有所提高,此时的网络可以看作是多个子网络模型的平均结合,减少了网络对某些局部特征的依赖,具有较强的泛化能力。当dropout值大于0.6时,网络性能降低,识别率下降,所以本章采用0.6作为dropout值。

  • 多种特征融合的方法更有利于特征的提取[17],接下来将采用Gabor 特征与神经网络学习特征相结合的方法提高了汉字识别率,所以本章将利用
    Gabor 提取的特征图与原图一起送入网络训练。实现结果如表4-4所示。

  • 由表实验结果可知,Gabor变换有效地反映了汉字不同尺度下的信息,将 Gabor 特征与神经网络学习的特征相融合,有效地提高汉字识别准确率。

表单识别(四)-基于深度学习的表单识别)-OCR相关推荐

  1. 【手写汉字识别】基于深度学习的脱机手写汉字识别技术研究

    写在前面 最近一段时间在为本科毕业设计做一些知识储备,方向与手写识别的系统设计相关,在看到一篇2019年题为<基于深度学习的脱机手写汉字识别技术研究>的工学硕士论文后,感觉收获比较大,准备 ...

  2. 行人重识别(ReID) ——基于深度学习的行人重识别研究综述

    转自:https://zhuanlan.zhihu.com/p/31921944 前言:行人重识别(Person Re-identification)也称行人再识别,本文简称为ReID,是利用计算机视 ...

  3. DeepEye:一个基于深度学习的程序化交易识别与分类方法

    DeepEye:一个基于深度学习的程序化交易识别与分类方法 徐广斌,张伟 上海证券交易所资本市场研究所,上海 200120  上海证券交易所产品创新中心,上海 200120    摘要:基于沪市A股交 ...

  4. 基于深度学习的农作物病虫害识别系统

    1 简介 今天向大家介绍一个帮助往届学生完成的毕业设计项目,基于深度学习的农作物病虫害识别系统. ABSTRACT 及时.准确地诊断植物病害,对于防止农业生产的损失和农产品的损失或减少具有重要作用.为 ...

  5. 基于深度学习的命名实体识别研究综述——论文研读

    基于深度学习的命名实体识别研究综述 摘要: 0引言 1基于深度学习的命名实体识别方法 1.1基于卷积神经网络的命名实体识别方法 1.2基于循环神经网络的命名实体识别方法 1.3基于Transforme ...

  6. 一种基于深度学习的增值税发票影像识别系统

    一种基于深度学习的增值税发票影像识别系统-专利技术交底书 缩略语和关键术语定义 1.卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构 ...

  7. 基于深度学习的行人重识别研究综述 罗浩.ZJU

    基于深度学习的行人重识别研究综述 罗浩.ZJU 1 个月前 原文:独家 | 基于深度学习的行人重识别研究综述 作者:罗浩 备注:为雷锋网/AI 科技评论写的一篇文章,原文没有公式编辑器,所以在知乎上发 ...

  8. 基于深度学习的行人重识别研究综述

    前言:行人重识别(Person Re-identification)也称行人再识别,本文简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术.广泛被认为是一个图像检索的子问 ...

  9. 基于深度学习的行人重识别研究综述 罗浩.ZJU

    转载自:https://zhuanlan.zhihu.com/p/31921944 前言:行人重识别(Person Re-identification)也称行人再识别,本文简称为ReID,是利用计算机 ...

最新文章

  1. 2022-2028年中国装备制造产业深度分析及发展规划咨询建议报告(全卷)
  2. Static interface methods are only supported starting with Android N (--min-api 24): void okhttp3.log
  3. 对话 Dubbo 唤醒者北纬:3.0 将至,阿里核心电商业务也在用 Dubbo
  4. JZOJ 5421. 【NOIP2017提高A组集训10.25】嘟嘟噜
  5. python语句x 3 3执行_Python 3.x 学习笔记--杂
  6. Lua初学习 9-12 基础
  7. 管理软件实施(4)——如何编写售前解决方案
  8. Android application project 各个文件夹作用
  9. oracle备份表和数据
  10. 嵌入式ctags跳转和全局打印日志
  11. 同程艺龙10月初赴港IPO,小程序里又走出一家上市公司
  12. 【IoT】产品外包策略:外包地图-充分利用内外部资源
  13. 逻辑数据库设计 - 单纯的树(递归关系数据)
  14. ECCV 2018 paper
  15. 图文详解win7声音图标不见了怎么办
  16. 如何删除PPT密码?附详细方法
  17. linux 命令 -history 查看历史执行过的命令
  18. 2021个人年度计划怎么制定?
  19. html画布实现小球沿直线下落,js+html5实现的自由落体运动效果代码
  20. 知乎搜索文本相关性与知识蒸馏

热门文章

  1. Java的ASP与JSP有什么区别_asp与jsp的区别汇总
  2. WeakHashMap使用
  3. JAVA笔记(十五):枚举类、注解、异常
  4. 全球与中国刚玉莫来石市场现状及未来发展趋势(2022)
  5. 中国10大最令人遗憾的闪客
  6. 历届蓝桥杯C/C++程序设计省赛试题
  7. 路标漆用石油树脂的性能要求
  8. 解决uniapp使用uView框架里u-popup组件后,一个盒子内容超出屏幕真机滚动不了问题,模拟器可以滚动。
  9. MHA高可用配置及故障切换——实验+理论!!!
  10. 苹果照片传输到电脑怎么传?批量传输的技巧!