目录

  • 一、智能文字识别一般包含以下几个过程
    • 1、图像输入
    • 2、图像预处理
      • (1)弯曲矫正系统pipeline
      • (2)摩尔纹去除
    • 3、版面分析
    • 4、字符切割
    • 5、字符识别
    • 6、版面恢复
    • 7、后处理、核对
  • 二、物理版面版面分析
  • 三、逻辑版面版面分析
    • 逻辑版面版面分析通常包括以下步骤:
  • 四、OCR 文档还原
    • 1、下面是通过合合信息技术实现的版面还原
    • 2、以下是一些OCR文档还原的步骤:
    • 3、通过合合信息技术实现的效果展示:
  • 五、版面元素检测和识别
    • 1、版面元素检测和识别
    • 2、版面元素检测和识别的常用方法包括:
    • 3、下面是合合信息技术进行的版面元素检测和识别
  • 六、总结

大家好,我是哪吒。

最近在学习OCR相关的技术,是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术。

OCR预处理的最终目的是提高字符识别的准确性和效率。其中版面分析技术指的是OCR系统可以忽略图像中的非文本区域,并将文本区域划分为易于处理的行和列,从而减少字符识别的错误率。

近期在2023年度视觉与学习青年学者研讨会(VALSE)上,作为智能文档处理领域的代表合合信息对于智能文档处理技术研发与实践成果也进行了分享,使我受益匪浅。

一、智能文字识别一般包含以下几个过程

1、图像输入

一般在收到一个图像时,往往可能会因为各种因素(手机像素太低、环境太过阴暗、距离较远等),图片拍摄的不怎么清晰或是倾斜的、或是背景图片过于复杂。

如果图片是倾斜的,可以通过OpenCV和Python进行文本倾斜校正,再辅助直线检测得到图像对应的正方向;
如果亮度不统一,可以用二值化方法 + 投影解决;

感觉自己可以胜任OCR的任何工作了,但是,如果收到的是一个很复杂的图像,又该怎么处理呢?怎么做版面分析

太难了。

2、图像预处理

常见的文档分析及预处理主要包括弯曲矫正、阴影、去摩尔纹、不清晰等。

(1)弯曲矫正系统pipeline

弯曲矫正系统是一种图像预处理方法,用于处理拍摄的文档图像中可能存在的几何形变,包括弯曲、褶皱、折叠等因素导致的畸变。

弯曲矫正系统采用基于位移场网络学习方法的系统构架,对形变文档进行智能矫正,同时智能定位文档边缘,切除多余背景。这种方法可以广泛应用于纸质文档、书籍、名片等各类弯曲载体的文字识别任务中,通过弯曲矫正技术,可自动“拉平”图像,提升各类非常规载体文字的识别效率与质量。

(2)摩尔纹去除

图像预处理中的摩尔纹去除是一个富有挑战性的任务,目前常见的解决方法是在成像前进行预处理,例如在相机镜头前放置抗混叠滤波器,对彩色滤波阵列(CFA)的输出应用精确插值算法。此外,在专业摄影领域,最有效的去摩尔纹方法是借助专业图像处理软件的后处理方法,如Adobe Photoshop。这个方法主要分为两步,即摩尔条纹去除和色调映射。还有近年来的深度学习,如解码器网络,也可以有效地去除摩尔纹。

3、版面分析

将文本区域分割成行、列或单词。版面分析方法通常分为两种:规则方法和统计方法。规则方法根据文本的几何特征(如大小、形状、方向等)来分割文本区域,而统计方法则使用概率统计方法来识别文本区域。

4、字符切割

OCR预处理中的字符切割是将连续的字符分割成若干个独立的字符区域的过程。

这个过程对于OCR识别准确率至关重要。

5、字符识别

OCR预处理中的字符识别是将每个字符翻译成计算机文字的过程。

在OCR预处理中,字符识别是至关重要的一步。通过字符识别,OCR系统可以将图像中的文本转换为计算机文字,从而实现文本信息的自动化处理。

6、版面恢复

OCR预处理中的版面恢复是将原本不规则排版的文本区域恢复成规则的版面布局的过程。这个过程对于OCR识别准确率至关重要。

7、后处理、核对

OCR预处理的后处理和核对是指在OCR识别结果的基础上,进行进一步的校对和修正,以提高OCR识别的准确率。

下面具体说一下里面看似“冷门”但比较重要的技术点——版面分析,版面分析包括物理版面和逻辑版面。

二、物理版面版面分析

物理版面版面分析是为了将文本区域分割成行、列或单词,从而减少字符识别的错误率。

版面分析通常分为两个步骤:图像处理和版面分析。

图像处理通过各种技术(如去噪、二值化、滤波等)将原始图像转换为适合OCR处理的格式。

版面分析方法通常分为两种:规则方法和统计方法。

规则方法根据文本的几何特征(如大小、形状、方向等)来分割文本区域,而统计方法则使用概率统计方法来识别文本区域,最终目的是提高字符识别的准确性和效率。

三、逻辑版面版面分析

逻辑版面版面分析是指对文档的逻辑结构进行分析,以确定文档中的文本区域、图像、表格等元素的位置和关系。

这种分析对于OCR识别和文档处理非常重要,因为它可以帮助我们了解文档中的信息分布和组织方式,从而更好地进行信息提取和整理。

逻辑版面版面分析通常包括以下步骤:

  1. 文本行分割:将文档中的文本分割成行;
  2. 段落识别:将文档中的文本分割成段落;
  3. 表格识别:将文档中的表格提取出来,并进行适当的表格转换;
  4. 文本区域分割:将文档中的文本分割成区域,以便于后续的信息提取和整理;
  5. 图像识别:识别文档中的图像,并进行适当的图像处理;
  6. 页面分析:对整个文档页面进行布局分析,以便于后续的排版和打印等操作。

通过逻辑版面版面分析,我们可以得到文档的逻辑结构信息,从而更好地进行信息提取和整理。这种分析在OCR识别和文档处理中广泛应用,可以帮助我们提高识别和处理的准确率和效率。

四、OCR 文档还原

OCR 文档还原(OCR Document Restoration)是指将扫描或图片格式的文档转换为可编辑的文本格式,方便后续的编辑和处理。OCR技术常用于文档数字化和信息提取。

1、下面是通过合合信息技术实现的版面还原

2、以下是一些OCR文档还原的步骤:

  1. 图像预处理:对原始文档图像进行预处理,如去噪、二值化、图像增强等,以提高OCR识别的准确率和稳定性;
  2. 版面分析:对文档进行逻辑版面分析,将其分割成不同的区域,如文本区域、图像区域、表格区域等;
  3. OCR识别:对分割后的区域进行OCR识别,将其转换为文本格式;
  4. 后处理和核对:对OCR识别结果进行后处理和核对,如语法校正、拼写检查、词性标注等,以提高还原文本的质量;
  5. 输出:将还原后的文本输出到编辑器或文档处理软件中,进行后续的编辑和处理。

OCR文档还原系统架构包括Web Service、任务调度程序和证件识别服务器等组件。Web Service负责接收客户端上传的需要做识别的证件图片,并将识别请求转发给任务调度程序。任务调度程序再把识别请求分发给空闲的证件识别服务器,得到识别结果后再依次返回,最后由Web Service将结果返回到客户端。

3、通过合合信息技术实现的效果展示:

五、版面元素检测和识别

1、版面元素检测和识别

版面元素检测和识别是指对文档图像中的版面元素进行自动检测和分类的过程,是OCR文档还原和版面分析的关键步骤之一。

版面元素包括文本、图像、表格等元素,它们在文档中通常具有一定的规则和布局。通过对版面元素的检测和识别,可以获得文档的逻辑结构信息,从而更好地进行信息提取和整理。

2、版面元素检测和识别的常用方法包括:

  1. 基于规则的方法:根据版面元素的几何特征(如大小、形状、方向等)和属性(如文本类型、图像类型等),制定相应的规则来进行检测和分类;
  2. 基于机器学习的方法:通过训练机器学习模型(如决策树、支持向量机、神经网络等),对版面元素进行分类和识别;
  3. 基于深度学习的方法:利用深度学习模型(如卷积神经网络、循环神经网络等),对版面元素进行端到端的训练和识别;
  4. 基于迁移学习的方法:利用在自然图像中训练的模型,将其迁移到版面元素检测和识别任务中,以获得更好的性能。

版面元素检测和识别的技术不断发展,可以进一步提高OCR文档还原和版面分析的准确率和效率。

3、下面是合合信息技术进行的版面元素检测和识别

六、总结

通过版面分析技术将文字区域和非文字区域进行分离,从而将文字区域中的排版、布局信息提取出来,以便于后续的识别处理。版面分析是OCR技术中的一个重要环节,它直接影响到OCR的识别准确率和效率。

通过对OCR技术的不断专研,我发现,OCR文档还原的质量受到多种因素的影响,如文档质量、版式复杂度、字体和字号等。在OCR文档还原过程中,需要根据实际情况进行调整和优化,以提高还原文本的质量和准确性。

OCR技术学习,智能文档图像处理技术应用与实践相关推荐

  1. 高分辨率扫描出来的图片有摩尔纹_QQ新功能:图片一键转PPT,比OCR更强大的文档重建技术...

    作者:熊唯,黄飞,戈扬,腾讯 PCG 应用研究员 本文介绍了 QQ 研发中心自研的 PPT 重建技术,目前腾讯文档在进行接入工作.当前主流办公产品比如 office,wps,腾讯文档会采用 AI 技术 ...

  2. 智能文档分析:NLP和OCR的融合技术

    随着数智化时代的到来,各行各业已经步入智能化升级的关键阶段,传统行业智能化进程已然加速.百度大脑赋能企业服务升级,为企业提供更加智慧化.人性化的服务,让企业服务更聪明.更高效. 百度大脑AI开放平台提 ...

  3. 合合信息亮相CCIG2023:多位大咖共话智能文档未来,文档图像内容安全还面临哪些技术难题?

    近日,中国图象图形大会(CCIG 2023)(简称"大会")在苏州圆满落幕.本届大会以"图象图形·向未来"为主题,由中国科学技术协会指导,中国图象图形学学会主办 ...

  4. 智能文档处理IDP关键技术与实践-高翔

    什么是智能文档处理?针对文本数据处理尤其是纯文本,大家通常会想到使用自然语言处理(Natural language processing,NLP)技术来解决语义理解及分析处理工作.关于自然语言处理技术 ...

  5. 智能文档处理IDP关键技术与实践

    什么是智能文档处理?针对文本数据处理尤其是纯文本,大家通常会想到使用自然语言处理(Natural language processing,NLP)技术来解决语义理解及分析处理工作.关于自然语言处理技术 ...

  6. 当NLP遇见OCR:如何提升智能文档分析效果?

    随着数智化时代的到来,各行各业已经步入智能化升级的关键阶段,传统行业智能化进程已然加速.百度大脑赋能企业服务升级,为企业提供更加智慧化.人性化的服务,让企业服务更聪明.更高效. 百度大脑 AI 开放平 ...

  7. 智能文档处理黑科技,拥抱更高效的数字世界

    目录 0 写在前面 1 为何要关注智慧文档? 2 图像弯曲矫正 3 手写板反光擦除 4 版面元素检测 5 文档篡改检测 总结 0 写在前面 近期,中国图象图形学学会文档图像分析与识别专业委员会与上海合 ...

  8. 大模型时代下智能文档处理核心技术大揭秘

    ​强烈推荐一个大神的人工智能的教程:http://www.captainai.net/zhanghan 大模型时代下智能文档处理核心技术大揭秘 前言 一张图全览 文档图像分析与预处理 图像预处理的整体 ...

  9. 通用能力及AI核心能力表现优异!合合信息智能文档处理系统(IDP)高评级通过中国信通院评估

    数字经济快速发展的背后,全球数据总量呈现出爆发式增长趋势.智能文档处理(IDP)技术能够高效地从多格式文档中捕捉.提取和处理数据,帮助机构和企业大幅提升文档处理效率,节约时间和人力成本.近期,合合信息 ...

最新文章

  1. android 读取内部存储文件格式,Android中的数据储存之文件存储
  2. Java范例集锦(一)
  3. php5.5 mysql密码无法_MySQL密码正确却无法本地登录的解决方法
  4. Spring学习(22)--- AOP之Advice应用(下)
  5. 三十五岁后,如何自学WEB前端编程
  6. 1月19日学习内容整理:Scrapy框架补充之scrapy-redis组件
  7. 取消链接文件失败。 我应该再试一次吗?
  8. 【Zend Studio】10.6.0版本设置默认编码为UTF-8
  9. [luoguP3332] [ZJOI2013]K大数查询(树套树)
  10. 正则表达式的语法及使用
  11. C/C++/JAVA环境的搭建
  12. cubieboard刷机
  13. 第十四章 字符编码(补充)
  14. 10个必须掌握的SQL常用语句
  15. 基于JavaSwing开发书店管理系统+论文 毕业设计 课程设计 大作业
  16. 【2015年第4期】面向国防安全的网络大数据分析与应用系统
  17. 有偏估计 无偏估计matlab,有偏估计和无偏估计
  18. 使用新浪微博官方API抓取微博数据(Python版)
  19. 【软件架构】软件架构师
  20. SOFA Weekly|可信基础设施技术分论坛、Layotto 社区会议回顾与预告、社区本周贡献...

热门文章

  1. c语言中int的取值范围是怎么算出来的,int的取值范围怎么算
  2. 数字化技术如何影响银行业务转型
  3. 项目管理之敏捷方法--敏捷环境创建
  4. mybatis学习笔记(12)-多对多查询
  5. ubuntu16.04插入u盘出现无法挂载
  6. opengl作业三维虚拟场景_乱弹OpenGL选择-拾取机制
  7. 基于微信小程序的英语单词记忆系统的设计与实现_kaic
  8. 2020年中国皮肤科用药行业现状及竞争格局,市场需求较大「图」
  9. 协议型网络游戏外挂制作之启动
  10. 港科夜闻|香港科大学生获颁第一届香港-法国社区创新奖项