一、前言

哪怕在互联网时代高速发展的今天,文档依然是人们在日常生活、工作中产生的信息的重要载体。

学生的作业、开具的发票、医生的医嘱、合同、简历、金融票据等都是通过文档来呈现的,它在我们的生活中随处可见。

现在我们为了更高效、安全的开展业务,常常需要对文档信息进行识别提取,比如:检测传递的证件是否有效,通过识别身份证照自动录入其对应的信息,以及提取手写稿的文字等场景。因此,让计算机具备阅读、理解和解释这些文档图像的能力在许多领域都具有广阔的应用价值。

然而在现阶段,文档图像的处理过程中还面临着诸多挑战:文档类型的多样产生了繁杂的版式与结构;受拍摄器材、背景环境影响,图像时常存在噪声和质量问题等:

因为有这些问题的存在,导致在文档处理上很容易“翻车”!

幸运的是,业界有很多大佬都在努力攻克这些难点,也取得了一些进展。在这次CCIG(中国图象图形大会)上,这些大咖也做了分享,让我们来看看他们是如何面对这些问题的以及他们对文档处理的看法是怎样的。

二、大会分享

1)文档分析与识别快速进步,但仍有很大的研究空间

来自中国科学院自动化研究所的副所长刘成林分享了在人工智能大模型时代下,他对文档识别的理解。

他们团队的主要研究内容是在版面分析(分割),文本定位、文本识别、表格识别,信息提取、公式、图形、符号等:

刘成林所长在会上带我们回顾了文档识别的研究简史,介绍了文档的种类以及现存的问题:

还分享了他们的研究现状:

一句话概括就是部分场景成功应用,大部分场景还不好用,在可靠性、可解释性、自适应性方面还需要提升。

另外,也分享了大模型GPT-4在文档处理中的应用:


他认为现阶段的大模型仍有很多不足,大模型现在未进行大规模的验证,识别精度可能不高,OCR模型的设计仍然很重要。但我们还是可以在文档处理上充分利用大模型的特征表示及语言能力。

未来他们会以设计自动化,应用无人化为目标,通过深度学习+结构化模型,生成模型、领域知识,迁移学习,领域泛化(利用相关领域数据和知识)、弱监督学习,跨模态学习、预训练(自监督学习)等方法来解决文档中各种元素和内容,多语言,多场景,多类型文档这类的广度研究问题,和文档语义理解,可解释性,可信度,字符结构分析,小样本学习,自适应之类的深度研究问题。

我很认同刘成林的观点,虽然现阶段文档处理在大多场景的应用并不乐观,但利用大模型的特征表示及语言能力会是一个不错的改善方案。

2)篡改文本图像的生成与检测

随着人工智能合成技术的发展,伪造多媒体信息在网络上泛滥成灾,干扰社会舆论和秩序,严重危害国家安全和社会稳定:

目前图像篡改生成与检测的研究都集中在自然图像,针对文本图像篡改生成与检测的相关研究较少。

2.1篡改文本图像生成

篡改文本图像生成指的是对场景图像中的指定文本进行编辑,在保留原始字体风格和背景纹理的同时,使目标文本尽可能清晰、容易辨认:

中国科学技术大学教授谢洪涛指出生成检测的任务难点是文字、字体、背景多样性:

也总结了现阶段几种常见模型的优缺点:

端到端场景文本擦除

1)EnsNet模型—通过条件对抗生成网络构建文本擦除器

优点:模型简单,提出文本擦除基本解决思路;

缺点:对复杂文本图像擦除效果较差;

2)EraseNet模型—引入文本感知分支,提升网络对文本区域的捕捉能力

优点:引入多级擦除策略,对擦除效果提升明显;

缺点:网络结构相较复杂,参数量较厚重;

3)CTRNet模型—以低维结构信息和高维上下文特征作为先验知识指导文本擦除和背景重建过程

优点:多维语义先验引入指导文字擦除和背景重建,针对复杂背景效果好;

缺点:同样依赖于GAN loss,训练过程相对复杂;


端到端场景文本篡改

1)SRNet模型—将文本部分和背景部分的生成方法分开学习,然后通过融合算法生成篡改图像

优点:模型简单,对简单文本篡改效果不错;

缺点:对复杂背景的文本图像篡改效果较差,对复杂字型有较重篡改痕迹;

2)SwapText模型—对目标文本形状先进行TPS变换,降低目标风格文本的合成难度

优点:对于曲形文本的篡改效果较好;

缺点:网络对整幅图像块进行编辑,存在对非文本区域的过度篡改;

3)TextStyleBrush模型—基于StyleGAN的篡改生成框架,能够自监督训练

优点:能够在真实数据集上训练;

缺点:网络结构复杂,模型难以收敛;

他们认为在场景文本图像擦除方面,之前的方法存在这些问题:没有显性解耦定位和重建操作,极大地增加了网络的学习难度,导致背景过度擦除,所有多阶段网络都采用相同的标签进行监督,无法平衡每个阶段的学习难度和网络结构,导致文字擦除不彻底。

所以他们的方法是基于迭代局部擦除的场景文本擦除,构建显性解耦的擦除网络,提出基于局部编辑的擦除策略,提升背景纹理完整性,构建平衡的多阶段擦除网络,提升文字擦除彻底性。

在场景文本图像篡改方面,存在需要文本风格图的监督,使其只能在合成数据集上训练。合成数据集与真实数据集的差异,导致网络在真实场景下篡改效果不佳;都是对图像块的所有像素点进行编辑,并未区分前景和背景区域,存在对非文本区域的过度篡改,所以他们以简化篡改文本生成网络,去掉不必要的监督过程;针对性地篡改,仅对文字区域进行编辑操作给出了针对笔迹级修改的篡改文本图像生成网络的方法。

现阶段他们还面临一些问题:

2.2 篡改文档检测

篡改文档检测是检测文本图像中所有文本实例,并在此基础上对文本真伪性进行鉴别,包含文本定位和文本真伪性鉴别两个步骤。

篡改文档检测的应用场景是非常广泛的且非常重要:

谢洪涛教授认为篡改文档检测的难点在于篡改文本和真实文本具有相同的语义(文本位置、几何结构),仅在局部纹理中存在一定差异,高质量的篡改文档图像数据获取困难,导致篡改文本检测网络很难在小规模样本下学到具有区分力的篡改特征:

他也分析了主流的检测方法优缺点,分享了他们课题组的检测方法——构建通用篡改文本检测器,进行多分类目标检测任务,继承场景文本检测其对文本检测的有效性及低数据依赖。

现阶段,同样存在一些问题:

谢洪涛教授认为篡改文本的生成与检测是矛与盾的良性互动的发展过程,还需要多领域的持续关注。

3)智能文档处理技术让世界更高效

来自上海合合信息科技股份有限公司智能技术平台事业部副总经理,高级工程师丁凯介绍了他们公司的一些产品服务和使命:致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务,以此来让世界更高效!


丁凯工程师介绍了他们在预处理存在弯曲、阴影、摩尔纹、不清晰的图像时的整体架构:

以及图像弯曲矫正的方法从“只取头尾”到坐标变化再到基于偏移场的方法,建立起弯曲矫正系统的pipeline:


在黑板、手写板上进行拍摄时,无可避免的遇到反光的影响,他们团队通过反光擦除技术,保留笔画细节,清晰还原反光板内容:

合合信息同样在文档图像篡改检测领域上有所建树,丁凯工程师指出了传统的基于文件标记篡改检测方法并不能有效的判断图片是否有被篡改,因为第三方软件可以抹除Exif信息:

之后他分享了他们检测系统的架构和技术:


此外,他们的PS检测和摩尔纹去除等服务我之前也使用过,效果都很不错,特别是PS检测方面,它也一直是很多行业迫切需要的,尤其是在保险、金融、银行等领域,如果将虚假篡改过的信息资料审核通过可能会带来巨大的影响甚至是经济上的损失:

三、总结

众所周知,现在是数字化的时代,越来越多的企业都在走向数字化的转型。然而,现实中80%的商业数据都是非结构化格式,比如邮件、图片和各种企业文档,其中非结构化文档占据了绝大多数。这样让数字化转型变得非常困难。因此,如果能实现让企业实现文档自动化处理、智能审核、自动录入等文档处理方面的功能,那一定是非常有商业前景和价值的事情。

而且随着人工智能技术的飞速发展,文档图像智能处理在医疗、教育、金融等诸多领域都会被应用,为各行各业提供更加高效、智能的文档管理和数据分析解决方案。

经过这次大会我认为,即便现在依然面临着许多困难,但我相信在不久的将来都会迎刃而解!

文档处理容易“翻车”,来看看CCIG上的大咖怎么说相关推荐

  1. 本篇文档介绍如何手动在ECS实例上部署Java web项目

    本篇文档介绍如何手动在ECS实例上部署Java web项目.适用于刚开始使用阿里云进行建站的个人用户. 项目配置 { .section} 本篇教程在示例步骤中使用了以下版本的软件.操作时,请您以实际软 ...

  2. 将两页A4 pdf文档合并到一页A4页面上打印的方法

    在实验室打印论文, 直接把pdf打印感觉比较浪费, 许多白边框都没有有效利用, 而且打印出来的页数很多, 显得不紧凑, 而且多而繁杂. 于是想要把pdf页面合并拼接打印, 比如: "将两页A ...

  3. 把多页Word文档缩小打印到同一张纸上

    方法一:首先要确定纸张的大小和方向,系统默认的是"A4"纸,方向纵向.如果要改变,可单击:"文件"-"页面设置",进行相应的更改. 单击:& ...

  4. 本页面上存在错误。Acrobat可能无法正确显示页面。请联系PDF文档的创建者来更正本页面上存在错误

    用acrobat 打开PDF文档提示"本页面上存在错误.--"         可能原因 一.pdf 文档没有使用 Acorbat 创建 二.pdf 修改者使用了与原 pdf 创建 ...

  5. docusign文档打不开_‎App Store 上的“DocuSign - 上传和签署文档”

    DocuSign eSignature 是世界排名第一的电子签名解决方案,支持您随时随地发送和签署协议.您的签名即是您的承诺,无怪乎全球数百万用户信赖我们的电子签名解决方案.使用 DocuSign 免 ...

  6. Adobe Reader 文档无法签名_如何在Mac上使用预览对PDF进行电子签名

    当您通过电子邮件收到必须签名的PDF文档时,打印文件,用钢笔在虚线上签名,扫描签名的文档并将其发回的过程可能是一项相当繁琐的任务.幸运的是,苹果公司增加了使用预览功能对PDF文档进行电子签名的功能,该 ...

  7. 【Java用法】使用Java导出word文档的解决方案(适用于从服务器上下载到本地电脑)

    本文目录 一.Controller 二.Service 接口类 三.ServiceImpl 实现类 四.Content-Type 类型与MIME Type类型对照表 最近在做一个word导出功能,需求 ...

  8. WordZ:Word终结者,基于Google API的文档自动化 电子合同发票流水账单线上集成方案

    WordZ: Word终结者, 基于Google API开发的文档自动化产品.可用于线上合同,发票,所有有关文档的业务流程.主要功能包含,创建,复制文档,填充变量,导出word,导出pdf等一系列优秀 ...

  9. word文档html图片不能移动,word中遇上图片不能移动的问题应该怎么解决

    图片是word的重要组成部分,那大家有没有遇上过图片插入word之后却无法移动的问题,这都是什么原因导致的呢?本文就来和大家介绍产生这一问题时的解决方法. 01更改图片环绕方式 如果想要移动图片,只需 ...

最新文章

  1. 助力科研 越海扬波发力高性能计算应用
  2. spring aop 申明了切面类之后,如何申明切入点呢?
  3. svg 点击 事件_使用 SVG 实现圆环日期选择器
  4. Windows7是什么
  5. uos系统断网怎么安装mysql_【学习笔记】 UOS安装MySQL
  6. 简要说说一个完整机器学习项目的流程
  7. “堆外内存泄漏”排查及经验总结
  8. EF Core 2.0使用MsSql/Mysql实现DB First和Code First
  9. 【剑指offer】【leetcode精选题集】【Java】剑指offer题解合集 更新中
  10. python将print内容输入txt_Python将矩阵写入txt文件,保持格式
  11. 更灵活的定位内存地址的方法02 - 零基础入门学习汇编语言33
  12. 0基础python入门书籍 excel_零基础学Python3(23):Excel 基础操作(上)
  13. nginx 子进程 woker process 启动失败的问题
  14. 电脑全能工具箱,400+工具免费用
  15. 李宏毅机器学习笔记——Transformer
  16. Java编程——杨辉三角(一)
  17. 关于Windows PowerShell
  18. 五笔字型词组输入规则(口诀:打词方法)
  19. vue之vue的生命周期、swiper、自定义组件的封装、自定义指令、过滤器、单文件组件及vue-cli
  20. STC8A单片机应用开发

热门文章

  1. android 高颜值app开发第一步——颜色与渐变
  2. 工厂应该怎样规划生产品质管理?
  3. vue.js:634 [Vue warn]: Unknown custom element: <router-link> - did you register the component correc
  4. 对于神经网络的边缘计算以及嵌入式等应用
  5. 51单片机~串口通信(讲解+代码)
  6. 愿你走过半生,归来仍是少年
  7. 信息系统安全导论第七章信息安全工程与信息安全审计
  8. 高新技术企业认定的指标要求
  9. 物联网设备数据是如何流转的:基于EMQX与TDengine的前后端分离项目实践
  10. MacOS-从 UIKit 到 AppKit