来源:机器之心本文约2300字,建议阅读5分钟
文档智能国际权威榜单文档视觉问答 DocVQA 迎来了新霸主。

百度提出跨模态文档理解模型 ERNIE-Layout,首次将布局知识增强技术融入跨模态文档预训练,在 4 项文档理解任务上刷新世界最好效果,登顶 DocVQA 榜首。同时,ERNIE-Layout 已集成至百度智能文档分析平台 TextMind,助力企业数字化升级。

ERNIE-Layout 登顶文档智能国际权威榜单 DocVQA

文档视觉问答:检验文档理解能力的试金石

对多模态文档(如文档图片、PDF 文件、扫描件等)的深度理解和分析,是文档智能的核心能力。文档智能应用行业包括金融、保险、能源、物流、医疗等,常见的应用场景包括财务报销、招聘简历、企业财报、合同文书、动产登记证、法律判决书、物流单据等。针对不同行业和应用场景的需求,文档智能的技术方向囊括文档抽取、文档解析、文档比对等。

文档理解应用场景举例

文档视觉问答 DocVQA 是跨模态的文档抽取任务,要求文档智能模型在文档中抽取能够回答文档相关问题的答案,需要模型在抽取和理解文档中文本信息的同时,还能充分利用文档的布局、字体、颜色等视觉信息,这比单一模态的信息抽取任务更具挑战性。

DocVQA 文档视觉问答示例

上图是 DocVQA 的一个示例,关于这个文档内容的问题是:「手掌中的卡片上写了什么?」,模型需要对问题的核心语义(「手掌」、「卡片」)在文档图像中进行跨模态的语义对齐,准确找到图像中的「手掌」并确定其中「卡片」的位置,进而结合文档中文字和布局的信息得到答案是「Trabon」。

正是由于文档视觉问答任务需要结合视觉解析、布局分析、语义理解、信息抽取等一系列 AI 技术,是综合 AI 能力的集大成者,其技术挑战与实用价值正得到越来越多的重视。

ERNIE-Layout 以世界领先的语义理解模型 ERNIE 为底座,创新提出布局知识增强技术,对文本、图像、布局等信息进行联合建模,取得该任务的世界最好水平,缩小了机器在文档理解能力上与人类的差距。

世界首创的布局知识增强文档理解模型 ERNIE-Layout

对文档理解来说,文档中的文字阅读顺序至关重要,目前主流的基于 OCR(Optical Character Recognition,文字识别)技术的模型大多遵循「从左到右、从上到下」的原则,然而对于文档中分栏、文本图片表格混杂的复杂布局,根据 OCR 结果获取的阅读顺序多数情况下都是错误的,从而导致模型无法准确地进行文档内容的理解。

ERNIE-Layout 布局知识增强效果

而人类通常会根据文档结构和布局进行层次化分块阅读,受此启发,百度研究者提出在文档预训模型中对阅读顺序进行校正的布局知识增强创新思路。TextMind 平台上业界领先的文档解析工具(Document Parser)能够准确识别文档中的分块信息,产出正确的文档阅读顺序,将阅读顺序信号融合到模型的训练中,从而增强对布局信息的有效利用,提升模型对于复杂文档的理解能力。

基于布局知识增强技术,同时依托文心 ERNIE,百度研究者提出了融合文本、图像、布局等信息进行联合建模的跨模态通用文档预训练模型 ERNIE-Layout。如下图所示,ERNIE-Layout 创新性地提出了阅读顺序预测和细粒度图文匹配两个自监督预训练任务,有效提升模型在文档任务上跨模态语义对齐能力和布局理解能力。

ERNIE-Layout 架构图

在取得权威视觉问答榜单 DocVQA 第一的同时,ERNIE-Layout 还在文档信息抽取权威榜单 SROIE 登顶榜首。

ERNIE-Layout 登顶文档信息抽取权威榜单 SROIE

此外,ERNIE-Layout 还在表单理解 FUNSD、票据理解 CORD 等多个公开数据集上取得了目前业界最好的效果,其中 FUNSD 数据集 F1 大幅提升 6.47%,进一步验证了 ERNIE-Layout 布局知识增强技术的有效性。

ERNIE-Layout 在表单理解 FUNSD 数据集上的效果

ERNIE-Layout 在票据理解 CORD 数据集上的效果

ERNIE-Layout 技术已集成至百度智能文档分析平台 TextMind!

2020 年 8 月百度大脑语言与知识十周年技术峰会上,百度发布了智能文档分析平台 TextMind,提供一站式企业文档规范化解析方案,促进办公智能化升级和企业数字化转型。一年多以来,TextMind 平台不断打磨功能、优化效果,基于百度领先的 OCR 和 NLP 技术,平台支持格式解析、内容抽取、内容比对、内容审查、内容理解 5 大核心功能。

TextMind 产品架构图

截至目前,TextMind 合作伙伴达到上百家,遍布银行、券商、法律、能源、传媒、通信、物流等众多行业,真正实现以 AI 助力企业的数字化转型。本次 ERNIE-Layout 集成至 TextMind 更是助力企业提高文档信息的提取效率和处理效率,显著减少人工成本和时间投入,加快企业数字化转型。

以财务报销智能审核为例,报销凭证数据量大、样式多样且复杂,依靠人工处理则审核人力成本高、效率低并且审核时间长。得益于 ERNIE-Layout 模型具备的多样化的文档布局理解能力和文本语义理解能力,TextMind 的票据内容抽取功能,能够自动、快速、准确地提取不同样式票据中的关键信息。目前,该功能已为多家客户提供全流程、智能化的实时财务报销审核服务,提升企业审核效率 5 倍以上。

基于ERNIE-Layout模型的票据内容抽取示例

结束语

国家「十四五」规划提出数字中国战略,战略旨在激活数据要素潜能,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。企业 80% 以上数据都是非结构化数据(图片、文档),且文档数量和占比都在呈现指数级增长。因此,文档智能技术已成为企业数字化转型的关键技术。

百度提出的基于文档布局知识增强的跨模态预训练模型 ERNIE-Layout,在 4 项文档理解任务上刷新世界最好效果,并在 DocVQA 上登顶榜首。通过引入层次化的文档布局知识信息,让机器可以像人一样阅读复杂排版的文档,学习文档的布局知识、语义知识以及视觉知识并相互增强,从而实现对文档的结构化、语义化理解。这项能力通过百度智能文档分析平台 TextMind,提供一站式企业文档规范化解析方案,促进办公智能化升级和企业数字化转型。

了解 ERNIE-Layout,或者希望获得 TextMind 的更多支持,可通过以下链接:

百度智能文档分析平台 TextMind:

https://cloud.baidu.com/product/textmind.html

百度文心 ERNIE:

https://wenxin.baidu.com/

编辑:王菁

校对:林亦霖

刷新4项文档智能任务纪录,百度TextMind打造ERNIE-Layout登顶文档智能权威榜单相关推荐

  1. 重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录,并登顶权威榜单VCR

    ** 关注[百度NLP]微信官方公众号,及时获取更多自然语言处理技术干货! ** 阅读原文,获取相关论文地址:https://mp.weixin.qq.com/s/nB_yCkEXkgjv7saKpc ...

  2. 再次刷新单模型纪录!快手登顶多模态理解权威榜单VCR

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 多模态理解领域的权威排行榜纪录,又被来自国内的技术团队刷新了. 近日, ...

  3. 屠榜大杀器UniMP!百度登顶图神经网络权威榜单三项榜首

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 近日,百度在图神经网络领域取得新突破,提出融合标签传递和图神经网络的统一模型UniMP(Unified Message Passing),在 ...

  4. 腾讯优图刷新人体姿态估计国际权威榜单,相关论文被ECCV2020收录

    本文转载自腾讯优图. 近日,腾讯优图实验室在人体2D姿态估计任务中获得创新性技术突破,其提出的基于语义对抗的数据增强算法Adversarial Semantic Data Augmentation ( ...

  5. 本周AI热点回顾:AI技术重现的老北京原声影像又火了、百度ERNIE-ViL刷新5项任务记录、Transformer 3发布

    01 剃头挑子.京韵大鼓.摆地摊,AI技术重现的老北京原声影像又火了 剃头挑子.街边地摊.京韵大鼓,多数人可能只在电影.电视剧中看过老北京的这些景象.但早在 90 年前,就有人将这些场景都拍了下来,而 ...

  6. 百度NLP十年布局:翻越认知智能高山,架起通往现实世界的桥

    自然语言处理(NLP)是人工智能皇冠上的一颗明珠. 这样的说法在人工智能领域流传许久,现实中发生的却是这样一幕:计算机视觉.语音识别等领域纷纷跑出了多个独角兽,冲刺IPO的消息也时常出现.可作为&qu ...

  7. AI时代的文本智能化利器:百度语义理解技术与平台文心ERNIE

    阅读原文:https://mp.weixin.qq.com/s/Efs1929lxXEv7C3Up72EVg 语言与知识技术,被归类为认知智能,一直是人工智能最热门的研究与应用领域. 9月15日,百度 ...

  8. 第十八届全国大学生智能汽车竞赛百度创意组来啦

    第十八届全国大学生智能汽车竞赛 百度创意组来啦   「全国大学生智能汽车竞赛」是教育部倡导的大学生科技A类竞赛,是2022年全国普通高校大学生竞赛榜单内竞赛,中国高等教育学会将其列为含金量最高的大学生 ...

  9. 计算机毕业设计Java城市智能公交系统(源码+系统+mysql数据库+lw文档)

    计算机毕业设计Java城市智能公交系统(源码+系统+mysql数据库+lw文档) 计算机毕业设计Java城市智能公交系统(源码+系统+mysql数据库+lw文档) 本源码技术栈: 项目架构:B/S架构 ...

最新文章

  1. ensp删除静态路由命令_(温州大学)路由与交换机 期末试卷及解析
  2. Log信息获取调用类和调用方法名的实现原理
  3. 拥有懂需求的云计算供应商,是一种怎样的体验
  4. Kaneboy:临时启事:寻找在北京,熟悉SPS、ASP.NET,有两周空闲时间的朋友
  5. 2021年Java后端技术知识体系
  6. iPhone与Android手机 各个型号的UserAgent
  7. luajit表记录监控(忆一次项目上线中遇到的luajit对象内存泄漏)
  8. SAP ERP Material如何创建附件
  9. #51CTO学院四周年# 还好没放弃,终于等到你~
  10. 学习UpdatePanel控件
  11. fanuc机器人码垛编程实例_两个很简单的FANUC系统CNC加工中心编程实例
  12. What is Leanstar.cn?
  13. mysql 约束 和索引_Mysql中索引和约束的示例语句
  14. SourceTree Push 代码报错:remote: Support for password authentication was removed on April 26, 2022....
  15. redis灵魂拷问:为什么响应变慢了
  16. SylixOS中断延迟队列
  17. bzoj3168-钙铁锌硒维生素
  18. 基于分类方法的银行客户流失预测
  19. 2022/11/21-11/26周报
  20. 免费的PHP在线解密工具源码

热门文章

  1. oracle怎么打代码,使用DOS打Oracle代码技巧
  2. nodejs实现微信授权登录
  3. 使用JDBC改变Oracle的session參数 NLS_DATE_FORMAT
  4. 使用E-MapReduce服务将Kafka数据导入OSS
  5. java通过JDBC链接SQLServer2012
  6. 五个最佳案例带你解读Node.js的前后之道
  7. 对JDBC的一些理解
  8. ecshop /pick_out.php SQL Injection Vul By Local Variable Overriding
  9. php.ini配置文件详解
  10. bat递归查找指定文件_dos命令find图文教程,查找搜索文件文本字符串,bat批处理脚本...