革新OCR结构化技术应用，揭秘百度中英文OCR结构化模型StrucTexT预训练模型

光学字符识别（OCR）是目前应用最为广泛的视觉AI技术之一。随着OCR技术在产业应用的快速发展，现实场景对OCR提出新的需求：从感知走向认知——OCR不但需要认识文字，也要进一步理解文字。因此，结构化逐渐成为OCR产业应用的核心技术之一，旨在快速且准确地分析卡证、票据、档案图像等富视觉数据中的结构化文字信息，并对关键数据进行提取。OCR结构化技术通常要解决两个高频应用任务类型：

实体分类：提取OCR结果中与预定义实体标签（例如“姓名”，“日期”等）对应的文本内容；
实体连接：分析文本实体间的关系，例如是否组成键（key）-值（value）对、是否属于表格里的同行或同列。

OCR结构化技术的应用需求广泛存在。在企业活动中，处理报表、合同、表单和发票等文件资料已经成为日常办公的重要工作。OCR结构化技术能够帮助企业自动化理解和识别文档、票据中的关键信息，降低人力成本，提升运营效率。

百度提出OCR结构化模型StrucTexT，首次将中英文字段级多模态特征融入OCR结构化预训练进行特征增强，在6项OCR结构化数据集合上努力刷新了业界最好效果；同时基于StrucTexT打造数字化医疗理赔方案，助力企业无纸化办公、数字化转型。

业界首个中英文字段级多模态特征增强OCR结构化模型StrucTexT

现有的OCR结构化方案可以分为文本信息提取方法，图像信息提取方法和多模态信息提取方法：

文本信息提取方法：基于自然语言处理，提取图像中的文字序列，利用命名实体识别技术标记文本语义实体；
图像信息提取方法：基于检测分割等计算机视觉任务，定位文本实体的图像区域；
多模态信息提取方法：档案、票据、卡证等富视觉文本图像具有文字、图像（纹理，颜色、字体等）、布局（空间位置）的多重属性。这类方法综合采用多模态线索进行建模，表现出更优的效果。

近两年，多模态预训练技术的加持给OCR结构化模型性能和泛化性带来了显著收益。然而，现有的预训练模型主要在字符（中文上为单字，英文上为单词）粒度进行建模，忽略了文本在图像上的视觉文字行结构特性，难以对文档语义和视觉信息进行高效表示。

为了解决这一问题，百度OCR提出联合字符级别和字段级别的多模态预训练模型——StrucTexT：

1.首创字段级多模态特征增强：提出字段级文档结构建模，结合文本序列，提出遮罩式视觉语言模型、字段长度预测、字段方位预测，更有效理解富视觉文档。

2.中英文场景上效果全面领先：覆盖4w+中英文常见字词，实现业界最大规模5千万OCR中英文场景数据预训练，深度挖掘不同模态间的语义关联。

3.完备的OCR字段解析能力：基于双粒度输出框架，灵活的建模粒度选择，可支持字符信息抽取、字段信息抽取和字段连接预测三种结构化信息提取任务。

4.单模型支持多个下游任务：支持中英混合场景的OCR场景，单模型可并行处理多个下游任务。

StrucTexT是一个基于双粒度表示的多模态信息提取模型。除了采用字符粒度建模文本之外，StrucTexT利用字段组织文档视觉线索，并构建字符和字段的匹配关系对齐图像与文本特征。在多模态信息表示上，StrucTexT构建文本、图像和布局的多模态特征，并提出“遮罩式视觉语言模型”，“字段长度预测”和“字段方位预测”三种自监督预训练任务促进跨模态特征交互，帮助模型学习模态间的信息关联，增强对文档的综合理解能力。另外，StrucTexT支持中英双语编码。在双粒度表征下，模型能够实现字符和字段粒度的信息抽取任务，实现灵活选型和场景适配。

多粒度建模 + 多模态特征

= StrucTexT效果全面领先

基于多粒度建模和多模态特征增强，StrucTexT在OCR结构化的3种任务场景、4个数据集的6项榜单上均取得了业界领先的效果。

1.字符信息抽取任务：StrucTexT基于预训练模型使用字符粒度的分类方式，在中文试卷数据集EPHOIE上取得了99.30%的卓越效果。

2.字段实体分类： StrucTexT使用字段特征进行实体分类，在票据信息抽取集合SROIE，英文表单数据集合FUNSD和中文表单数据集合XFUND-CHN三个数据集上达到SOTA。值得一提的是，后两者任务上采用的是同一个finetuned模型，实现中英文应用场景的统一。

其中，StrucTexT在SROIE上预测结果字段F1值为98.70%，位列榜单第一名。

在FUNSD和XFUND数据集上，StrucTexT对预定义的四类实体类别进行分类，large模型在两个数据集上的F1值分别达到87.56%和92.29%。

3.实体关系预测：即判断语义实体之间是否存在连接关系，StrucTexT在FUNSD和XFUN数据集上以8%以上的大幅度领先优势，刷新了SOTA指标。

StrucTexT强力支持，

医疗理赔场景复杂票据识别也通通拿下

医疗保险理赔是OCR结构化信息提取的重要应用场景。中国商业健康保险近十年的年复合增长率超过28%，2020年健康险保费收入超8000亿。银保监会提出力争到2025年，商业健康保险市场规模超2万亿元。随着健康险业务的快速发展，保险公司要处理的理赔案件日益增长。

传统保险公司通过人力进行核保，理赔人员手动录入票面上的内容信息，少则十几条，多则数十条。理赔录入审核团队规模逐年递增。大量成本的投入给公司运营带来了巨大压力。为了提升业务效率，降低运营成本，利用人工智能技术实现智能化理赔成为保险公司改善理赔流程的最好助力。

实现自动化理赔，准确识别医疗影像的信息是关键。然而，医疗影像识别场景较为复杂，准确的OCR结构化提取信息是一个长期困扰业界的难题：

1.票据种类繁多：单单常见的清单、发票、检验报告单就有上百余种。

2.票据版式不一：各个省市医院输出版面各有不同，形式纷繁复杂。医疗机构为了方便，往往不按照规范打印，内容排版极为随意，存在遮挡、偏移、叠字等较强干扰。

3.图像采集不规范：健康险属于C端服务，用户拍照行为不规范，单据存在折损、弯曲、形变等问题，上传的图像质量不高。

4.票据排版复杂：医疗单据属于多类型文字混排，包含中英文、数字和特殊符号，文字识别难度大。

针对上述问题，百度基于业界领先的OCR识别能力以及StrucTexT OCR结构化技术能力，与大型保险公司进行合作，构建数字化医疗理赔方案。得益于StrucTexT模型对泛版式的多种复杂医疗影像的OCR结构化能力，通过结合行业业务术语，研发医疗影像结构化信息提取能力，在上层进行专业术语标准化输出，实现核保系统智能化。目前，搭载了医疗影像OCR结构化能力的医疗理赔方案，已经在多家客户的实际理赔核保业务中得以应用，其中某保险行业头部客户采集能效提升了4倍。

医疗发票OCR结构化：

检查诊断报告OCR结构化：

费用结算单OCR结构化：

医学检验报告OCR结构化：

出院小结OCR结构化：

结束语

2020年9月22日，中国在第七十五届联合国大会上提出：“中国将提高国家自主贡献力度，采取更加有力的政策和措施，二氧化碳排放力争于2030年前达到峰值，努力争取2060年前实现碳中和”。OCR结构化是实现信息电子化、办公智能化的基础核心技术。在日常工作中存在海量的卡证、票据和富文档图片数据，需要进行OCR识别和结构化录入。基于中英文字段级多模态特征增强的OCR结构化模型StrucTexT，可以对社会各行各业的办公流程输入、各类文档证件进行数字化录入，为促进无纸化办公、企业数字化转型、实现国家“双碳”目标奠定了良好的基础。

目前StrucTexT模型已经在飞桨PaddlePaddle上开放，了解更多StrucTexT技术细节，可以通过以下链接：

StrucTexT论文地址：

https://arxiv.org/abs/2108.02923

StrucTexT开放模型：

https://github.com/PaddlePaddle/VIMER/tree/main/StrucTexT

关注公众号，获取更多技术内容~

‍

革新OCR结构化技术应用，揭秘百度中英文OCR结构化模型StrucTexT预训练模型相关推荐

Linux 容器化技术详解（虚拟化、容器化、Docker）
虚拟化是过去用来充分利用物理资源的最常用方法.早年间,我们可以用一台服务器运行一个操作系统,处理一个任务,带来的问题是资源利用率极其不足,计算机的潜能并不能完全发挥,而后多道批处理系统.分时系统相继出 ...
独家揭秘！史上最强中文NLP预训练模型 | 直播报名中
编辑部发自凹非寺量子位报道 | 公众号 QbitAI 随着AI的快速发展,相信"深度学习"对大部分人来说已经不是一个陌生的概念了.通过深度学习,计算机能够在围棋.电子竞技 ...
Android插件化开发指南——插件化技术简介
文章目录 1. 为什么需要插件化技术 2. 插件化技术的历史 3. 插件化实现思路 3.1 InfoQ:您在 GMTC 中的议题叫做<Android 插件化:从入门到放弃>,请问这个标题代 ...
【Android 插件化】多开原理 | 使用插件化技术的恶意应用 | 插件化的其它风险 | 应用开发推荐方案
文章目录一.多开原理二.使用插件化技术的恶意应用三.插件化的其它风险四.应用开发推荐方案一.多开原理插件化的优点就是可以实现应用的多开 , 利用该多开虚拟化引擎 , 用户可以同时登录多个 ...
容器化技术最佳实践1--容器化技术简介与Docker入门
容器化技术最佳实践1–容器化技术简介与Docker入门文章目录容器化技术最佳实践1--容器化技术简介与Docker入门容器化简介通过虚拟化了解容器化对开发和运维的好处容器化部署特点什么情 ...
容器化技术（Docker相关）
容器化技术的背景是什么? 在软件开发过程中环境配置永远是最让人头疼的在开发之前我们需要准备各种运行环境.IDE及辅助工具同时软件部署也为程序员的谢顶助力三分. 搭建不同语言.不同技术栈适配的运行环境还 ...
【池化技术】池化技术基础和原理
文章目录一.概念二.应用 1. 线程池 2. 连接池 3.内存池三.实例一.概念池化技术指的是提前准备一些资源,在需要时可以重复使用这些预先准备的资源. 在系统开发过程中,我们经常会用到池化 ...
OCR字符检测技术：常见的OCR字符识别算法
随着机器视觉的发展,光学字符识别(Optical Character Recognition,OCR)技术得到越来越广泛的应用.OCR字符检测是通过光学图像采集设备采集图像,接着基于图像处理系统进行图 ...
国航APP接入百度大脑OCR身份证识别技术，让机票购买更便捷！
价值成果中国国航APP通过接入百度大脑OCR身份证识别技术,实现了旅客线上自助修正错购机票信息的功能.购票信息错误的旅客只需在中国国航APP上传身份证照片,即可进行购票身份认证,并立即修正错误信息. ...
百度大脑 OCR 技术加持白描 App ：让 AI 成为视障者的眼睛
现实中,你可以轻松无障碍的阅读各类平面印刷文字以及身边的一切,或许你未曾想过,视障人群该怎么办呢? 统计数据显示,中国大约有1700万的视障群体,相当于每100个人中就有超过1位是视障人士.但我们在日 ...

革新OCR结构化技术应用，揭秘百度中英文OCR结构化模型StrucTexT预训练模型

革新OCR结构化技术应用，揭秘百度中英文OCR结构化模型StrucTexT预训练模型相关推荐

最新文章

热门文章