摘要:在文档图像中提取关键信息在自动化办公应用中至关重要。传统基于模板匹配或者规则的方法,在通用性方面、未见过版式模板数据方面,效果都不好;为此,本文提出了一种端到端的空间多模态图推理模型(SDMG-R),能有效的从未见过的模板数据中提取关键信息,并且通用性更好。

本文分享自华为云社区《论文解读系列十二:SDMG-R结构化提取—无限版式小票场景应用》,作者:一笑倾城 。

源码:https://github.com/open-mmlab/mmocr/tree/4882c8a317cc0f59c96624ce14c8c10d05fa6dbc

1 背景

在文档图像中提取关键信息在办公自动化应用中至关重要,比如常见的存档文件、收据小票、信用表单等数据场景快速自动化归档、合规性检查等等。传统基于模板匹配或者规则的方法,主要利用的固定版式模板数据的布局、位置坐标信息、内容规则等,这些信息局限性很强,因此在通用性方面、未见过版式模板数据方面,效果都不好。为此,本文提出了一种端到端的空间多模态图推理模型(SDMG-R),能充分利用检测文本区域的位置布局、语义、视觉信息,相比之前获取的信息的更充分丰富,因此能有效的从未见过的模板数据中提取关键信息,并且通用性更好。

2 创新方法及亮点

2.1 数据

在之前的关键信息抽取任务中,常用的数据集大部分是SROIE、IEHHR,但是他们训练集、测试集有很多公共模板版式,因此不太适合去评估或验证通用信息提取模型的通用能力;基于以上原因,本文构建一套新的关键信息抽取任务的数据集,并命名为WildReceipt:由25个类别组成,大概有50000个文本区域,数据量是SROIE的两倍以上,详细信息如下表格2-1所示:

表2-1 关键信息抽取任务数据集

2.2 创新点及贡献

本文提出的SDMG-R在SROIE数据集和WildReceipt数据集上都获得比较好的效果,并优于之前的方法模型。本文作者还去做了相关消融实验,并验证了本文提出的空间关系信息和多模态特征都对关键信息提取有着非常重要的影响。具体创新及贡献如下:

  • 提出了一种有效的空间多模态图推理网络(SDMG-R),能充分利用文本区域的语义、视觉两个维度的空间特征关系信息;
  • 构建了一套基准数据集(WildReceipt),是SROIE数据量的两倍,而且训练集版式模板和测试集版式模板交叉很少,因此可以用来做些通用关键信息抽取任务的探索研究;
  • 本文利用了视觉、语义特征,如何利用好两者数据,本文做了相关验证:特征融合方法的有效性(CONCAT、线性求和、克罗内克积),最终结果克罗内克积比其他两种特征融合方法高两个点左右,如下表格2-2所示:

表2-2 特征融合方法对比结果

3 网络结构

SDMG-R模型整个网络结构如下图3-1所示,模型输入数据由图片、对应文本检测坐标区域、对应文本区域的文本内容,视觉特征通过Unet及ROI-Pooling进行提取,语义特征通过Bi-LSTM进行提取,然后多模态特征通过克罗内克积进行融合语义、视觉特征,然后再输入到空间多模态推理模型提取最终的节点特征,最后通过分类模块进行多分类任务;

图3-1 SDMG-R网络结构

3.1 视觉特征提取详细步骤:

  1. 输入原始图片,resize到固定输入尺寸(本文512x512);
  2. 输入到Unet,使用Unet作为视觉特征提取器,获取得到CNN最后一层的特征图;
  3. 将输入尺寸的文本区域坐标()映射到最后一层CNN特征图,通过ROI-pooling方法进行特征提取,获取对应文本区域图像的视觉特征;

3.2 文本语义特征提取详细步骤:

  1. 首先收集字符集表,本文收集了91个长度字符表,涵盖数字(0-9)、字母(a-z,A-Z)、相关任务的特殊字符集(如“/”, “n”, “.”, “$”, “AC”, “ ”, “¥”, “:”, “-”, “*”, “#”等),不在字符表的字符统一标记成“unkown”;
  2. 其次,然后将文本字符内容映射到32维度的one-hot语义输入的编码形式;
  3. 然后输入到Bi-LSTM模型中,提取256维度语义特征;

3.3 视觉+文本语义特征融合步骤:

3.4 空间关系多模态图推理模型:

最终的节点特征通过多模态图推理模型完成,公式如下:

3.5 多分类任务模块

根据图推理模型获取节点的特征,最后输入到分类模块,通过多分类任务输出最终的实体分类结果,损失函数使用的是交叉熵损失,公式如下:

4 实验结果

在SROIE数据集的结果如下表4-1所示:

表4-1 SROIE的精度

在WildReceipt测试集的结果如下表4-2所示:

表4-2 WildReceipt的精度

点击关注,第一时间了解华为云新鲜技术~

带你读AI论文:SDMG-R结构化提取—无限版式小票场景应用相关推荐

  1. 带你读AI论文丨RAID2020 Cyber Threat Intelligence Modeling GCN

    摘要:本文提出了基于异构信息网络(HIN, Heterogeneous Information Network)的网络威胁情报框架--HINTI,旨在建模异构IOCs之间的相互依赖关系,以量化其相关性 ...

  2. 带你读AI论文:NDSS2020 UNICORN: Runtime Provenance-Based Detector

    摘要:这篇文章将详细介绍NDSS2020的<UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats& ...

  3. 带你读AI论文丨ACGAN-动漫头像生成

    摘要:ACGAN-动漫头像生成是一个十分优秀的开源项目. 本文分享自华为云社区<[云驻共创]AI论文精读会:ACGAN-动漫头像生成>,作者:SpiderMan. 1.论文及算法介绍 1. ...

  4. 带你读AI论文丨用于细粒度分类的Transformer结构—TransFG

    摘要:本文解读了<TransFG: A Transformer Architecture for Fine-grained Recognition>,该论文针对细粒度分类任务,提出了对应的 ...

  5. 带你读AI论文丨SP21 Survivalism: Living-Off-The-Land 经典离地攻击

    摘要:这篇文章属于系统分析类的文章,通过详细的实验分析了离地攻击(Living-Off-The-Land)的威胁性和流行度,包括APT攻击中的利用及示例代码论证. 本文分享自华为云社区<[论文阅 ...

  6. 带你读AI论文丨用于目标检测的高斯检测框与ProbIoU

    摘要:本文解读了<Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection&g ...

  7. 带你读AI论文:基于Transformer的直线段检测

    摘要:本文提出了一种基于Transformer的端到端的线段检测模型.采用多尺度的Encoder/Decoder算法,可以得到比较准确的线端点坐标.作者直接用预测的线段端点和Ground truth的 ...

  8. 带你读AI论文丨LaneNet基于实体分割的端到端车道线检测

    摘要:LaneNet是一种端到端的车道线检测方法,包含 LanNet + H-Net 两个网络模型. 本文分享自华为云社区<[论文解读]LaneNet基于实体分割的端到端车道线检测>,作者 ...

  9. 海量结构化数据解决方案-表格存储场景解读

    简介: 数据是驱动业务创新的最核心的资产.不同类型的数据如非结构化数据(视频.图片等).结构化数据(订单.轨迹),面向不同业务的使用要求需要选择适合的存储引擎,能够真正发挥数据的价值.针对于海量的非强 ...

最新文章

  1. 在高并发分布式情况下生成唯一标识id
  2. [原创]Coding4Fun检测你的网络,用C#获取本机TCP、UDP状态及连接(二)
  3. 搭配飞行员 dinic
  4. 关于字符集报错显示“255”Unknown initial character set index '255' received from server.
  5. 大家都在说的分布式系统到底是什么
  6. 由旅行商问题认识何为状态压缩
  7. 如何帮孩子成为最好的自己
  8. 设计模式 - Visitor 模式(访问者模式)
  9. 一篇搞定导航守卫(vue-router源码学习)
  10. module 'scipy.misc' has no attribute 'imread' 报错解决
  11. 阿里CTO鲁肃:技术的想象力不应设限,未来所有应用的核心都离不开数据和智能...
  12. C++中打印可变参数函数输出到控制台
  13. kindeditor用法简介
  14. JAVA仿百度网盘(JAVA毕业设计)
  15. 如何在PDF文件中插入文本或图片?
  16. 报告解读下载 | 7月《中国数据库行业分析报告》重磅发布!精彩抢先看!
  17. 工程测量(建筑物施工、监测)
  18. 金仕达程序化交易平台初步设计
  19. 进程间通信(无名管道)
  20. Oracle greatest函数

热门文章

  1. Bootstrap 调用插件
  2. 天气预报为什么要用超级计算机,为什么天气预报不够准确?
  3. catia创成式外形设计如何将两个面相合_汽车研发:车门铰链设计及布置要求解析!...
  4. 相干光通信系统的调制与解调
  5. c语言程序设计指针教学,C语言程序设计中指针教学要点分析
  6. 输入一批整数,输出最大最小值,输入0结束
  7. SP1557 GSS2 - Can you answer these queries II
  8. 微信小程序|个人简历
  9. MyBatis自学(1):MyBatis概述
  10. 实现一个Golang的reverse函数