表格检测识别技术的发展历程
近年来,随着计算机技术的飞速发展,越来越多的研究者开始关注表格检测识别技术。表格检测识别技术是一种利用计算机自动处理表格的技术,它可以实现从文本中检测出表格,并进行识别和提取。这种技术有助于提高文本处理的效率,为计算机辅助知识发现和知识挖掘提供了支持。
表格检测和识别技术的发展可以追溯到20世纪80年代,当时,随着计算机技术的发展,人们开始尝试使用计算机来检测和识别文档中的表格。当时的技术主要以传统的计算机视觉技术为基础,包括图像处理、分类和特征提取等技术。早期的表格检测与识别研究主要是基于启发式规则的方法,即指定一组规则来进行决策,以便识别出满足特定条件的表格。
1980年代,Yann Le Cun教授在论文《模式识别的数字图像处理》中提出了第一个用于表格检测的神经网络。它引入了一种可用于提取表格边缘特征的滤波器,并将其用于训练模型。Le Cun的论文为表格检测识别技术的发展提供了基础。
1990年代,论文《利用结构特征进行表格检测》中提出了一种基于结构特征的表格检测算法论文利用表格中的斜线、网格线和表格边框等结构特征来检测表格,使表格检测技术发展到了新的高度。
2002年,论文《基于序列的表格检测》中提出了一种基于序列模式的表格检测算法。论文的方法使用序列模式来检测表格,并可以更好地处理复杂表格结构,为表格检测技术的发展带来了新的思路。
2008年,论文《基于统计模型的表格检测》中提出了一种基于统计模型的表格检测算法,可以有效地检测复杂的表格结构,为表格检测技术的发展做出了重大贡献。
21世纪初,由于计算机视觉技术的发展,学者们开始使用机器学习和深度学习技术来检测和识别表格。随着深度学习技术的发展,表格检测和识别技术也发生了巨大变化。深度学习技术为表格检测和识别技术带来了新的发展机遇,也为表格检测和识别技术提供了更加有效的解决方案。近年来,随着计算机技术的进一步发展,深度学习技术的不断演进,使表格检测和识别技术发展得更加迅速。表格识别也逐渐演变成了多个子研究领域,包括表格检测、表格结构识别、表格内容识别、端对端的表格检测与结构识别等。
2010年,微软研究院经过多年的研究,首次以自动化的形式检测和识别表格,开发了一个叫做“TableNet”的表格检测系统,该系统可以自动检测出网页上的表格,并将其转换为结构化的数据。这一技术的出现极大地推动了表格检测识别技术的发展。
2010年,论文《基于深度学习模型的表格检测》中提出了一种基于深度学习模型的表格检测算法。该论文引入了深度学习技术,提供了一种更加有效的方法来检测表格,为表格检测技术的发展提供了重要支持。
2011年,微软研究院在当年的国际图像处理会议上。发表了《表格识别:基于深度学习的方法》,基于深度学习的表格识别技术首次出现,这一技术能够识别文档中的表格,从而帮助用户快速提取文档信息。
2013年,随着深度学习技术的进一步发展,表格检测识别技术也取得了很大的进步,开发出了更加精细的检测和识别系统,能够支持更多复杂的文档类型,例如多行表格、多列表格等。
2015年,基于深度学习的表格检测识别技术又取得了一个重大突破,Yann Le Cun教授提出了基于深度神经网络的表格识别技术,它可以更好的处理复杂的表格,且具有较高的检测准确率和识别精度。
2017年,Google发布了第一个基于深度学习的表格检测模型“Google DocumentAI”,该模型可以在任何给定的图像中检测出表格,并将其转换为结构化的数据。这一技术的出现推动了表格检测识别技术的发展。
2018年,微软发布了一个称为“Azure Table Recognition”的表格检测模型,该模型可以识别复杂的表格,包括多列和多行表格,以及复杂结构的表格。同时支持表格结构自动进行抽取,一键提取表格数据,支持将表格数据转换为其他格式,支持在线识别表格。这一技术的出现,使表格检测别技术又上了一个新台阶。
2019年,经过多年研究,Google开发了一个称为“TableBank”的表格检测模型,该模型可以自动识别各种类型的表格,并将其转换为结构化的数据。同年,基于深度学习的表格检测识别技术又取得了又一个重大突破,提出了一种基于自注意力机制的表格检测与识别技术,它能够有效处理复杂的文档表格,且具有更高的准确率和精度。
目前,工业界已涌现了一大批表格检测和识别的服务。国外的一些大型云服务商已经在他们的平台上提供了表格检测和识别的功能,比如亚马逊的Textact服务,微软的Azure服务等。而在国内,既有一些提供表格检测和识别等云端基础服务的互联网公司,例如百度、 阿里巴巴、腾讯、华为和网易等,也有一些深耕于相关领域多年的专业服务提供商,例如合合信息等。
从表格结构识别的效果上看,国内目前已经处于世界较为领先的水平。2020年末和2021年初由IBM公司发起举办了ICDAR2021科学文档解析比赛,其中的任务二--表格识别任务,吸引了来自国内外的多个公司、学校参加。国内许多公司都参与了这场比赛,其中海康威视提出的LGPMA模型和平安科技提出的TableMaster模型分别取得了比赛的第一、二名。由此可见,在表格检测和结构识别的研究领域,尤其是在应用方面,国内的研究者已经取得了国际领先的地位。
在表格信息抽取方面,国内的研究者在基于图和基于二维特征网格的方法上居于世界领先地位,PICK,MatchVIE和ViBERTGrid等方法在各类信息抽取任务榜单中居于前列;国外的研究者在基于序列的方法上较为突出,提出了LAMBERT,TILT等一系列表现优异的模型,这与国外积累已久的语言模型发展经验密不可分,在基于二维特征网格的方法上国外起步更早,提出了Chargrid和BERTgrid等经典模型,而对于基于图的方法研究较少。总体而言,近年来国内外研究者对表格内容识别均有很高的研究热情,这一领域的方法也呈现出多样化发展的趋势。
参考文献:
Kong L J, Bao Y C, Wang Q W and Li H K. 2021. Summary of table detection and recognition algorithms based on deep learning. Computer & Network,47(02):65-73
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022. A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.
表格检测识别技术的发展历程相关推荐
- 目标检测近5年发展历程概述(转)
目标检测近5年发展历程概述,从R-CNN到RFBNet(2013--2018)(转) 2018年09月24日 12:32:02 C小C [时间]2018.09.24 [题目]目标检测近5年发展历程概 ...
- 常用的表格检测识别方法——表格结构识别方法 (下)
常用的表格检测识别方法--表格结构识别方法(下) 3.2表格结构识别方法 表格结构识别是表格区域检测之后的任务,其目标是识别出表格的布局结构.层次结构等,将表格视觉信息转换成可重建表格的结构描述信息. ...
- 常用的表格检测识别方法——表格结构识别方法(上)
第三章 常用的表格检测识别方法 3.2表格结构识别方法 表格结构识别是表格区域检测之后的任务,其目标是识别出表格的布局结构.层次结构等,将表格视觉信息转换成可重建表格的结构描述信息.这些表格结构描述信 ...
- 常用的表格检测识别方法-表格区域检测方法(上)
常用的表格检测识别方法 表格检测识别一般分为三个子任务:表格区域检测.表格结构识别和表格内容识别.本章将围绕这三个表格识别子任务,从传统方法.深度学习方法等方面,综述该领域国内国外的发展历史和最新进展 ...
- 常用的表格检测识别方法-表格内容识别方法
常用的表格检测识别方法 3.3 表格内容识别方法 表格识别的研究主要涉及两个方面,一方面是对单元格内的文本进行识别,这一步通常是在确定单元格区域后,利用较为稳定的光学字符识别方法(OCR)来实现,这一 ...
- 常用的表格检测识别方法——表格内容识别方法
第三章 常用的表格检测识别方法 3.3表格内容识别方法 表格识别的研究主要涉及两个方面,一方面是对单元格内的文本进行识别,这一步通常是在确定单元格区域后,利用较为稳定的光学字符识别方法(OCR)来实现 ...
- 自然场景文本检测识别技术集合(转)
本文及其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次. 书的购买链接 书的勘 ...
- java ocr 表格票据识别_OCR表格票据识别技术。
今天继续给大家带来OCR文字识别技术的产品,而今天为大家带来的产品是一款万能的产品哦,它就是--OCR表格票据识别技术. 表格票据识别产品SDK是一项通用的数据批量采集技术,适用于处理具有固定格式的表 ...
- 天然场景文本检测识别技术综述
这篇文章主要向大家介绍天然场景文本检测识别技术综述,主要内容包括基础应用.实用技巧.原理机制等方面,希望对大家有所帮助. 标签:html前端gitgithub算法网络框架机器学习ide函数 本文及其它 ...
最新文章
- 6.2 sql安全性
- Tensorflow基础入门十大操作总结
- 汇编-理解call,ret
- 认识计算机ppt封面,认识计算机.ppt
- Express请求处理-静态资源的处理
- XMPP键盘订制实现图文混排
- 做项目开发你必须得掌握的知识:设计模式
- 【基础操作】线性基详解
- python3 数组转字符串_Q:与python3交互中字符串转gbk的问题
- iOS推送机制下AppDelegate中代理函数执行顺序
- Vmware虚拟机的linux与主机共享
- opencv读取摄像头实时流代码
- 【图像加密】基于matlab GUI彩色图像加密解密(带面板)【含Matlab源码 1231期】
- Httpclient4 简介
- linux foxit,Foxit PDF SDK
- 详解u盘装系统找不到镜像文件怎么回事
- 飞鱼星流控王VF12路由器使用体验
- 在Android上启用Kiosk模式
- 国产手机均价下跌,苹果逆势增长,iPhone仍是消费者最爱
- Wireshark----wmem 内存池、内存管理的学习--README.wmem 翻译