本文简要介绍2018年5月被TMM录用论文“Track,Attend and Parse (TAP): An End-to-end Framework for Online Handwritten Mathematical Expression Recognition”的主要工作。该论文是2017年发表在ICDAR上的文章[1]的升级版,主要解决了在线手写数学公式的识别问题。该论文中介绍的方法获得了国际最大在线手写数学公式比赛CROHME2019的冠军,且是在未使用额外数据的情况下超过了有大量额外数据的国际企业参赛队伍,如MyScript,Wiris,MathType等,突出了该算法较传统数学公式识别算法的优势。

一、研究背景

手写数学公式识别较传统OCR问题而言,是一个更复杂的二维手写识别问题,其内部复杂的二维空间结构使得其很难被解析,传统方法的识别效果不佳。随着深度学习在各领域的成功应用,文章[2] [3]首次提出了基于深度学习的端到端离线数学公式算法,并在公开数据集上较传统方法获得了显著提升,开辟了全新的数学公式识别框架。然而在线手写数学公式识别框架还未被提出,论文TAP则是首个基于深度学习的端到端在线手写数学公式识别模型,且针对数学公式识别的任务特性提出了多种优化。

二、TAP原理简述

Fig.1. Overall architecture

Fig 1是TAP的整体结构。TAP遵循文章[2] [3]中的做法,将数学公式的树结构识别问题转换成了数学公式LaTeX字符串识别问题。这一思路的转换简化了数学公式识别问题,使端到端的识别成为了可能。TAP的基本框架为基于注意力机制的编解码模型,也称Encoder-Decoder模型[4],其将输入的轨迹点序列通过Encoder编码得到高维特征表达,依靠Attention机制找出高维特征中的关键部分以用于解码出当前时刻的LaTeX字符,直至解码结束。TAP延续了会议文章[1]中的Encoder框架,在Attention机制上针对在线手写公式识别提出了Spatial Attention, Temporal Attention, Attention Guider用于改善Attention的对齐以及Decoder的解码能力。文章中还利用了在线与离线两个模态之间的互补性进一步提升了手写识别性能。

Fig.2. Architecture of the hybridattention model

Fig 2是TAP所采用的Hybrid Attention机制,除了常用的Spatial Attention外,还采用了Temporal Attention机制。其中,Spatial Attention利用了Attention的历史信息以解决数学公式中多个同样数学字符出现时的对齐混淆问题。而Temporal Attention用于处理LaTeX中的结构字符的特殊对齐。因为在LaTeX的语法规则中,为了重现数学公式语言里的二维空间结构,需要额外有一些特殊的结构字符来形成语法,而这些特殊的结构字符在输入的数学公式中不存在,因而Spatial Attention无法完成对齐,此时则需要Temporal Attention来补足这个不存在的对齐空缺,既能不干扰Spatial Attention的学习,又能提高Decoder的解码能力,进一步提升性能。

Fig.3. Illustration of the attention guider

此外,TAP还采用了Attention Guider来强化Spatial Attention的学习,从Fig 3中可以看出,在使用了Attention Guider来引导Spatial Attention的学习后,Spatial Attention的对齐效果显著提升,十分精确,并且效果也反映到了最终的识别性能上。

三、主要实验结果及可视化效

TABLE 1. The recognition results on CROHME2014.

TABLE 2. The recognition results on CROHME2016.

由TABLE 1、TABLE 2来看,文章所提方案在CROHME2014和CROHME2016公开数据集上取得了state-of-the-art的结果,且较传统方法有巨大的提升,验证了该方法的有效性,且TAP展示的结果相对于会议版本也有了进一步的提升,体现了Hybrid Attention在纠正对齐和提升性能处起到了关键作用。

Fig.4. Visualization of temporal attention

Fig.5. Visualization of hybrid attention

Fig.6. Example of complementarity between online and offline modality

Fig 4是对于Temporal Attention的可视化,可见Temporal Attention能够很正确的帮助Spatial Attention区分结构字符和实体字符。Fig 5是对Hybrid Attention整体在一个手写数学公式实例上的可视化。Fig 6列出了一个手写数学公式在线和离线模态互补性的实例,由于存在倒笔现象,单纯的在线模型无法正确识别该例子,而通过离线模型的融合辅助最终使得这个公式例子被正确识别(由于符号定义过多,更详细的内容请参考原文,链接附后)。

四、总结及讨论

1. TAP-ICDAR版首次提出了基于深度学习的端到端在线手写数学公式识别模型,将树形结构识别问题巧妙转换成了LaTeX字符串识别问题,成功突破了传统方法在该问题上的性能瓶颈,开辟了全新的在线数学公式识别框架。

2. TAP-TMM相比TAP-ICDAR而言,进一步提出了Hybrid Attention,不仅提高了Attention的对齐准确度,也针对性的处理了LaTeX中结构字符的对齐和生成,且效果最终都很好的反映在了最终的识别性能上。此外,通过融合离线模态的全局特性,进一步提升了在线手写数学公式的识别率。

3. TAP中汇报出来的在CROHME2014及CROHME2016上的识别率,至今仍是最好的公开结果,相关算法也在CROHME2019竞赛上获得了第一名,并且在没有使用额外数据的情况便超越了其他使用大量额外数据的企业队伍。

五、相关资源

  • TAP-TMM论文地址: https://ieeexplore.ieee.org/document/8373726

  • TAP-ICDAR论文地址:https://arxiv.org/pdf/1712.03991.pdf

  • WAP论文地址: https://www.sciencedirect.com/science/article/pii/S0031320317302376

  • WYGIWYS论文地址: https://arxiv.org/pdf/1609.04938.pdf

  • Encoder-Decoder论文地址: https://arxiv.org/pdf/1409.0473v7.pdf

参考文献

[1] J. Zhang, J. Du, and L. Dai, “A GRU-based encoder-decoder approach with attention for online handwritten mathematical expression recognition,” ICDAR 2017, pp. 902-907.

[2] J. Zhang, et al, “Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition,” Pattern Recognition, vol. 71, pp. 196-206, 2017.

[3] Y. Deng, A. Kanervisto, J. Ling, and A. M. Rush, “Image-to-markup generation with coarse-to-fine attention,” ICML 2017, pp. 980-989.

[4] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,”arXiv: 1409.0473.

原文作者:Jianshu Zhang, Jun Du, Lirong Dai

撰稿:张建树

编排:高  学

审校:殷  飞

发布:金连文

免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


OCR交流群

关注最新最前沿的文本检测、识别、校正、预处理等技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:OCR)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

手写公式识别 :基于深度学习的端到端方法相关推荐

  1. 从手写数字识别入门深度学习丨MNIST数据集详解

    就像无数人从敲下"Hello World"开始代码之旅一样,许多研究员从"MNIST数据集"开启了人工智能的探索之路. MNIST数据集(Mixed Natio ...

  2. 利用python卷积神经网络手写数字识别_Keras深度学习:卷积神经网络手写数字识别...

    引言:最近在闭关学习中,由于多久没有写博客了,今天给大家带来学习的一些内容,还在学习神经网络的同学,跑一跑下面的代码,给你一些自信吧!Nice 奥里给! 正文:首先该impor的库就不多说了,不会的就 ...

  3. 基于深度学习的驾驶行为预测方法

    基于深度学习的驾驶行为预测方法 1 概述 2 深度学习算法 3 驾驶行为预测建模 4 结论 5 参考文献 6 python LSTM程序 7 python LSTM模型调用 1 概述 在汽车前向仿真中 ...

  4. matlab牙齿分割,基于深度学习的缺陷牙齿图像识别方法与流程

    本发明涉及口腔医学领域,特别是一种基于深度学习的缺陷牙齿图像识别方法. 背景技术: ::缺陷牙齿的早期诊断是口腔医学领域的一大难题.早期缺陷牙齿的累及区域隐蔽,准确的判断对临床医师治疗计划的制定非常重 ...

  5. 书法特征提取matlab,基于深度学习的软笔书法临摹评价方法与流程

    本发明属于计算机视觉技术领域,涉及手写汉字行书字体的评价,尤其是一种基于深度学习的软笔书法临摹评价方法. 背景技术: 书法是我国具有几千年历史的传统艺术,是我们中华民族的特色文化代表之一,它不仅记录着 ...

  6. 基于深度学习的显著性目标检测方法综述

    源自:电子学报       作者:罗会兰  袁璞  童康 摘 要 显著性目标检测旨在对图像中最显著的对象进行检测和分割,是计算机视觉任务中重要的预处理步骤之一,且在信息检索.公共安全等领域均有广泛的应 ...

  7. 深度学习——day38 读论文:基于深度学习的数据竞争检测方法(DeleRace计算机研究与发展 2022)

    基于深度学习的数据竞争检测方法 chap0 Introduction 本文贡献: 原文及笔记下载 chap1 DeleRace 1.1 检测框架 1.2 选取实际应用程序 1.3 特征提取 1.3.1 ...

  8. 基于深度学习的小目标检测方法综述

    随着深度学习的发展,基于深度学习的目标检测技术取得了巨大的进展,但小目标由于像素少,难以提取有效信息,造成小目标的检测面临着巨大的困难和挑战. 为了提高小目标的检测性能,研究人员从网络结构.训练策略. ...

  9. 无失真压缩法可以减少冗余_CVPR 2020 论文概述:基于深度学习的层级式视频压缩方法...

    在 CVPR 2020 论文<Learning for Video Compression with Hierarchical Quality and Recurrent Enhancement ...

最新文章

  1. 【Linux】44.设置ubuntu电脑为简单的密码
  2. 17、HTML单选按钮
  3. jmeter使用问题——将接口返回变量存储成csv文件
  4. java调用子系统代码_深入理解JAVA虚拟机-Idea远程执行本地Java代码 - Java 技术驿站-Java 技术驿站...
  5. MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
  6. 操作系统与存储:解析Linux内核全新异步IO引擎io_uring设计与实现
  7. 自然语言处理中的模式(模式0:模式无处不在模式)
  8. 演示: GTS流量×××和CAR流量监管的效果及相关实践计划
  9. thinkPHP利用ajax异步上传图片并显示、删除
  10. 前端学习---css基本知识
  11. ArrayList和Vector的区别
  12. static关键字(修饰函数、局部变量、全局变量)
  13. 玩游戏计算机丢失msvcp,Win10系统玩吃鸡提示游戏缺少msvcp140.dll的解决方法
  14. xshell和xftp免费版官方(家庭、学校版)下载
  15. 【读书笔记->统计学】11-01 总体和样本的估计-总体均值、样本均值、点估计量、总体方差、估计总体方差概念简介
  16. java实现统计pv和uv_shell统计pv与uv、独立ip的方法
  17. 全网最全面的python的讲解,讲的无可挑剔《记得收藏》
  18. Unity UGUI 背景图片自适应文字内容大小
  19. Edge浏览器安装油猴插件以及好用的插件推荐
  20. android 绘画笔迹回放_Android画板 半透明画笔 笔迹叠加效果

热门文章

  1. Promises 对比 callbacks
  2. Struts标签入门
  3. QT [007] QT UI 的控件操控问题 - 如何操控多嵌套的UI控件
  4. 密码学原理与实践_到底什么是防火墙入侵检测密码学身份认证?如何高效建立网络安全知识体系?...
  5. mvc模式 mysql做网页_SpringMVC + Hibernate + MySQL 的简易网页搭建(Control实现篇)
  6. 鸿蒙os什么时候用到手机,鸿蒙OS何时用在手机上?余承东称明年会有
  7. php状态,PHP 状态模式 - 304158的个人空间 - OSCHINA - 中文开源技术交流社区
  8. java 规则引擎_【java规则引擎】java规则引擎搭建开发环境(示例代码)
  9. 计算机病毒中毒该怎么办,电脑中毒后该怎么杀毒呢?
  10. linux fips 模式,linux – FIPS Capable OpenSSL交叉编译:内容指纹问题