HMER论文系列
1、论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客
2、论文阅读和分析:Syntax-Aware Network for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客
3、论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation_KPer_Yang的博客-CSDN博客
4、 论文阅读和分析:Watch, attend and parse An end-to-end neural network based approach to HMER_KPer_Yang的博客-CSDN博客
5、 论文阅读和分析:Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客
6、 论文阅读和分析:Mathematical formula recognition using graph grammar_KPer_Yang的博客-CSDN博客
7、 论文阅读和分析:Hybrid Mathematical Symbol Recognition using Support Vector Machines_KPer_Yang的博客-CSDN博客
8、论文阅读和分析:HMM-BASED HANDWRITTEN SYMBOL RECOGNITION USING ON-LINE AND OFF-LINE FEATURES_KPer_Yang的博客-CSDN博客

目录

  • 1.主要内容:
  • 2.树解码器
  • 3、损失函数
  • 4、结论:
  • 参考:

1.主要内容:

(1、提出创新的树结构解码器来表示树、输出树、优化基于注意力的编解码框架;

(2、设计一个问题说明特别是在复杂结构时字符解码失败的背后原因,图示解释为什么树结构在解码过程中使得更优的解码能力;

(3、证明在化学式识别和数学公式识别上,树解码器的有效性;

2.树解码器

Figure 5. Illustration of tree decoder, including parent decoder part, child decoder part, memory attention part and an optional relation prediction part. “Pred” is short for “prediction”

树解码器使用GRU和注意力机制生成一系列的子树结构:
( o 1 c , o 1 p ) , ( o 2 c , o 2 p ) , … , ( o T c , o T p ) . (o_{1}^{\mathrm{c}},o_{1}^{\mathrm{p}}),(o_{2}^{\mathrm{c}},o_{2}^{\mathrm{p}}),\ldots,(o_{T}^{\mathrm{c}},o_{T}^{\mathrm{p}}). (o1c​,o1p​),(o2c​,o2p​),…,(oTc​,oTp​).
需要添加一些规则,限制:

(1、每个孩子节点必须有一个父节点,因此不存在孤立节点;

(2、父节点必须是一个现存的节点;

2.1、parent解码器和child解码器
使用循环神经网络、注意力机制:

2.2、基于记忆的注意力

生成中间父亲节点序列和为训练父亲解码器的目标函数
d t j m e m = tanh ⁡ ( W m e m s t p + U m e m b e r s s j m e m ) \mathbf{d}_{tj}^{\mathrm{m}em}=\tanh(\mathbf{W}_{\mathrm{mem}}\mathbf{s}_t^{\mathrm{p}}+\mathbf{U}_{\mathrm{members}}\mathbf{s}_{j}^{\mathrm{mem}}) dtjmem​=tanh(Wmem​stp​+Umembers​sjmem​)
G t j m e m = σ ( ν m e m T d t j m e m ) G^{\mathrm{m}em}_{tj}=\sigma(\mathbf{\nu}^{\mathrm{T}}_{\mathrm{mem}}\mathbf{d}^{\mathrm{mem}}_{tj}) Gtjmem​=σ(νmemT​dtjmem​)

s t p \mathbf{s}_t^p stp​:父亲解码器状态;

s j m e m \mathbf{s}_j^{mem} sjmem​:孩子解码器状态 s t c \mathbf{s}_t^c stc​存储,作为key;

父亲节点二分类训练损失:
L p = − ∑ t ∑ j [ G ˉ t j m e m log ⁡ ( G t j m e m ) + ( 1 − G ˉ t j m e m ) log ⁡ ( 1 − G t j mem ) ] \begin{aligned}\mathcal{L}_\mathrm{p}=-\sum_t\sum_j[\bar{G}_{tj}^\mathrm{mem}\log(G_{tj}^{\mathrm{mem}})\\ +(1-\bar{G}_{t j}^\mathrm{mem})\log(1-G_{tj}^\text{mem})]\end{aligned} Lp​=−t∑​j∑​[Gˉtjmem​log(Gtjmem​)+(1−Gˉtjmem​)log(1−Gtjmem​)]​
G ˉ t j m e m \bar{G}_{tj}^\mathrm{mem} Gˉtjmem​:父亲节点的ground-truth;如果 j − t h j-th j−th孩子节点被存储在内存中是step t t t的父亲节点则是1,否则是0;

在测试阶段,选择作为父亲节点;
o j ^ c , j ^ = argmax ⁡ ( G t j mem ) o^c_{\hat{j}},\hat{j}=\operatorname{argmax}(\mathbf{G}_{tj}^{\text{mem}}) oj^​c​,j^​=argmax(Gtjmem​)
2.4、关系预测

正如父亲上下文向量和孩子上下文向量包含空间信息,加上父亲节点和孩子节点的内容信息,可以计算关系:
p r e ( o t r e ) = s o f t m a x ( W o u t r e ( c t p , c c ) ) p^{\mathrm{re}}(o_t^{\mathrm{re}})=\mathrm{softmax}\left(\mathbf{W}^{\mathrm{re}}_{\mathrm{out}}(\mathbf{c}_t^{\mathrm{p}},\mathbf{c}^{\mathrm{c}})\right) pre(otre​)=softmax(Woutre​(ctp​,cc))
损失函数:
L r e = − ∑ t log ⁡ p r e ( v t ) \mathcal{L}_{\mathrm{re}}=-\sum_t\log p^{\mathrm{re}}(v_t) Lre​=−t∑​logpre(vt​)
2.5、实现在父亲注意力和孩子注意力的正则化

在不同时间步中的孩子节点,可能有相同的父亲节点,这时不同时间步的孩子节点的父亲节点的注意力概率是相似的。
L r e g = − ∑ t α ^ t p log ⁡ α ^ t p α t P \mathcal{L}_{\mathrm{reg}}=-\sum_t\hat{\alpha}_t^{\mathrm{p}}\log\dfrac{\hat{\alpha}_t^\mathrm{p}}{\alpha_t^\mathrm{P}}\quad Lreg​=−t∑​α^tp​logαtP​α^tp​​

3、损失函数

O = λ 1 L c + λ 2 L p + λ 3 L r e + λ 4 L r e g O=\lambda_1\mathcal{L_c}+\lambda_2\mathcal{L_p}+\lambda_3\mathcal{L_\mathfrak{re}}+\lambda_4\mathcal{L_{\mathfrak{reg}}} O=λ1​Lc​+λ2​Lp​+λ3​Lre​+λ4​Lreg​

实验经验上: λ 1 = λ 2 = 1 ; λ 4 = 0.1 ; \lambda_1=\lambda_2=1;\lambda_4=0.1; λ1​=λ2​=1;λ4​=0.1;如果是数学公式识别 λ 3 = 1 \lambda_3=1 λ3​=1,如果是化学式识别 λ 3 = 0 \lambda_3=0 λ3​=0;

4、结论:

Table 1. Evaluation of math formula recognition systems on CROHME 2014, CROHME 2016 and CROHME 2019 test sets (in %). “ExpRate”, “≤ 1 s.error” and “≤ 1 s.error” means expression recognition rate when 0 to 2 symbol or structural level errors can be tolerated, “StruRate” means structure recognition rate.

Figure 8. Split the SMILES test set into four sub-sets (“Easy”, “Normal”, “Hard”, “Massive”) based on the length of testing SMILES strings.

Table 3. Recognition rate comparison (in %) between string decoder and tree decoder on SMILES dataset. “Easy”, “Normal”, “Hard”, “Massive” denote the four sub-sets of test set with different length of SMILES string, “All” means the overall recognition rate on the whole test set (in %). “SD” and “TD” refer to string decoder and tree decoder based approaches, respectively.

参考:

A Tree-Structured Decoder for Image-to-Markup Generation (ustc.edu.cn)

论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation相关推荐

  1. 论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER

    HMER论文系列 1.论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客 2.论文 ...

  2. 论文阅读和分析:Hybrid Mathematical Symbol Recognition using Support Vector Machines

    HMER论文系列 1.论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客 2.论文 ...

  3. 论文阅读和分析: “How Attentive are Graph Attention Networks?”

    下面所有博客是个人对EEG脑电的探索,项目代码是早期版本不完整,需要完整项目代码和资料请私聊. 数据集 1.脑电项目探索和实现(EEG) (上):研究数据集选取和介绍SEED 相关论文阅读分析: 1. ...

  4. 论文阅读和分析:《DeepGCNs: Can GCNs Go as Deep as CNNs?》

    下面所有博客是个人对EEG脑电的探索,项目代码是早期版本不完整,需要完整项目代码和资料请私聊. 数据集 1.脑电项目探索和实现(EEG) (上):研究数据集选取和介绍SEED 相关论文阅读分析: 1. ...

  5. 论文阅读之Discrete Opinion Tree Induction for Aspect-based Sentiment Analysis

    文章目录 论文概要 模型与公式介绍 基本变量定义 构造意见树 用GCN编码意见树 输出层 损失函数 实验结果 总结 参考 论文概要 依赖树与图神经网络被广泛用于基于方面的情感分类.尽管这些方法很有效, ...

  6. 【论文阅读笔记|ICLR2021】TANL:Structured Prediction as Translation between Augmented Natural Languages

    论文题目:Structured Prediction as Translation between Augmented Natural Languages 论文来源:ICLR2021 论文链接:210 ...

  7. 【保姆级】论文阅读与分析《Learning Heterogeneous Knowledge Base Embeddings for Explainable Recommendation》

    <Learning Heterogeneous Knowledge Base Embeddings for Explainable Recommendation>-by Qingyao A ...

  8. 论文阅读(二):Decomposing Motion and Content for Video Generation

    Abstract 提出的方法: 视频中的视觉信号可以分成内容和动作两部分 内容->视频中有什么 动作->描述运动 分解内容和运动的视频生成:将随机向量序列映射成视频序列 每个随机向量包括内 ...

  9. 【论文阅读翻译】A STRUCTURED SELF - ATTENTIVE SENTENCE EMBEDDING

    [论文阅读翻译]A STRUCTURED SELF - ATTENTIVE SENTENCE EMBEDDING Abstruct 1. Introducion 2. Approach 2.1 Mod ...

最新文章

  1. Sql Server 2005 中的row_number() 分页技术
  2. QT-qevent 事件的accept()和ignore()
  3. Linux6、7 系列 安装、卸载mysql
  4. Linux版本的安装文件jdk,tomcat
  5. php常考面试题,面试常见的几道PHP面试题
  6. css小球落地阴影,CSS3球体掉落动画带阴影效果
  7. 最强的linux命令总结.pdf
  8. 手把手学习企业型网站之三firework做顶部的banner+nav
  9. python中颜色表_python 颜色表
  10. 多项目管理中PMO的作用
  11. 老狗——python求中位数
  12. CentOS7安装CA根证书
  13. android dismiss方法,Android Dialog.dismiss()与Activity.finish()顺序
  14. 学单片机之前需要做哪些准备?
  15. 从零开始水安卓——APP内容共享
  16. mysql 派生表 索引_MySQL 索引初探
  17. provide 与 inject 的使用
  18. Python中汉字繁简体互转
  19. HTML实现领取QQ名片赞,易语言领取QQ名片赞
  20. matlab nag 工具箱,matlab 数值算法工具箱 NAG toolbox

热门文章

  1. iOS获取设备的序列号,自定义名,设备名,手机版本号,手机序列号,,手机型号,地方型号,当前App名称,App版本号......
  2. 嵌入式处理器DCD和SPACE区别,全局变量,局部变量,程序的栈,堆,程序编译结果的占用空间意思
  3. UDS诊断系列之十 DTC控制(85)服务
  4. ubuntu16.04 svn配置
  5. python制作应用程序_如何将python应用制作成容器镜像?
  6. jQuery实现网易相册鼠标移动显示隐藏效果
  7. Top 命令中的 Irix 模式与 Solaris 模式(解释单个进程cpu占比为何会超过100%?)
  8. 推荐几个程序设计竞赛网站
  9. 洛谷小游戏大全(用洛谷的人都得知道)
  10. 踩坑~CSS~8 位16 进制颜色