Attention OCR 历史意义: 开创了基于attention机制建模OCR问题的先河。

本文主要结构如下:

一、Abstract

介绍提出attention-based OCR模型的优势

1. 论文提出基于attention模型取得更高的准确率

2. 模型结构简单,通用性更高

3.充足的实验给出有效结论

二、Introduction

介绍当前OCR领域研究的主流方法,分别有不同的缺点,文末提出模型优点及创新

三、The Proposed Network Architecture

提出OCR模型分模块介绍,包括CNN layer、RNN layer、Spatial attention layer、多视点操作、训练

模型主要结构如图1所示: 首先经过一个CNN layer提取图像特征,然后通过attention特征输入到RNN中

CNN layer: 本文采取三种CNN模型,主要有inception-v2、inception-v3以及inception-resnet-v2, 图像模型提取后的特征用fijc来表示,i,j表示图像上的位置,c表示channel的索引

RNN layer:

1. Ut,c 表示at权重值和图片的特征值对应相乘加和

2. t时刻RNN模型的输入xt表示t-1时刻字符的one-hot索引值 与 参数矩阵 对应相乘 ➕ t-1时刻的Ut-1,c与 参数矩阵的乘积(下面公式2)

3. RNN模型的输入: xt 以及RNN模型t-1时刻的输出

4. RNN模型的输出: Ot, St

5. 将Ot和Ut乘参数矩阵通过一个softmax得到Ot', 最后获取每个字符的概率值,值最大的表示label

Spatial attention: 主要是将channel的i和j位置向量onehot加入到输入tanh函数中(local aware attention)

四、Dataset

主要介绍两种数据集-FSNS Dataset、Google Street View

五、Experiment

统领全文、再次重申提出的attention模型优势,实验结果表明使用location aware attention可以提升9个百分点,并且证明了特征提取网络深度对准确率的影响,最后进行错误分析以及可视化展示

六、Conclusion

结论及展望

关键点:

1. 特征提取: CNN

2. 语言模型: RNN

3. 自回归: Attention

创新点:

1. 基于Attention机制实现OCR模型

2. 模型自回归

其发点:

对于图像特征提取而言,网络深度不是越深越好,过于深反而会引入噪音

七、Code

https://github.com/tensorflow/models/tree/master/research/attention_ocr

Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)相关推荐

  1. Attention-based Extraction of Structured Information from Street View Imagery:基于注意力的街景图像提取结构化信息

    基于注意力的街景图像提取结构化信息 一种用于真实图像文本提取问题的TensorFlow模型. 该文件夹包含在FSNS数据集数据集上训练新的注意OCR模型所需的代码,以在法国转录街道名称. 您还可以使用 ...

  2. BERT gated multi-window attention network for relation extraction 用于关系抽取的BERT门控多窗口注意力网络

    BERT gated multi-window attention network for relation extraction 用于关系抽取的BERT门控多窗口注意力网络 Abstract 实体关 ...

  3. Information Extraction over Structured Data: Question Answering with Freebase【论文笔记】

              Information Extraction over Structured Data:Question Answering with Freebase 一.摘要 最近,人们一直在 ...

  4. 论文阅读课8-Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge

    文章目录 Abstract 1.Introduction 2.相关工作 3. 方法 3.1 输入 3.1.1 字符级别表示 3.1.2单词级表示 3.2encoder 3.2.1 base latti ...

  5. Attention?Attention!

    下文主要是结合自己的理解翻译自:Attention?Attention! 注意力(Attention)在近些年成为深度学习领域一个极其受欢迎的概念,同时作为一个强有力的工具也被集成到了各种模型中来处理 ...

  6. 用于图像描述的注意上的注意模型《Attention on Attention for Image Captioning》

    <Attention on Attention for Image Captioning> Tiám青年 2019-11-17 23:21:10 2108 收藏 5 分类专栏: 计算机视觉 ...

  7. Pay more attention to attention...Sergey Zagoruyko论文解读及代码解释

    pay more attention to attention: improving the performance of convolutional neural networks via atte ...

  8. DL之Attention:Attention注意力机制的简介、应用领域之详细攻略

    DL之Attention:Attention注意力机制的简介.应用领域之详细攻略 目录 Attention的简介 1.Why Attention? 2.Attention机制的分类 3.Attenti ...

  9. PAYING MORE ATTENTION TO ATTENTION:

    PAYING MORE ATTENTION TO ATTENTION : IMPROVING THE PERFORMANCE OF C NVOLUTIONAL NEURAL NETWORKS VIA ...

最新文章

  1. java Executor实例_Executor框架+实例
  2. 原创文章收录不高从根源找问题
  3. Netty详解(六):Netty 编解码技术
  4. ARMV4,ARMV4T,ARMV4I的意义
  5. 优化CUDA数据传输
  6. Eclipse安装SVN插件的方法
  7. 黑群晖vmm专业版_教你群晖用自带的VMM虚拟机安装精简版win10系统教程
  8. 凤凰系统运行linux,凤凰系统率先升级内核到Linux4.9,支持更多新硬件
  9. ios 线条球_烧脑挑战画线给小球回家
  10. 怎么购买企业邮箱,企业邮箱有什么好处?
  11. 百度网盘打不开的问题的解决
  12. 腾讯抖音搬运视频如何消重
  13. 16年,悲痛又收获的一年
  14. 目标检测入门知识以思考(写于2021.11)
  15. ssh:ssh-agent、ssh-add
  16. LeetCode–剪绳子
  17. PLC控制系统的接地设计
  18. 转换HTML内容为PDF格式
  19. matlab数字图像处理:时空域图像增强
  20. 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例

热门文章

  1. 算法的性能评价------空间复杂度和时间复杂度
  2. ubuntu下的第一个脚本file.sh
  3. 通过“远程桌面连接”连接到Ubuntu
  4. web前端技术杂谈--css篇(1)--浅谈margin(续)
  5. CRM脱机下使用说明_海天
  6. CSP认证201803-1 跳一跳[C++题解]: 模拟
  7. PAT甲级1038 Recover the Smallest Number (30 分):[C++题解]贪心、排列成最小的数、字符串
  8. 吴恩达机器学习Ex2
  9. java 假设当前时间_java——推断日期是否在今天之前
  10. 腾讯云安装samba服务器无法连接问题