Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)
Attention OCR 历史意义: 开创了基于attention机制建模OCR问题的先河。
本文主要结构如下:
一、Abstract
介绍提出attention-based OCR模型的优势
1. 论文提出基于attention模型取得更高的准确率
2. 模型结构简单,通用性更高
3.充足的实验给出有效结论
二、Introduction
介绍当前OCR领域研究的主流方法,分别有不同的缺点,文末提出模型优点及创新
三、The Proposed Network Architecture
提出OCR模型分模块介绍,包括CNN layer、RNN layer、Spatial attention layer、多视点操作、训练
模型主要结构如图1所示: 首先经过一个CNN layer提取图像特征,然后通过attention特征输入到RNN中
CNN layer: 本文采取三种CNN模型,主要有inception-v2、inception-v3以及inception-resnet-v2, 图像模型提取后的特征用fijc来表示,i,j表示图像上的位置,c表示channel的索引
RNN layer:
1. Ut,c 表示at权重值和图片的特征值对应相乘加和
2. t时刻RNN模型的输入xt表示t-1时刻字符的one-hot索引值 与 参数矩阵 对应相乘 ➕ t-1时刻的Ut-1,c与 参数矩阵的乘积(下面公式2)
3. RNN模型的输入: xt 以及RNN模型t-1时刻的输出
4. RNN模型的输出: Ot, St
5. 将Ot和Ut乘参数矩阵通过一个softmax得到Ot', 最后获取每个字符的概率值,值最大的表示label
Spatial attention: 主要是将channel的i和j位置向量onehot加入到输入tanh函数中(local aware attention)
四、Dataset
主要介绍两种数据集-FSNS Dataset、Google Street View
五、Experiment
统领全文、再次重申提出的attention模型优势,实验结果表明使用location aware attention可以提升9个百分点,并且证明了特征提取网络深度对准确率的影响,最后进行错误分析以及可视化展示
六、Conclusion
结论及展望
关键点:
1. 特征提取: CNN
2. 语言模型: RNN
3. 自回归: Attention
创新点:
1. 基于Attention机制实现OCR模型
2. 模型自回归
其发点:
对于图像特征提取而言,网络深度不是越深越好,过于深反而会引入噪音
七、Code
https://github.com/tensorflow/models/tree/master/research/attention_ocr
Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)相关推荐
- Attention-based Extraction of Structured Information from Street View Imagery:基于注意力的街景图像提取结构化信息
基于注意力的街景图像提取结构化信息 一种用于真实图像文本提取问题的TensorFlow模型. 该文件夹包含在FSNS数据集数据集上训练新的注意OCR模型所需的代码,以在法国转录街道名称. 您还可以使用 ...
- BERT gated multi-window attention network for relation extraction 用于关系抽取的BERT门控多窗口注意力网络
BERT gated multi-window attention network for relation extraction 用于关系抽取的BERT门控多窗口注意力网络 Abstract 实体关 ...
- Information Extraction over Structured Data: Question Answering with Freebase【论文笔记】
Information Extraction over Structured Data:Question Answering with Freebase 一.摘要 最近,人们一直在 ...
- 论文阅读课8-Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge
文章目录 Abstract 1.Introduction 2.相关工作 3. 方法 3.1 输入 3.1.1 字符级别表示 3.1.2单词级表示 3.2encoder 3.2.1 base latti ...
- Attention?Attention!
下文主要是结合自己的理解翻译自:Attention?Attention! 注意力(Attention)在近些年成为深度学习领域一个极其受欢迎的概念,同时作为一个强有力的工具也被集成到了各种模型中来处理 ...
- 用于图像描述的注意上的注意模型《Attention on Attention for Image Captioning》
<Attention on Attention for Image Captioning> Tiám青年 2019-11-17 23:21:10 2108 收藏 5 分类专栏: 计算机视觉 ...
- Pay more attention to attention...Sergey Zagoruyko论文解读及代码解释
pay more attention to attention: improving the performance of convolutional neural networks via atte ...
- DL之Attention:Attention注意力机制的简介、应用领域之详细攻略
DL之Attention:Attention注意力机制的简介.应用领域之详细攻略 目录 Attention的简介 1.Why Attention? 2.Attention机制的分类 3.Attenti ...
- PAYING MORE ATTENTION TO ATTENTION:
PAYING MORE ATTENTION TO ATTENTION : IMPROVING THE PERFORMANCE OF C NVOLUTIONAL NEURAL NETWORKS VIA ...
最新文章
- java Executor实例_Executor框架+实例
- 原创文章收录不高从根源找问题
- Netty详解(六):Netty 编解码技术
- ARMV4,ARMV4T,ARMV4I的意义
- 优化CUDA数据传输
- Eclipse安装SVN插件的方法
- 黑群晖vmm专业版_教你群晖用自带的VMM虚拟机安装精简版win10系统教程
- 凤凰系统运行linux,凤凰系统率先升级内核到Linux4.9,支持更多新硬件
- ios 线条球_烧脑挑战画线给小球回家
- 怎么购买企业邮箱,企业邮箱有什么好处?
- 百度网盘打不开的问题的解决
- 腾讯抖音搬运视频如何消重
- 16年,悲痛又收获的一年
- 目标检测入门知识以思考(写于2021.11)
- ssh:ssh-agent、ssh-add
- LeetCode–剪绳子
- PLC控制系统的接地设计
- 转换HTML内容为PDF格式
- matlab数字图像处理:时空域图像增强
- 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
热门文章
- 算法的性能评价------空间复杂度和时间复杂度
- ubuntu下的第一个脚本file.sh
- 通过“远程桌面连接”连接到Ubuntu
- web前端技术杂谈--css篇(1)--浅谈margin(续)
- CRM脱机下使用说明_海天
- CSP认证201803-1	跳一跳[C++题解]: 模拟
- PAT甲级1038 Recover the Smallest Number (30 分):[C++题解]贪心、排列成最小的数、字符串
- 吴恩达机器学习Ex2
- java 假设当前时间_java——推断日期是否在今天之前
- 腾讯云安装samba服务器无法连接问题