由粗到细的注意力机制
Image-to-Markup Generation with Coarse-to-Fine Attention
图片的多层卷积网络+结合了多行循环网络模型的encoder+基于注意力机制的循环decoder


CNN 输出 进入 行encoder,生成特征灰色网格,虚线指出token的中心,蓝色是粗粒度注意力选出的符号0的支撑集

成就:减少注意力开支
全栅格encoder:不一定从左到右
由一个解决image captioning的模型改编而来,但添加了row encoder

模型

  1. CNN 图片卷积,生成灰度栅格图(包含抽象特征)[feature map]
  2. RNN(row encoder) 对灰度grid 的每一行进行编码,提取空间布局信息,生成特征[fine feature]
  3. 2变体,提取[coarse feature],来决定2的support region(蓝色)
  4. 包含注意力机制的RNN(decoder),一个词汇表上的条件语言模型[final output]

具体实现

1 CNN卷积

多层卷积穿插最大池化,没有使用最终全连接(因为想使用CNN特征的局部信息,视觉注意力)

2 row encoder

传统使用CTC(分割字母,得到剪枝的所有可能结果并预测概率)
对OCR至关重要,定位相对位置
使用的LSTM模型(RNN的一种)
位置嵌入:可训练的初始隐藏层,捕捉列信息【?】

3 decoder

在[decoder RNN]上层有[条件语言模型]
计算 P(预测值 | 过去decoder结果、特征V) = 激活函数(学习到的矩阵Ot)
Ot = 激活函数 (学到的矩阵
(RNN历史记录向量*ct))
ct:上下文注意力。上下文:对源的特征的期望

4 注意力机制

标准、分类、由粗到细

基础 连接主义文本提议网络

Detecting Text in Natural Image with Connectionist Text Proposal Network
ECCV 2016
https://github.com/eragonruan/text-detection-ctpn

目标

  1. 准确定位自然图像中的文本行:垂直锚点机制,固定宽度划分文本与非文本
  2. 定位文字提案,循环连接固定宽度的锚点提议:BRNN网内循环架构,用于按顺序连接这些细粒度的文本提议序列提议,通过循环神经网络自然地连接起来

方法

  • CPTR网络:由卷积网络、特征映射图组成。卷积采用由VGG16(迁移学习)网络结构
  • VGG16使用的层:
    • RNN:带反馈的、可以利用先前知识的CNN,利用文本序列性特性

      • 层使用的神经元:LSVM:可以学习长期依赖信息的RNN。只有一些少量的线性交互
    • 双向循环神经网络(BRNN):不仅考虑过去知识,还考虑未来
  • 非极大值抑制

结果

CTPN的计算效率为0.14s每张图像

分割 实例分割检测场景文本

PixelLink: Detecting Scene Text via Instance Segmentation
AAAI 2018
https://github.com/ZJULearning/pixel_link

VGG16通过像素二分类划分,直接提取边框

扭曲文字识别

TextSnake A Flexible Representation for Detecting Text of Arbitrary Shapes
ECCV2018
https://github.com/princewang1994/TextSnake.pytorch

论文介绍详细,甚至包括网络调参细节、batch设计和GPU设计等

目标

识别以曲线方式分布的文字

方法

  1. FCN全卷积网络:分为卷积和上采样,卷积使图片越来越模糊,最终确定类别;上采样确定原图像素点的类别。(网络卷积部分还是VGG)
  2. 网络得到7个通道结果:网络得到文字区域及区域中心线、区域角度等信息;分割成不同区域
  3. 跨步滑动形成圆盘(原理:如果曲率大,则跨步小,描绘出整个曲线)圆盘半径与跨步长度有关(为什么要设计圆盘?分开文字后续进行文字识别?)

数据

该文提出了一种新的文字区域表示方法,没有现成数据集,需要自己制作标签(区域和中心线)

损失函数

损失 = 区域和中心线的分类损失(交叉熵,类似极大似然,取概率最大的类分类) + r sin cos等几何属性的回归损失(smooth1Loss,一个更优的均方误差函数)

评价指标

评价指标有准确率(Precision)、召回率(Recall)、F值(F-Measure)
召回率:度量有多个正例被分为正例
精度:表示被分为正例的示例中实际为正例的比例。
F:两者调和 当F1较高时则能说明试验方法比较有效

语义增强

SEED Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
CVPR2020
https://github.com/Pay20Y/SEED

目标

识别出单词并进行矫正,应对诸如图像模糊、光照不均、字符不完整等诸多挑战

发展历程

  1. 自底向上:SVM等对字母识别并分类;启发式规则、语言模型或词典将它们分组到一个单词或文本行
  2. 自顶向下:将一个单词视为一个类,识别-》图像分类。技术:连接主义时间分类(CTC)和注意力机制

步骤

从一个预先训练好的语言模型中获得词语嵌入,并计算训练过程中语义信息和词语嵌入之间的损失。通过这种方式,语义信息包含更丰富的语义,
然后预测的语义信息被用来指导解码过程。因此,解码过程可以被限制在一个语义空间内,识别性能会更好
1)编码器包括 CNN骨干和 RNN 用于提取视觉特征;
2)语义模块用于从视觉特征中预测语义信息;
3)预训练语言模型用于监督语义模块预测的语义信息;
4)解码器包括 RNN 和注意机制用于生成识别结果。

模型

  1. 语义模块 fastText:模仿构词学,将单词间的关系用向量表示
    https://cloud.tencent.com/developer/article/1495100
  2. 编码器-解码器框架:编码器卷积和采样,生成视觉特征;解码器上采样恢复维度
  3. 文字识别 SAR 二维注意力机制模块(就是网络中的注意力模块)

超分辨率

Scene Text Image Super-Resolution via Parallelly Contextual Attention Network
ACMMM 2021
https://github.com/Vill-Lab/PCAN

SR,图片超分辨率super resolution

数据

该论文的主要工作是构建了新的数据集:真实的场景文本SR数据集,称为TextZoom。它包含一对真实的低分辨率和高分辨率图像

模型

对SRResNet模型进行修改
并行的上下文注意网络,主要是改变了RNN的基本单位,平行的上下文关联注意块(PCAB)
直观地说,水平方向建模用于构建字符对字符
的依赖关系,而垂直方向建模用于字符内的纹理上下文。

场景文字识别论文阅读相关推荐

  1. 史上最全场景文字识别资源汇集(56篇重要论文 + 20 个开源代码 + 330 个实验结果 + 1882个统计信息)...

    点击上方"AI算法与图像处理",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:刘崇宇 转载自:CSIG文档图像分析与识别专委会 本 ...

  2. 中文场景文字识别技术创新大赛,总奖池5.4万!

    点击我爱计算机视觉标星,更快获取CVML新技术 竞赛简介 为贯彻执行国家创新驱动发展战略,搭建人工智能领域综合性.集群化.市场化的产学研用综合协同创新平台,中国人工智能学会于2018年创办了首届中国& ...

  3. CVPR 2020 | 旷视研究院探究优化场景文字识别的「词汇依赖」问题

    IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布 ...

  4. 行为识别论文阅读(2)——3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children

    行为识别论文阅读(2)--3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children ...

  5. OpenVINO™场景文字识别与同步与异步推理

    场景文字检测与识别模型 OpenVINO2021.4支持场景文字检测是基于MobileNetV2的PixelLink模型,模型有两个分别是text-detection-0003与text-detect ...

  6. PaddleOCR实践之飞桨常规赛:中文场景文字识别

    简介 本项目是参加飞桨常规赛:中文场景文字识别(已结束)的项目,项目score为85.87141. 生成的预测文件为work/PaddleOCR中的test2.txt文件 项目任务为识别包含中文文字的 ...

  7. OCR之端到端任意形状的场景文字识别 ICCV2019 End-to-End Text Spotting

    OCR之端到端任意形状的场景文字识别 ICCV2019 End-to-End Text Spotting 端到端文本识别(End-to-End Text Spotting)是将文本阅读问题看成一个整体 ...

  8. php 点对点,浅析点对点(End-to-End)的场景文字识别

    一.背景 随着智能手机的广泛普及和移动互联网的迅速发展,通过手机等移动终端的摄像头获取.检索和分享资讯已经逐步成为一种生活方式.基于摄像头的(Camera-based)的应用更加强调对拍摄场景的理解. ...

  9. 场景文字识别的算法创新与应用,来自百度的技术前沿

    点击我爱计算机视觉标星,更快获取CVML新技术 几天前,52CV曾经向大家推荐百度家 OCR主题的飞桨博士会: 飞桨博士会第四期,中国深度学习技术俱乐部诚邀您加入 百度组织的这个会比较高端,很多52C ...

最新文章

  1. vue 判断页面加载完成_在Vue+webpack中详细讲解基础配置
  2. 关于go语言中的JWT(JSON WEB TONKE)ECHO
  3. Must 和 have to_54
  4. 【亚伦博客】我们勇敢的审查者
  5. 关闭tcp服务器_2020年2月起,不支持TCP和UDP协议的DNS服务器将被强制关闭
  6. 无线室内定位系统的理论构想
  7. 从工程师到架构师,Android程序员的进阶之路
  8. 从马克思看计算机科学,从马克思主义的角度,用科学精神来看生死观,应该说已经解决,或...
  9. Python绘制Excel图表
  10. TrueCrypt编译记录
  11. 【毕业设计】深度学习 python opencv 火焰检测识别
  12. 泰坦尼克号生存预测python毕设_机器学习入门案例分析-泰坦尼克号生存预测
  13. 腹有诗书气自华——记环宇通软CEO骆永华
  14. 软著申请流程及费用 —— 计算机软件著作权登记证书_知乎
  15. 双11_淘宝双11_天猫双11_双11是什…
  16. Axure 9 实战案例,动态面板的应用 5,官网首页自动轮播广告
  17. Android自定义相机镂空遮罩
  18. 支持 C++11/14/17 功能(现代 C++
  19. python绘制时间节点事件图
  20. Uber优惠码漏洞允许黑客免费乘车

热门文章

  1. 树莓派3B安装64位操作系统(树莓派无需连接显示器键盘鼠标)
  2. 微信小程序前后端授权登陆
  3. 关于H5请求数据报跨域问题记录
  4. hive-对用户浏览网站的点击量按年月进行统计
  5. “动真格”的垃圾分类,需要你我容忍其中的不便
  6. 阿里云ECS七天训练营-搭建FTP
  7. echarts柱状图 饼图 折线图
  8. 微信小程序中base64转换成图片
  9. 我吐了72行金色爱心代码(༗清ཻ辞ཻ࿐入门原创)———永远清楚,不是只有你一个人在努力
  10. 在英伟达 jeason nano配置yolov5