EAST: An Efficient and Accurate Scene Text Detector 论文阅读

  • Reference
  • 正文
    • 摘要
    • 引言
    • 相关工作
    • 方法
      • 算法
      • 网络设计
      • 标签生成
      • 损失函数
      • 训练
      • 位置感知的NMS
  • 个人总结

Reference

X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, “East: an efficient and accurate scene text detector,” in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2017, pp. 5551–5560.

正文

摘要

以往的文本识别方法在处理有挑战性的场景时不尽人意,因为整体效果由算法多个阶段和模块的共同作用决定。本文的算法通过单一神经网络直接预测整幅图像中任意方向的单词或文本行和四边形形状,消除了不必要的中间步骤(如候选聚合和词划分)。

引言

文本检测的核心是将文本从背景分离出来的特征的设计。传统的,特征被人工设计成捕获场景中文本的属性。在深度学习中,有效的特征直接从训练集中学习。

但是现存方法大多包括几个步骤和模块,这大概都不是最优的并且耗时长,所以准确度和效率都不令人满意。

本文的方法只有两步。利用全卷积网络模型(fully convolutional network, FCN)直接生成单词或文本行级别的预测,减少了冗余和缓慢的中间步骤。生成的文本预测,既可以是旋转的矩形也可以是四边形,被送到非极大抑制(Non-Maximum Suppression)来产生最终结果。和现存的方法比较,根据在标准数据集上的定性定量的实验,提出的算法获得显著增强的性能,运行更快。
贡献:
1)提出了一个两阶段的文本检测方法:一个FCN阶段(减少了冗余和缓慢的中间步骤)和一个NMS合并阶段。
2)算法可以灵活的生成单词级或文本行级的预测。
3)算法在准确率和速度上明显优于现在最好的方法。

相关工作

传统的方法依赖人工设计特征。基于Stroke Width Transform(SWT)和Maximally Stable Extremal Regions(MSER)的方法一般通过边缘检测或极值区域的提取来寻找字符候选。(Zhang利用文本局部对称性的性质,为文本检测设计了不同特征。FASText针对笔画提取适应和修改了FAST关键点检测器)。但传统方法都输给了深度神经网络,尤其在低分辨率和几何形变的情况下。

基于深度神经网络的算法逐渐成为主流。(Huang等人首先发现用MSER找到的候选区然后再用深度卷积网络作为一个强分类器可以减少“伪正例”。Jaderberg等人的方法在滑动窗口扫描图片,然后用卷积神经网络模型为每个尺度生成稠密热力图。后来,Jaderberg等人用一个CNN和一个ACF来捕获单词候选区域,然后用回来来修正它们。Tian等人发明了垂直anchors,构建了一个CNN-RNN结合的模型来检测水平方向的文本行。不同于这些方法,Zhang等人提出利用FCN来生成heatmap,用分量投影来估计方向)这些方法效果出色,但是大多包括很多步骤和模块,可能需要大量的调试,导致性能次优,并增加耗时。

在本文中,我们设计了一种基于深度FCN的算法,直接把文本检测的最终目标作为任务:单词或文本行级的检测。抛弃了不必要的中间组件和步骤,允许端对端的训练和优化。最终的系统,用一个简单的轻量级的神经网络组成。

方法

模型是一个适用于文本检测的全卷积神经网络,输出稠密的按照每个像素的单词或文本行预测。这消除了中间步骤,力图候选区域、文本区域合并和单词分割。后处理步骤仅包含在预测的几何形状上的阈值过滤和NMS操作。

算法

算法沿用了DenseBox的通用设计,一张图送到FCN中,得到像素级的分数map和几何形状的多通道。

预测通道中的一个时分数map,像素值时在[0,1]之间。剩下的通道代表几何形状,从每个像素级别将单词框出来。分数代表在同一位置预测的几何形状的置信度。

我们对于文本区域实验了两种几何形状,旋转矩形(RBOX)和四边形(QUAD),对每种几何形状设计了不同的loss函数。然后在每个预测的区域用阈值过滤,分数高于阈值的几何位置被认为时有效的,保留下来进行后边的NMS。NMS后的结果就认为是算法的最终输出。

网络设计

几个需要考虑的因素。文本区域的大小可能变化很大,决定了大的单词需要来自神经网络的后边阶段的特征,而预测准确的包围小的单词的区域需要在早一些的阶段的低级别信息。所以网络必须使用不同级别的特征来满足这些要求。HyperNet是一种合适的办法,但在大的特征图上合并通道会极大增加后面阶段的计算量。

为了解决这个问题,我们采用了U-shape来逐渐合并特征图,同时使得上采样的分支较小。我们最终的网络既利用了不同级别的特征图还保持了一个较小的计算量。


模型可分为3部分:特征提取主干、特征合并分支和输出层
主干可以是在ImageNet数据集上预训练出的卷积神经网络,从主干提取的四级特征图的,表示为fi,大小分别是输入图像的1/32、1/16、1/8和1/4。

gi是合并基础,hi是合并的特征图,[.;.]表示沿通道维度拼接。在每个合并阶段,来自上一阶段的特征map首先喂给unpooling层来扩大二倍它的大小,然后和现在的特征map拼接。接下来,1*1的卷积bottleneck将减少通道的数量和减少计算量,后边跟一个3*3的卷积来融合信息来产生这个合并阶段的最终输出。最后合并阶段后变,执行3*3的卷积产生合并分支的最终特征图,喂给输出层。

我们保持在分支中卷积的通道数较小,这只增加了主干计算量的一小部分,使得网络计算更有效。最后的输出层包括几个1*1卷积操作,将32通道的特征图映射到1个通道的分数map Fs和一个多通道的几何map Fg。

对于RBOX,几何形状用边界框的坐标对应的4个通道(AABB)R和旋转角度1个通道来表示。4个通道分别表示某一像素位置到矩形的上、右、下、左边界的距离。

对于QUAD Q,我们用8个数来表示四边形的4个角顶点到像素点位置的坐标偏移。对于QUAD Q,我们用8个数来表示四边形的4个角顶点

到像素点位置的坐标偏移。由于每个距离偏移量包括两个数

几何输出包含8个通道。

标签生成

我们只考虑区域形状是四边形的情况。score map上正区域是原来形状的略微收缩。对于四边形
pi={xi,yi}, 是四边形顺时针方向的顶点。对于收缩Q,我们首先对每个顶点pi计算参考长度

D是两点之间的L2距离。
我们首先压缩两个较长边,然后再压缩两个较短边。对每个
,压缩是通过分别沿着边将两个端点向中间移动0.3ri和0.3r(i mod 4)+1。

压缩之后,将框内的标签赋值为1,表示ground truth,其余的赋值为0。这样完成了score map的标签。

之所以需要生成标签,论文中可以看到,给出的数据集是包含了文本区域的一个标志框。而框内往往除了文字之外,还有着其他的信息。进行缩进可以减少这些信息对最终目标的影响。至于0.3的缩进比可能是超参。

geometry标签的生成不再赘述。

损失函数

L = Ls + λgLg,Ls表示分数图的损失,Lg表示几何形状的损失。

分数图的损失使用平衡交叉熵作为损失函数


直接用L1或L2 loss来回归可能导致loss偏向于更大更长的文本区域。由于我们需要对大的和小的文本区域生成准确的文本几何形状预测,所以回归loss应该是具有尺度不变性。

RBOX 对于AABB部分,我们采用[46]中的IoU loss,因为它对于不同大小的目标具有不变性。
λ使用了10,可以更好的关注旋转角度。
QUAD不再赘述

训练

网络是用ADAN优化器端对端的训练的。为了加速学习,我们一律从图片中剪裁512*512大小的样本来形成24大小的minibatch。ADAM的学习率从0.001开始,每27300个minibatch下降1/10,在0.00001停止。网络训练直到性能停止提升。

位置感知的NMS

基于相近像素的几何图形趋于高度相关性的假设,我们提议一行一行的合并几何图形。当合并同一行的几何图形时,我们将迭代合并当前几何图形与最后一个合并的。最好的运行时间是O(n)。

值得一提的是,合并四边形的坐标是用给定的两个四边形的分数加权平均的。

个人总结

优点:识别准确率高;识别速度快;调试简单;可进一步集成文本检测器。

缺点:探测器可以探测的文本实例最大长度受到网络感知野的限制。这限制了网络预测更长的文本区域,如横跨图像的文本行。不能检测复杂形状的文本,如弯曲文本。

EAST: An Efficient and Accurate Scene Text Detector 论文阅读相关推荐

  1. 【翻译】EAST: An Efficient and Accurate Scene Text Detector

    EAST: An Efficient and Accurate Scene Text Detector 论文地址 概要 以前的场景文本检测方法已经在各种基准上取得了有希望的表现.然而,即使配备深层神经 ...

  2. EAST: An Efficient and Accurate Scene Text Detector

    EAST: An Efficient and Accurate Scene Text Detector EAST:高效准确的场景文本检测器 [Abstract] 先前的场景文本检测方法已经在各种基准测 ...

  3. MSR: Multi-Scale Shape Regression for Scene Text Detection 论文阅读笔记

    MSR: Multi-Scale Shape Regression for Scene Text Detection 1. 基本信息 文章来源:arxiv(录用期刊或会议未知) SAST链接 上传时间 ...

  4. EAST: An Efficient and Accurate Scene Text Detector(自然场景下文本识别)训练,测试

    首先介绍一下我的环境配置,ubuntu16.04+cuda9.0,cudnn7.0,tensorflow-gpu=1.8 简介 其实对这个不是很有研究的,只是要参加一个阿里天池的比赛,然后用这个跑了一 ...

  5. SPIN: Structure-Preserving Inner Offset Network for Scene Text Recognition —— 论文阅读笔记

    SPIN:用于场景文本识别的保留结构的内部偏移网络 Paper : 论文地址 本文提出的方法主要解决色彩失真的图片.如下图中的(c)和(d) SPIN(Structure-Preserving Inn ...

  6. 文本检测 论文阅读笔记之 Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

    Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks 摘要:最近语义分割和通用对象检测框架已被场景广泛采用文 ...

  7. 1:MOST: A Multi-Oriented Scene Text Detector with Localization Refinement

    1.介绍 现代文本检测器能够捕捉各种不同挑战场景下的文本.然而,它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例 为了处理这些困难,我们在本文中提出了一个新的场景文本检测的新算法,该算法提出了 ...

  8. 《TextScanner: Reading Characters in Order for Robust Scene Text Recognition》阅读笔记

    日常阅读论文 名词解释: 注意力漂移attention drift:由于低质量(如模糊,污损和噪音等)图片和一些复杂图片(如扭曲或者重叠字符,不同字符,不用尺寸,不同颜色或者复杂的背景)的影响,模型在 ...

  9. 端到端OCR算法:Towards Accurate Scene Text Recognition with Semantic Reasoning Networks(SRN)

    1.SRN网络结构 2.Backbone Network 3.Parallel Visual Attention Module(PVAM) 4.Global Semantic Reasoning Mo ...

最新文章

  1. 在阿里AI实验室做NLP高级算法工程师是一种什么样的体验?
  2. php 给图片增加背景平铺水印代码
  3. python爬虫系列之数据的存储(二):csv库的使用
  4. ubuntu 11.10上安装osdlyrics 歌词插件
  5. 透过汇编另眼看世界之DLL导出函数调用
  6. 分析Java中的三种不同变量的区别
  7. IMail邮件服务-1
  8. linux系统级别及特殊字符的意义
  9. SAP License:值得一看的ERP问题
  10. IE和FF获得键盘码
  11. TongLINK/Q8.X版本的错误号整理
  12. Python:1019 数字黑洞
  13. 英语六级 Java_过英语六级算什么,你过了Java25级了吗!
  14. 计算机键盘标注,电脑键盘上怎么打√和*两个符号的方法
  15. 与领导吃饭需要注意什么
  16. 完整责任链模式——回旋链
  17. layer扩展打开/关闭动画
  18. 分享10个实用的软件和网站,我每天都在用
  19. rsync 命令_rsync命令教程示例
  20. 基于Java的员工管理系统

热门文章

  1. RedHat 全部镜像
  2. HttpClient 实现 socks 代理
  3. Obsidian Windows同步到iCloud 再到ipad 云盘 我的电脑导航栏无法应用的问题
  4. 7XX元一线P35,华硕P5K-SE VS技嘉P35-DS3L谁超频能力更强?
  5. win11 nvidia驱动无法更新问题解决
  6. 个人练习小览---《微金所仿站》
  7. 换服务器要重新百度站长验证站点吗6,百度站长工具教程一:如何使用百度站长平台验证网站 – 陆琳玲SEO博客...
  8. 智力题------小白鼠试毒问题
  9. 【苹果相册推】增加家庭协议sendmail postfix MDA指示其AppID
  10. 智慧医院信息化建设整体解决方案