EAST: An Efﬁcient and Accurate Scene Text Detector 论文阅读

Reference
正文
- 摘要
- 引言
- 相关工作
- 方法
- - 算法
  - 网络设计
  - 标签生成
  - 损失函数
  - 训练
  - 位置感知的NMS
个人总结

Reference

X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, “East: an efficient and accurate scene text detector,” in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2017, pp. 5551–5560.

正文

摘要

以往的文本识别方法在处理有挑战性的场景时不尽人意，因为整体效果由算法多个阶段和模块的共同作用决定。本文的算法通过单一神经网络直接预测整幅图像中任意方向的单词或文本行和四边形形状，消除了不必要的中间步骤(如候选聚合和词划分)。

引言

文本检测的核心是将文本从背景分离出来的特征的设计。传统的，特征被人工设计成捕获场景中文本的属性。在深度学习中，有效的特征直接从训练集中学习。

但是现存方法大多包括几个步骤和模块，这大概都不是最优的并且耗时长，所以准确度和效率都不令人满意。

本文的方法只有两步。利用全卷积网络模型（fully convolutional network， FCN）直接生成单词或文本行级别的预测，减少了冗余和缓慢的中间步骤。生成的文本预测，既可以是旋转的矩形也可以是四边形，被送到非极大抑制（Non-Maximum Suppression）来产生最终结果。和现存的方法比较，根据在标准数据集上的定性定量的实验，提出的算法获得显著增强的性能，运行更快。
贡献：
1）提出了一个两阶段的文本检测方法：一个FCN阶段（减少了冗余和缓慢的中间步骤）和一个NMS合并阶段。
2）算法可以灵活的生成单词级或文本行级的预测。
3）算法在准确率和速度上明显优于现在最好的方法。

方法

模型是一个适用于文本检测的全卷积神经网络，输出稠密的按照每个像素的单词或文本行预测。这消除了中间步骤，力图候选区域、文本区域合并和单词分割。后处理步骤仅包含在预测的几何形状上的阈值过滤和NMS操作。

算法

算法沿用了DenseBox的通用设计，一张图送到FCN中，得到像素级的分数map和几何形状的多通道。

预测通道中的一个时分数map，像素值时在[0,1]之间。剩下的通道代表几何形状，从每个像素级别将单词框出来。分数代表在同一位置预测的几何形状的置信度。

我们对于文本区域实验了两种几何形状，旋转矩形（RBOX）和四边形（QUAD），对每种几何形状设计了不同的loss函数。然后在每个预测的区域用阈值过滤，分数高于阈值的几何位置被认为时有效的，保留下来进行后边的NMS。NMS后的结果就认为是算法的最终输出。

网络设计

几个需要考虑的因素。文本区域的大小可能变化很大，决定了大的单词需要来自神经网络的后边阶段的特征，而预测准确的包围小的单词的区域需要在早一些的阶段的低级别信息。所以网络必须使用不同级别的特征来满足这些要求。HyperNet是一种合适的办法，但在大的特征图上合并通道会极大增加后面阶段的计算量。

为了解决这个问题，我们采用了U-shape来逐渐合并特征图，同时使得上采样的分支较小。我们最终的网络既利用了不同级别的特征图还保持了一个较小的计算量。

模型可分为3部分：特征提取主干、特征合并分支和输出层
主干可以是在ImageNet数据集上预训练出的卷积神经网络，从主干提取的四级特征图的，表示为fi，大小分别是输入图像的1/32、1/16、1/8和1/4。

gi是合并基础，hi是合并的特征图，[.;.]表示沿通道维度拼接。在每个合并阶段，来自上一阶段的特征map首先喂给unpooling层来扩大二倍它的大小，然后和现在的特征map拼接。接下来，1*1的卷积bottleneck将减少通道的数量和减少计算量，后边跟一个3*3的卷积来融合信息来产生这个合并阶段的最终输出。最后合并阶段后变，执行3*3的卷积产生合并分支的最终特征图，喂给输出层。

我们保持在分支中卷积的通道数较小，这只增加了主干计算量的一小部分，使得网络计算更有效。最后的输出层包括几个1*1卷积操作，将32通道的特征图映射到1个通道的分数map Fs和一个多通道的几何map Fg。

对于RBOX，几何形状用边界框的坐标对应的4个通道（AABB）R和旋转角度1个通道来表示。4个通道分别表示某一像素位置到矩形的上、右、下、左边界的距离。

对于QUAD Q，我们用8个数来表示四边形的4个角顶点到像素点位置的坐标偏移。对于QUAD Q，我们用8个数来表示四边形的4个角顶点

到像素点位置的坐标偏移。由于每个距离偏移量包括两个数

几何输出包含8个通道。

标签生成

我们只考虑区域形状是四边形的情况。score map上正区域是原来形状的略微收缩。对于四边形
pi={xi，yi}，是四边形顺时针方向的顶点。对于收缩Q，我们首先对每个顶点pi计算参考长度

D是两点之间的L2距离。
我们首先压缩两个较长边，然后再压缩两个较短边。对每个
，压缩是通过分别沿着边将两个端点向中间移动0.3ri和0.3r（i mod 4）+1。

压缩之后，将框内的标签赋值为1，表示ground truth，其余的赋值为0。这样完成了score map的标签。

之所以需要生成标签，论文中可以看到，给出的数据集是包含了文本区域的一个标志框。而框内往往除了文字之外，还有着其他的信息。进行缩进可以减少这些信息对最终目标的影响。至于0.3的缩进比可能是超参。

geometry标签的生成不再赘述。

损失函数

L = Ls + λgLg，Ls表示分数图的损失，Lg表示几何形状的损失。

分数图的损失使用平衡交叉熵作为损失函数

直接用L1或L2 loss来回归可能导致loss偏向于更大更长的文本区域。由于我们需要对大的和小的文本区域生成准确的文本几何形状预测，所以回归loss应该是具有尺度不变性。

RBOX 对于AABB部分，我们采用[46]中的IoU loss，因为它对于不同大小的目标具有不变性。
λ使用了10，可以更好的关注旋转角度。
QUAD不再赘述

训练

网络是用ADAN优化器端对端的训练的。为了加速学习，我们一律从图片中剪裁512*512大小的样本来形成24大小的minibatch。ADAM的学习率从0.001开始，每27300个minibatch下降1/10，在0.00001停止。网络训练直到性能停止提升。

位置感知的NMS

基于相近像素的几何图形趋于高度相关性的假设，我们提议一行一行的合并几何图形。当合并同一行的几何图形时，我们将迭代合并当前几何图形与最后一个合并的。最好的运行时间是O(n)。

值得一提的是，合并四边形的坐标是用给定的两个四边形的分数加权平均的。

个人总结

优点：识别准确率高；识别速度快；调试简单；可进一步集成文本检测器。

缺点：探测器可以探测的文本实例最大长度受到网络感知野的限制。这限制了网络预测更长的文本区域，如横跨图像的文本行。不能检测复杂形状的文本，如弯曲文本。

EAST: An Efﬁcient and Accurate Scene Text Detector 论文阅读相关推荐

【翻译】EAST: An Efficient and Accurate Scene Text Detector
EAST: An Efficient and Accurate Scene Text Detector 论文地址概要以前的场景文本检测方法已经在各种基准上取得了有希望的表现.然而,即使配备深层神经 ...
EAST: An Efficient and Accurate Scene Text Detector
EAST: An Efficient and Accurate Scene Text Detector EAST:高效准确的场景文本检测器 [Abstract] 先前的场景文本检测方法已经在各种基准测 ...
MSR: Multi-Scale Shape Regression for Scene Text Detection 论文阅读笔记
MSR: Multi-Scale Shape Regression for Scene Text Detection 1. 基本信息文章来源:arxiv(录用期刊或会议未知) SAST链接上传时间 ...
EAST: An Efficient and Accurate Scene Text Detector（自然场景下文本识别）训练，测试
首先介绍一下我的环境配置,ubuntu16.04+cuda9.0,cudnn7.0,tensorflow-gpu=1.8 简介其实对这个不是很有研究的,只是要参加一个阿里天池的比赛,然后用这个跑了一 ...
SPIN: Structure-Preserving Inner Offset Network for Scene Text Recognition —— 论文阅读笔记
SPIN:用于场景文本识别的保留结构的内部偏移网络 Paper : 论文地址本文提出的方法主要解决色彩失真的图片.如下图中的(c)和(d) SPIN(Structure-Preserving Inn ...
文本检测论文阅读笔记之 Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks
Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks 摘要:最近语义分割和通用对象检测框架已被场景广泛采用文 ...
1:MOST: A Multi-Oriented Scene Text Detector with Localization Refinement
1.介绍现代文本检测器能够捕捉各种不同挑战场景下的文本.然而,它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例为了处理这些困难,我们在本文中提出了一个新的场景文本检测的新算法,该算法提出了 ...
《TextScanner: Reading Characters in Order for Robust Scene Text Recognition》阅读笔记
日常阅读论文名词解释: 注意力漂移attention drift:由于低质量(如模糊,污损和噪音等)图片和一些复杂图片(如扭曲或者重叠字符,不同字符,不用尺寸,不同颜色或者复杂的背景)的影响,模型在 ...
端到端OCR算法：Towards Accurate Scene Text Recognition with Semantic Reasoning Networks(SRN）
1.SRN网络结构 2.Backbone Network 3.Parallel Visual Attention Module(PVAM) 4.Global Semantic Reasoning Mo ...

EAST: An Efﬁcient and Accurate Scene Text Detector 论文阅读

EAST: An Efﬁcient and Accurate Scene Text Detector 论文阅读

Reference

正文

摘要

引言

相关工作

方法

算法

网络设计

标签生成

损失函数

训练

位置感知的NMS

个人总结

EAST: An Efﬁcient and Accurate Scene Text Detector 论文阅读相关推荐

最新文章

热门文章