文本检测-EAST方法概述

《EAST: An Efficient and Accurate Scene Text Detector》
特点概述：在这篇文章中，提出了一个快速且精确的场景文本检测方法，该方法取消了一些不必要的步骤（如：候选区域的聚合和词的分割），且它只包含两个阶段，可以在整幅图像中检测任意形状和方向的单词或文本行。

方法概述：

该方法利用一个全连接模型去直接预测单词或文本行，然后将预测的框进行Non-Maximum Suppression操作得到最后的结果。(生成的预测框可以是旋转的矩形或四边形)

贡献：

提出了场景文本检测的方法，该方法由两个阶段组成：一个全连接网络和一个NMS融合阶段。FCN直接生成文本区域。
网络结构是灵活的，可以生成单词级别或文本行级别的预测。根据具体的应用场景，网络输出的预测框的几何形状可以是被旋转后的boxes或四边形(预测框的形状事先确定）。

传统的文本检测方法和一些基于深度学习的文本检测方法，大多是multi-stage，在训练时需要对多个stage调优，这势必会影响最终的模型效果，而且非常耗时．针对上述存在的问题，本文提出了端到端的文本检测方法，消除中间多个stage(如候选区域聚合，文本分词，后处理等)，直接预测文本行．
下图给的是几个不同框架的检测pipeline：可以发现本文只包含两个stage

方法：

本方法的文字检测模型是一个全卷积神经网络，可以对单词或文本行进行像素级的预测，其后处理步骤仅仅包括阈值和NMS。
一张图片输入到FCN中，生成像素级文本评分图和包含几何形状信息的多个通道。

预测的通道之一是分数图，其像素值范围在[0,1]之间；剩下的通道表示了预测框的几何形状，预测框在像素层面上圈出单词的范围，分数则表示对应位置预测的几何形状的可信度。
对于文本区域，使用用两个几何形状去实验：旋转box(RBOX)和四边形(QUAD)。本方法针对两种几何形状都设计了不同的loss函数。在得到预测框后，几何形状的分数超过预定义阈值就被认为是有效的预测框，然后将预测框进行non-maximum-suppression处理，之后的结果作为最终的输出。

论文关键idea

提出了基于two-stage的文本检测方法：全卷积网络(FCN)和非极大值抑制(NMS)，消除中间过程冗余，减少检测时间．
该方法即可以检测单词级别，又可以检测文本行级别．检测的形状可以为任意形状的四边形：即可以是旋转矩形(下图中绿色的框)，也可以是普通四边形(下图中蓝色的框)）．
采用了Locality-Aware NMS来对生成的几何进行过滤
该方法在精度和速度方面都有一定的提升

Pipeline
论文的思想非常简单，结合了DenseBox和Unet网络中的特性，具体流程如下：

先用一个通用的网络(论文中采用的是Pvanet，实际在使用的时候可以采用VGG16，Resnet等)作为base net ，用于特征提取
基于上述主干特征提取网络，抽取不同level的feature map（它们的尺寸分别是inuput-image的 [公式] ），这样可以得到不同尺度的特征图．目的是解决文本行尺度变换剧烈的问题，ealy stage可用于预测小的文本行，late-stage可用于预测大的文本行．
特征合并层，将抽取的特征进行merge．这里合并的规则采用了U-net的方法，合并规则：从特征提取网络的顶部特征按照相应的规则向下进行合并，这里描述可能不太好理解，具体参见下述的网络结构图
网络输出层，包含文本得分和文本形状．根据不同文本形状(可分为RBOX和QUAD)，输出也各不相同，具体参看网络结构图

合并层中feature map的合并规则

具体的合并步骤如下：

特征提取网络层中抽取的最后层feature map被最先送入uppooling层(这里是将图像放大原先的２倍)，
然后与前一层的feature map进行concatenate，
接着依次送入卷积核大小为ParseError: KaTeX parse error: -Expected ‘EOF’, got ‘，’ at position 11: 1\times{1}，̲3\times{3}，卷积核的个数随着层递减,依次为128，64，32
重复1-3的步骤２次
将输出经过一个卷积核大小为3\times{3}3×3，核数为32个
具体的公式如下：

输出层的输出

对于检测形状为RBOX，则输出包含文本得分和文本形状(AABB boundingbox 和rotate angle)，也就是一起有６个输出，这里AABB分别表示相对于top,right,bottom,left的偏移
对于检测形状为QUAD，则输出包含文本得分和文本形状(８个相对于corner vertices的偏移)，也就是一起有９个输出，其中QUAD有８个，分别为

训练

使用ADAM进行优化。统一采样到512x512，minibatch=24，学习率为1e-3，decays每27300minibatch减1/10，到1e-5停止。指标性能不变停止训练。

为了构建最终的结果，保留下来的几何形状在阈值作用后应该用NMS进行合并。

假设相邻像素构成的几何形状是高度相关的，提出逐行进行合并，同时同一行的几何图形进行合并，然后依次将当前遇到的几何图形与最后一个合并的几何图像合并。

实验结果

ICDAR 2015