CRAFT（Character Region Awareness for Text Detection）

相关资料
论文地址：Character Region Awareness for Text Detection
作者的推理部分代码：clovaai/CRAFT-pytorch
https://zhuanlan.zhihu.com/p/76528329

字符级文本检测CRAFT

这个方法来源于CVPR2019 Character Region Awareness for Text Detection的论文，论文地址：https://arxiv.org/pdf/1904.01941.pdf
已经开源的代码：https://github.com/clovaai/CRAFT-pytorch

核心思想：

1.利用了分割的方法，但与普通的图像分割不同的是，CRAFT不是对整个图像的进行像素级分割（如Faster-Rcnn）,它将一个character视为一个检测目标对象，而不是一个word（所有的word都由character构成），即不把文本框当做目标。

故，它先检测单个字符（character region score）及字符间的连接关系（affinity score），然后根据字符间的连接关系确定最终的文本行

这样做的好处在于：使用小感受野也能预测大文本和长文本，只需要关注字符级别的内容而不需要关注整个文本实例。

2.在训练过程中对于合成样本可以很好地进行单个字符的标注，但是对于现有的文本数据库，其标注方式基本是基于文本行的，所以文中提出了如何利用现有文本检测数据集合成数据得到真实数据的单字标注的弱监督方法。
整体的算法结构

上图为整个CRAFT的网络结构：特征提取的主干网络采用的VGG-16以及batch normalization，解码器部分采用了U-net的方法，采用自顶向下的特征聚合方式，最终输出两个通道：region score map和affinity score map，分别为单字符中心区域的概率和相邻字符区域中心的概率，得到原图大小1/2的预测图。

网络结构

主干网络采用了VGG16-BN，上采用部分设计了一个UpConv Block结构，网络最终在1/2图上产生两个输出：

Region score：字符级的高斯热图
Affinity score：字符间连接的高斯热图

训练数据处理

对于训练标签生成，与以往分割图(以二值化的方式离散标记每个像素的label)的生成方式不同，CRAFT采用高斯热度图来生成region score和affinity score.采用高斯热度图的好处:它能很好地处理没有严格包围的边界区域．

上图是训练数据的label的生成示意图。
于character affinity score标签生成，从左边开始看，有了一个字符级的标注（红框， Character Boxes），这个字符的四个点（绿边）构成一个四边形，做对角线，构成两个三角形（蓝边），取三角形的中心，两个框之间就有四个点，构成了一个新的边框，这个边框就是用来表示两个字符之间的连接的label的（Affinity Boxes）
对于character region score标签生成，由于对box中的每个像素计算高斯分布值比较耗时，本文结合透视变换，采用了近似估计的方法来生成标签，具体步骤如下：
a).准备一个二维的高斯图；
b).计算高斯图区域和每个文字框的透视变换；
c).将高斯图变换到文字框区域．

弱监督学习

上图是整个弱监督学习的框架。
从图中可以看出，有三种颜色的线，最开始训练是蓝色的线条，其利用Synth80k数据集(合成数据，这些数据的标注是准确的）进行有监督的训练，使整个模型达到的效果后，进行弱监督训练。
绿色线条代表是真实数据，这些数据的标注是文本行等级的，真实数据的训练分为以下几步：
1.根据真实数据的标签，将文本行crop出来。
2.跑网络，得到结果图。
3.根据网络输出的图，分割出单个文字，得到字符的基本文字框。
4.根据上一步的结果，生成label。

效果图

特性

CRAFT可以用于处理任意方向文本、曲线文本、畸变文本等．
该方法具有如下特性：
1).对尺度变换具有较好地鲁棒性，本文都是基于单尺度图像进行实验的；
2).本文模型不能适用与粘连的语言，如Bangla and Arabic characters；
3).相比于端到端的文本检测方法，该方法在训练的时候借助了文本长度
4).泛化能力较强

生成伪标签

对于只有Word级而无Character级标签的数据集（如ICDAR2013、ICDAR2015），需要生成Character级的标签。

原作方法

使用Word级的Box坐标crop出文本图像
使用当前训练的模型预测出文本图像的Region Score Map。
使用分水岭算法分割Region Score Map，得到Character Box的坐标。
将Character Box的坐标转换回原坐标

替代方法

使用当前训练的模型预测出图像的Region Score Map。

使用Word级的Box坐标crop出局部的Region Score Map。

使用分水岭算法分割Region Score Map，得到Character Box的坐标。

将Character Box的坐标转换回原坐标

训练策略

训练步骤

1.在强标签数据（SynthText）上进行强监督训练，迭代50k次。
2.在其他数据集上进行fine-tuning，强标签数据和弱标签数据混合训练。

训练技巧

fine-tuning期间，弱标签数据和强标签数据按照1:5的比例进行训练，从而保证字符级标签的准确性。
对于ICDAR2015和ICDAR2017中部分“DO NOT CARE”的文本在训练阶段将Confidence设置为0。
常用的数据增强，如：Crops，rotations，and/or color variations。
按照1:3使用OHEM。

论文中的结果