OCR论文阅读笔记01--multi-oriented scence text detection via corner localization and regin segmentation

https://arxiv.org/abs/1802.08948
题目：基于角点定位和回归的多场景文本检测
摘要：（1）目前基于深度学习的文本检测方法主要分为2类，
<1>基于目标检测的方法。直接回归文本框的坐标，但是可能对任意角度或者高横纵比的文本框效果不好；
<2>基于图像分割的方法。需要大量的复杂的后处理。首先生成分割图，然后后处理产生最终的文本包围框。
（2）本文提出的方法综合考虑了以上两种思想并避免了他们的缺点，我们通过对文本包围框的角点进行定位，并对文本区域进行相对位置的分割来检测场景文本。在推理阶段，通过对角点进行采样和分组生成候选框，这些候选框进一步通过分割映射进行评分并通过NMS去掉重叠的候选框。
（3）亮点：
<1>检测不是用一般的object detection的框架来做，而是用corner point detection来做。（可以更好解决文字方向任意、文字长宽比很大的文本）
<2>分割用的是“position sensitive segmentation”，仿照RFCN划分网格的思路，把位置信息融合进去（对于检测单词这种细粒度的更有利）
<3>把检测+分割两大类的方法整合起来，进行综合打分的pipeline（可以使得检测精度更高）

1、介绍
（1）场景文本检测具有挑战性既有内部的因素也有外部的因素
<1>外部的因素：环境，如噪声、模糊、遮挡等，这也是目标检测所遇到的常见问题，与一般的目标检测相比，场景文本检测更为复杂，因为[1] 方向的任意性，导致文本边界框可能是任意角度的长方形或者方形；[2]文本边界框的横纵比差异比较大；[3]由于场景文本可以是字符、单词或者文本行，所以边界定位时可能会造成混淆；
<2>内部的因素：场景文本本身的属性和变化非常大，比如形状、角度、尺度。
（2）我们的idea主要来源于两个观察：
<1>矩形框的位置由角点决定，与矩形框的大小、横纵比和角度无关；
<2>区域分割图可以很好的提供有效的文本位置
因此idea如下：我们首先检测文本区域的角点而不是直接检测文本区域的位置，此外，我们预测了敏感位置分割地图，而不是将区域直接分为文本/非文本区域；最终，通过对角点的随机采样和分组生成候选包围框，并通过分割信息剔除掉不合理的候选框，网络的pipeline如下图：

(3)方法的优点：
<1>通过对场景角点的采样和分组来检测场景文本，可以很自然地处理任意方向的文本;
<2>由于我们检测的是角点而不是文本包围框，我们的方法可以自动避免长径比变化较大的问题;
<3>位置敏感分割，无论文本实例是字符、单词还是文本行，都能很好地分割文本实例;
<4>在我们的方法中，候选框的边界由角点确定。与锚点([27,32])或文本区域([53,16])返回的文本包围框相比，生成的包围框更准确，特别是对于长文本。
(4)本文的贡献：
<1>提出了一种结合目标检测和分割思想的场景文本检测器，可以对其进行端到端的训练和评估。
<2>基于位置敏感的ROIpooling[9]，我们提出了一个旋转位置敏感的ROI平均池层，可以处理任意方向的提案。
<3>我们的方法可以同时处理之前方法所遇到的面向多场景文本的挑战(如旋转、变长径比、非常接近的实例)。
<4>我们的方法在精度和效率上都取得了较好的或有竞争力的结果
2、网络架构：

网络采用全卷积神经网络来完成特征提取、角点检测和文本敏感区域分割；其中
<1>特征提取：采用预训练的VGG16来提取特征，将fc6和fc7层换成卷积层conv6和conv7，并在后面添加了一些卷积层(conv8, conv9, conv10, conv11)，用于增加感受野的范围。之后采用DSSD的top-down pathway结构，解卷积采用了从conv11到conv3的feature map（其中conv10到conv3的featrue map被重用），输出的feature命名为。最后得到的conv11，和所有解卷积的feature maps用于角点和位置敏感图(position-sensitive)的预测。
<2>角点检测：对于一个旋转矩形来讲，可以通过顺时针分布的四个角点来得到，这四个点位置分别为左上，右上，左下，右下。为了更方便的检测角点，文中对角点进行的新的定义，，其中代表一个角点如(这个左上角点)，同时它也是一个水平矩形的中心点，ss代表的是待检测旋转矩形的短边。这里意思就是将待检测角点用一个水平矩形表示，角点的位置就是这个水平矩形的中心，检测出水平矩形就相当于检测出角点的位置。通过上面角点的重新定义，检测角点的方法就可以类似于SSD和DSSD，利用定义的default boxes(类似于Faster RCNN中的anchor boxes)来进行矩形的检测。与物体检测有所不同的是，同一个位置可能存在多个角点(例如同一个位置可能同时为左下角点和右上角点)。所以对于大小为的feature map同时有k个default boxes的情况，score branch输出的类别分数(是否存在角点)通道数为，offset branch输出的通道数。
<3>位置敏感分割：
对于一个文本框，可以将框等分为部分，本文中分为也就是四个区域，这部分的预测用于对上面检测出的框打分使用。下面会说明。这部分的输出是重用了，上采用至大小然后相加，最后连续使用两个Conv1x1- BN-ReLU-Deconv2x2 块，得到通道大小与输入图像一样的feature map。

OCR论文阅读笔记01--multi-oriented scence text detection via corner localization and regin segmentation相关推荐

[论文阅读笔记]Learning Memory-guided Normality for Anomaly Detection
论文发表年限:CVPR,2020 作者:Hyunjong Park.Jongyoun Noh.Bumsub Ham 论文下载地址:Learning Memory-guided Normality fo ...
论文阅读笔记：GraphRAD---A Graph-based Risky Account Detection System
GraphRAD: A Graph-based Risky Account Detection System GraphRAD系统详解 1. 交易记录将交易记录分为训练集和测试集.对于参数估计和调优 ...
FCGF论文阅读笔记
FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...
2019 sample-free（样本不平衡）目标检测论文阅读笔记
点击我爱计算机视觉标星,更快获取CVML新技术本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...
论文阅读笔记：Improving Attacks on Speck32 / 64 using Deep Learning
论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...
论文阅读笔记 | 目标检测算法——FSAF算法
如有错误,恳请指出文章目录 1. Introduction 2. FSAF Module 2.1 Network Architecture 2.2 Ground-truth and Loss 2.2 ...
点云配准论文阅读笔记--(4PCS)4-Points Congruent Sets for Robust Pairwise Surface Registration
目录点云配准系列写在前面 Abstract摘要 1 Introduction引言 2 Background研究背景 RANSAC Randomized Alignment 3 Approximat ...
论文阅读笔记（一）——铁饼鱼的面部识别：使用数字模型的实验方法
论文阅读笔记(一)--铁饼鱼的面部识别:使用数字模型的实验方法论文简介期刊情况摘要研究背景正文动物实验对象的制备社交展示的描述实验过程实验1 实验2 道德声明结果商量论文简介 ...
点云配准论文阅读笔记--Comparing ICP variants on real-world data sets
目录写在前面点云配准系列摘要 1引言(Introduction) 2 相关研究(Related work) 3方法( Method) 3.1输入数据的敏感性 3.2评价指标 3.3协议 4 模块 ...

OCR论文阅读笔记01--multi-oriented scence text detection via corner localization and regin segmentation

OCR论文阅读笔记01--multi-oriented scence text detection via corner localization and regin segmentation相关推荐

最新文章

热门文章