https://arxiv.org/abs/1802.08948
题目:基于角点定位和回归的多场景文本检测
摘要:(1)目前基于深度学习的文本检测方法主要分为2类,
<1>基于目标检测的方法。直接回归文本框的坐标,但是可能对任意角度或者高横纵比的文本框效果不好;
<2>基于图像分割的方法。需要大量的复杂的后处理。首先生成分割图,然后后处理产生最终的文本包围框。
(2)本文提出的方法综合考虑了以上两种思想并避免了他们的缺点,我们通过对文本包围框的角点进行定位,并对文本区域进行相对位置的分割来检测场景文本。在推理阶段,通过对角点进行采样和分组生成候选框,这些候选框进一步通过分割映射进行评分并通过NMS去掉重叠的候选框。
(3)亮点:
<1>检测不是用一般的object detection的框架来做,而是用corner point detection来做。(可以更好解决文字方向任意、文字长宽比很大的文本)
<2>分割用的是“position sensitive segmentation”,仿照RFCN划分网格的思路,把位置信息融合进去(对于检测单词这种细粒度的更有利)
<3>把检测+分割两大类的方法整合起来,进行综合打分的pipeline(可以使得检测精度更高)

1、介绍
(1)场景文本检测具有挑战性既有内部的因素也有外部的因素
<1>外部的因素:环境,如噪声、模糊、遮挡等,这也是目标检测所遇到的常见问题,与一般的目标检测相比,场景文本检测更为复杂,因为[1] 方向的任意性,导致文本边界框可能是任意角度的长方形或者方形;[2]文本边界框的横纵比差异比较大;[3]由于场景文本可以是字符、单词或者文本行,所以边界定位时可能会造成混淆;
<2>内部的因素:场景文本本身的属性和变化非常大,比如形状、角度、尺度。
(2)我们的idea主要来源于两个观察:
<1>矩形框的位置由角点决定,与矩形框的大小、横纵比和角度无关;
<2>区域分割图可以很好的提供有效的文本位置
因此idea如下:我们首先检测文本区域的角点而不是直接检测文本区域的位置,此外,我们预测了敏感位置分割地图,而不是将区域直接分为文本/非文本区域;最终,通过对角点的随机采样和分组生成候选包围框,并通过分割信息剔除掉不合理的候选框,网络的pipeline如下图:

(3)方法的优点:
<1>通过对场景角点的采样和分组来检测场景文本,可以很自然地处理任意方向的文本;
<2>由于我们检测的是角点而不是文本包围框,我们的方法可以自动避免长径比变化较大的问题;
<3>位置敏感分割,无论文本实例是字符、单词还是文本行,都能很好地分割文本实例;
<4>在我们的方法中,候选框的边界由角点确定。与锚点([27,32])或文本区域([53,16])返回的文本包围框相比,生成的包围框更准确,特别是对于长文本。
(4)本文的贡献:
<1>提出了一种结合目标检测和分割思想的场景文本检测器,可以对其进行端到端的训练和评估。
<2>基于位置敏感的ROIpooling[9],我们提出了一个旋转位置敏感的ROI平均池层,可以处理任意方向的提案。
<3>我们的方法可以同时处理之前方法所遇到的面向多场景文本的挑战(如旋转、变长径比、非常接近的实例)。
<4>我们的方法在精度和效率上都取得了较好的或有竞争力的结果
2、网络架构:

网络采用全卷积神经网络来完成特征提取、角点检测和文本敏感区域分割;其中
<1>特征提取:采用预训练的VGG16来提取特征,将fc6和fc7层换成卷积层conv6和conv7,并在后面添加了一些卷积层(conv8, conv9, conv10, conv11),用于增加感受野的范围。之后采用DSSD的top-down pathway结构,解卷积采用了从conv11到conv3的feature map(其中conv10到conv3的featrue map被重用),输出的feature命名为。最后得到的conv11,和所有解卷积的feature maps用于角点和位置敏感图(position-sensitive)的预测。
<2>角点检测:对于一个旋转矩形来讲,可以通过顺时针分布的四个角点来得到,这四个点位置分别为左上,右上,左下,右下。为了更方便的检测角点,文中对角点进行的新的定义,,其中代表一个角点如(这个左上角点),同时它也是一个水平矩形的中心点,ss代表的是待检测旋转矩形的短边。这里意思就是将待检测角点用一个水平矩形表示,角点的位置就是这个水平矩形的中心,检测出水平矩形就相当于检测出角点的位置。通过上面角点的重新定义,检测角点的方法就可以类似于SSD和DSSD,利用定义的default boxes(类似于Faster RCNN中的anchor boxes)来进行矩形的检测。与物体检测有所不同的是,同一个位置可能存在多个角点(例如同一个位置可能同时为左下角点和右上角点)。所以对于大小为的feature map同时有k个default boxes的情况,score branch输出的类别分数(是否存在角点)通道数为,offset branch输出的通道数。
<3>位置敏感分割:
对于一个文本框,可以将框等分为部分,本文中分为也就是四个区域,这部分的预测用于对上面检测出的框打分使用。下面会说明。这部分的输出是重用了,上采用至大小然后相加,最后连续使用两个Conv1x1- BN-ReLU-Deconv2x2 块,得到通道大小与输入图像一样的feature map。

OCR论文阅读笔记01--multi-oriented scence text detection via corner localization and regin segmentation相关推荐

  1. [论文阅读笔记]Learning Memory-guided Normality for Anomaly Detection

    论文发表年限:CVPR,2020 作者:Hyunjong Park.Jongyoun Noh.Bumsub Ham 论文下载地址:Learning Memory-guided Normality fo ...

  2. 论文阅读笔记:GraphRAD---A Graph-based Risky Account Detection System

    GraphRAD: A Graph-based Risky Account Detection System GraphRAD系统详解 1. 交易记录 将交易记录分为训练集和测试集.对于参数估计和调优 ...

  3. FCGF论文阅读笔记

    FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...

  4. 2019 sample-free(样本不平衡)目标检测论文阅读笔记

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...

  5. 论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning

    论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...

  6. 论文阅读笔记 | 目标检测算法——FSAF算法

    如有错误,恳请指出 文章目录 1. Introduction 2. FSAF Module 2.1 Network Architecture 2.2 Ground-truth and Loss 2.2 ...

  7. 点云配准论文阅读笔记--(4PCS)4-Points Congruent Sets for Robust Pairwise Surface Registration

    目录 点云配准系列 写在前面 Abstract摘要 1 Introduction引言 2 Background研究背景 RANSAC Randomized Alignment 3 Approximat ...

  8. 论文阅读笔记(一)——铁饼鱼的面部识别:使用数字模型的实验方法

    论文阅读笔记(一)--铁饼鱼的面部识别:使用数字模型的实验方法 论文简介 期刊情况 摘要 研究背景 正文 动物实验对象的制备 社交展示的描述 实验过程 实验1 实验2 道德声明 结果 商量 论文简介 ...

  9. 点云配准论文阅读笔记--Comparing ICP variants on real-world data sets

    目录 写在前面 点云配准系列 摘要 1引言(Introduction) 2 相关研究(Related work) 3方法( Method) 3.1输入数据的敏感性 3.2评价指标 3.3协议 4 模块 ...

最新文章

  1. UVa 11168 Airport , 凸包
  2. NET快速开发实践中的IExtenderProvider扩展组件
  3. android studio 修改程序包名
  4. java 链表 最小堆优先级队列_关于Java集合的小抄
  5. 软件工程概论 课堂练习 第2次作业5【顺序图思考题——绘制手机拨号顺序图】
  6. 3485. 最大异或和
  7. jQuery:无限循环两个或者多个事件 click / toggle between two functions
  8. Python玩转各种多媒体,视频、音频到图片
  9. C# 异常处理(一)
  10. python创建类的实例化_在C中实例化python类#
  11. 分享几个vue后台模板
  12. 【前端】弹出框提交表单
  13. 计算机视觉、机器学习、深度学习相关开源代码集合归纳总结(二)(收藏用)
  14. cout与printf区别
  15. ESP32快速实现3.2英寸TFT LCD中jpeg图像(ILI9341)
  16. 图像处理中涉及的灰度图、彩色图以及深度图概念
  17. 【YAML】【YAML的实践】【YAML的使用学习记录】
  18. 基于文心大模型的剧本杀海报生成器(武侠篇)
  19. 【华为】Smart-Link基础知识
  20. 文件上传upload-labs靶场通关指南

热门文章

  1. VBA--LBound函数与UBound函数用法详解
  2. BP神经网络推导(两个隐藏层)
  3. 【Python进阶】9- Pandas的应用
  4. Dango-之多对多关系—基于双下划线的查询
  5. 条码标签软件中如何进行文字的对齐
  6. PlayStation Now比您想象的要好
  7. 【动手学深度学习】(task123)注意力机制剖析
  8. K210入门,用wifi通讯
  9. 用Java模拟斗地主游戏
  10. 使用yocs_velocity_smoother对机器人速度进行限制