1.介绍

现代文本检测器能够捕捉各种不同挑战场景下的文本。然而，它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例

为了处理这些困难，我们在本文中提出了一个新的场景文本检测的新算法，该算法提出了一系列策略显著地提高了文本定位的质量

EAST，一个非常具有代表性的单级（one-stage）场景文字检测器，已经证实对极端横纵比的文本实例检测不行。（可以去查看一下EAST的论文）

这有两个主要原因：

1）网络的感受野受限，所以不能够足够的信息来精确预测空间扩展的长文本实例。

2）在EAST的NMS步骤，检测融合使用它们文本/非文本分类分数作为权重，这就忽视了由网络有限的感受野导致的它们质量差异，最后导致有偏差的几何估计

本文提出了一个带有定位细化的多方向场景文字检测器（MOST）。定位细化部分包括一个文本特征对齐模块（TFAM）和一个位置感知非极大抑制（PA-NMS）模块。

前者将图像特征与粗略检测结果对齐，这可以动态地调整定位预测层地感受野。另一方面，后者根据原始检测被预测的位置自适应地合并原始检测，以集中于准确的预测，同时放弃不准确的预测。

2.表现效果

特别地，它们在MLT17验证集提高了4.0%和9.5%的表现（针对不同的IoU标准），在MTW1测试集上提高了5.1%。并且，我们提出的文本检测器保持了一个简单管道，运行非常快。

本文的贡献有4个方面：

1、我们提出了TFAM，它基于粗略检测动态调整感受野。

2、提出的PA-NMS通过融合基于位置的可信预测，更加改善了检测。

3、我们介绍了实例级IoU损失来平衡不同尺度文本实例的训练。

4、我们提出的MOST达到了在快速推理速度下，SOTA或者可竞争的表现。

Bottom-up methods把场景文字检测分为两步处理：1）检测基本元素；2）聚合这些元素来产生检测结果

3.方法策略

Top-down methods通常遵循一个普通目标检测管道，并直接输出单词/文本行检测结果。这些方法可以被进一步明确成两子类。One-stage文本检测器如TextBoxes，EAST，TextBoxes++和RRD直接回归整个特征图上的文本边框参数，并使用NMS来产生最终结果。Two-stage文本检测器像Mask TextSpotter系列，正相反，遵循的MaskRCNN类型框架，通过先使用一个区域提案网络（RPN）来产生文本框，再回归对应边框参数。这些方法通常有一个相对简单的后处理算法，可以避免复杂的聚合步骤。

LOMO提出了一个可迭代细化模块（IRM）通过iterative refinement来感知整个长文字，它基于初步提案提取多倍RoI特征，组成一个多级检测器。

它基于初步提案提取多倍RoI特征，组成一个多级检测器

PA-NMS表示位置感知非极大抑制。

实验：比较SimCLR与非SimCLR进行比较

3.1有监督学习

DataSets:	public datasets of handwriten and scene text recognition.	Handwriten:IAM and CVL and French dataset RIMES
	Scene dataset: syntheic dataset SynText and test IIT5K,IC03 and IC13

本次工作提出一个对比性学习方法：SeqCLR，用于文本识别。将每个特征图看作是一系列的独立实例，得到 sub-word 级上的对比学习，例如每个图像提取几个正面的配对和多个负面的例子。另外，为获得有效的文本识别视觉表征，进一步提出新的增强启发式方法、不同的编码器架构和自定义投影头。

在手写文本和场景文本上的实验表明，当用学到的表征训练文本解码器时，所提出方法优于非序列对比法。此外，当监督量减少时，与监督训练相比，SeqCLR 明显提高了性能，而当用 100% 的标签进行微调时，SeqCLR 在标准手写文本识别基准上取得了最先进的结果。

3.2 位置感知非极大值抑制

文本和非文本可以有得分S(p),S(q)。并且对应权重为p(i)和q(i)

我们提出了位置感知的NMS，在合并过程中，根据方框的位置，保留检测到的方框的准确部分，同时删除不准确的部分

PA-NMS使用相应的位置感知得分的值，而不是文本/非文本分类得分，作为位置感知合并过程中框的权重，这可以帮助精确定位文字边界。

4.实验结果

可以明显看到要么和baseline平行差不多，要么高于普遍的baseline。但是速度超过了一般的训练。

效果图

1:MOST: A Multi-Oriented Scene Text Detector with Localization Refinement相关推荐

文本检测论文阅读笔记之 Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks
Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks 摘要:最近语义分割和通用对象检测框架已被场景广泛采用文 ...
EAST: An Efficient and Accurate Scene Text Detector
EAST: An Efficient and Accurate Scene Text Detector EAST:高效准确的场景文本检测器 [Abstract] 先前的场景文本检测方法已经在各种基准测 ...
EAST: An Efﬁcient and Accurate Scene Text Detector 论文阅读
EAST: An Efﬁcient and Accurate Scene Text Detector 论文阅读 Reference 正文摘要引言相关工作方法算法网络设计标签生成损失函数 ...
【翻译】EAST: An Efficient and Accurate Scene Text Detector
EAST: An Efficient and Accurate Scene Text Detector 论文地址概要以前的场景文本检测方法已经在各种基准上取得了有希望的表现.然而,即使配备深层神经 ...
EAST: An Efficient and Accurate Scene Text Detector（自然场景下文本识别）训练，测试
首先介绍一下我的环境配置,ubuntu16.04+cuda9.0,cudnn7.0,tensorflow-gpu=1.8 简介其实对这个不是很有研究的,只是要参加一个阿里天池的比赛,然后用这个跑了一 ...
基于深度学习的场景文本检测和识别（Scene Text Detection and Recognition）综述
1. 引言文字是人类最重要的创作之一,它使人们在时空上可以有效地.可靠的传播或获取信息. 场景中的文字的检测和识别对我们理解世界很有帮助,它应用在图像搜索.即时翻译.机器人导航.工业自动化等领域. ...
转：【PAMI2018】ASTER_An Attentional Scene Text Recognizer with Flexible Rectification
XiangBai--[PAMI2018]ASTER_An Attentional Scene Text Recognizer with Flexible Rectification 作者和论文论文 ...
MSR: Multi-Scale Shape Regression for Scene Text Detection 论文阅读笔记
MSR: Multi-Scale Shape Regression for Scene Text Detection 1. 基本信息文章来源:arxiv(录用期刊或会议未知) SAST链接上传时间 ...
UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World（译）
UnrealText:合成来自虚幻世界的真实场景文本图像仅供参考,如翻译不到的请指出,侵权删来源: CVPR2020,旷视 code 链接: https://jyouhou.github.io/U ...

1:MOST: A Multi-Oriented Scene Text Detector with Localization Refinement