1:MOST: A Multi-Oriented Scene Text Detector with Localization Refinement
1.介绍
现代文本检测器能够捕捉各种不同挑战场景下的文本。然而,它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例
为了处理这些困难,我们在本文中提出了一个新的场景文本检测的新算法,该算法提出了一系列策略显著地提高了文本定位的质量
EAST,一个非常具有代表性的单级(one-stage)场景文字检测器,已经证实对极端横纵比的文本实例检测不行。(可以去查看一下EAST的论文)
这有两个主要原因:
1)网络的感受野受限,所以不能够足够的信息来精确预测空间扩展的长文本实例。
2)在EAST的NMS步骤,检测融合使用它们文本/非文本分类分数作为权重,这就忽视了由网络有限的感受野导致的它们质量差异,最后导致有偏差的几何估计
本文提出了一个带有定位细化的多方向场景文字检测器(MOST)。定位细化部分包括一个文本特征对齐模块(TFAM)和一个位置感知非极大抑制(PA-NMS)模块。
前者将图像特征与粗略检测结果对齐,这可以动态地调整定位预测层地感受野。另一方面,后者根据原始检测被预测的位置自适应地合并原始检测,以集中于准确的预测,同时放弃不准确的预测。
2.表现效果
特别地,它们在MLT17验证集提高了4.0%和9.5%的表现(针对不同的IoU标准),在MTW1测试集上提高了5.1%。并且,我们提出的文本检测器保持了一个简单管道,运行非常快。
本文的贡献有4个方面:
1、我们提出了TFAM,它基于粗略检测动态调整感受野。
2、提出的PA-NMS通过融合基于位置的可信预测,更加改善了检测。
3、我们介绍了实例级IoU损失来平衡不同尺度文本实例的训练。
4、我们提出的MOST达到了在快速推理速度下,SOTA或者可竞争的表现。
Bottom-up methods把场景文字检测分为两步处理:1)检测基本元素;2)聚合这些元素来产生检测结果
3.方法策略
Top-down methods通常遵循一个普通目标检测管道,并直接输出单词/文本行检测结果。这些方法可以被进一步明确成两子类。One-stage文本检测器如TextBoxes,EAST,TextBoxes++和RRD直接回归整个特征图上的文本边框参数,并使用NMS来产生最终结果。Two-stage文本检测器像Mask TextSpotter系列,正相反,遵循的MaskRCNN类型框架,通过先使用一个区域提案网络(RPN)来产生文本框,再回归对应边框参数。这些方法通常有一个相对简单的后处理算法,可以避免复杂的聚合步骤。
LOMO提出了一个可迭代细化模块(IRM)通过iterative refinement来感知整个长文字,它基于初步提案提取多倍RoI特征,组成一个多级检测器。
它基于初步提案提取多倍RoI特征,组成一个多级检测器
PA-NMS表示位置感知非极大抑制。
实验:比较SimCLR与非SimCLR进行比较
3.1有监督学习
DataSets: |
public datasets of handwriten and scene text recognition. |
Handwriten:IAM and CVL and French dataset RIMES |
Scene dataset: syntheic dataset SynText and test IIT5K,IC03 and IC13 |
本次工作提出一个对比性学习方法:SeqCLR,用于文本识别。将每个特征图看作是一系列的独立实例,得到 sub-word 级上的对比学习,例如每个图像提取几个正面的配对和多个负面的例子。另外,为获得有效的文本识别视觉表征,进一步提出新的增强启发式方法、不同的编码器架构和自定义投影头。
在手写文本和场景文本上的实验表明,当用学到的表征训练文本解码器时,所提出方法优于非序列对比法。此外,当监督量减少时,与监督训练相比,SeqCLR 明显提高了性能,而当用 100% 的标签进行微调时,SeqCLR 在标准手写文本识别基准上取得了最先进的结果。
3.2 位置感知非极大值抑制
文本和非文本可以有得分S(p),S(q)。并且对应权重为p(i)和q(i)
我们提出了位置感知的NMS,在合并过程中,根据方框的位置,保留检测到的方框的准确部分,同时删除不准确的部分
PA-NMS使用相应的位置感知得分的值,而不是文本/非文本分类得分,作为位置感知合并过程中框的权重,这可以帮助精确定位文字边界。
4.实验结果
可以明显看到要么和baseline平行差不多,要么高于普遍的baseline。但是速度超过了一般的训练。
效果图
1:MOST: A Multi-Oriented Scene Text Detector with Localization Refinement相关推荐
- 文本检测 论文阅读笔记之 Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks
Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks 摘要:最近语义分割和通用对象检测框架已被场景广泛采用文 ...
- EAST: An Efficient and Accurate Scene Text Detector
EAST: An Efficient and Accurate Scene Text Detector EAST:高效准确的场景文本检测器 [Abstract] 先前的场景文本检测方法已经在各种基准测 ...
- EAST: An Efficient and Accurate Scene Text Detector 论文阅读
EAST: An Efficient and Accurate Scene Text Detector 论文阅读 Reference 正文 摘要 引言 相关工作 方法 算法 网络设计 标签生成 损失函数 ...
- 【翻译】EAST: An Efficient and Accurate Scene Text Detector
EAST: An Efficient and Accurate Scene Text Detector 论文地址 概要 以前的场景文本检测方法已经在各种基准上取得了有希望的表现.然而,即使配备深层神经 ...
- EAST: An Efficient and Accurate Scene Text Detector(自然场景下文本识别)训练,测试
首先介绍一下我的环境配置,ubuntu16.04+cuda9.0,cudnn7.0,tensorflow-gpu=1.8 简介 其实对这个不是很有研究的,只是要参加一个阿里天池的比赛,然后用这个跑了一 ...
- 基于深度学习的场景文本检测和识别(Scene Text Detection and Recognition)综述
1. 引言 文字是人类最重要的创作之一,它使人们在时空上可以有效地.可靠的传播或获取信息. 场景中的文字的检测和识别对我们理解世界很有帮助,它应用在图像搜索.即时翻译.机器人导航.工业自动化等领域. ...
- 转:【PAMI2018】ASTER_An Attentional Scene Text Recognizer with Flexible Rectification
XiangBai--[PAMI2018]ASTER_An Attentional Scene Text Recognizer with Flexible Rectification 作者和论文 论文 ...
- MSR: Multi-Scale Shape Regression for Scene Text Detection 论文阅读笔记
MSR: Multi-Scale Shape Regression for Scene Text Detection 1. 基本信息 文章来源:arxiv(录用期刊或会议未知) SAST链接 上传时间 ...
- UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World(译)
UnrealText:合成来自虚幻世界的真实场景文本图像 仅供参考,如翻译不到的请指出,侵权删 来源: CVPR2020,旷视 code 链接: https://jyouhou.github.io/U ...
最新文章
- Bimsight视图及导航控制
- css 竖行进度图_css实现横向与竖向进度条效果的方法
- 大型开发项目中 git 工作流的最佳实践
- Celery的实践指南
- Android studio 创建kotlin工程
- 【转】Asp.net的生命周期应用之IHttpModule和IHttpHandler
- Element UI table组件源码分析
- 2015 年出现的十大流行 Python 库
- 详解 height 和 width 属性
- Uva_11427 Expect the Expected
- 【专升本计算机】计算机文化基础练习题(选择题300道附答案)
- 【读书笔记】《读懂孩子的心》——重新了解完整的自己
- systemd 知:介绍
- 系列服务器大概多重,一台服务器有多重
- HttpClient在多线程环境下踩坑总结
- 我的2021秋招记录
- 2018医疗器械行业发展
- 财务扫描发票,提示缺少颜色校正文件AV210.ICC
- CVE-2020-1938 幽灵猫( GhostCat ) Tomcat-Ajp协议 任意文件读取/JSP文件包含漏洞分析
- 详细介绍Audition输出一个周期2khz的正弦波(循环)。将一段数字音频歌曲数据转换为模拟音频波形输出(循环)。