1.介绍

现代文本检测器能够捕捉各种不同挑战场景下的文本。然而,它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例

为了处理这些困难,我们在本文中提出了一个新的场景文本检测的新算法,该算法提出了一系列策略显著地提高了文本定位的质量

EAST,一个非常具有代表性的单级(one-stage)场景文字检测器,已经证实对极端横纵比的文本实例检测不行。(可以去查看一下EAST的论文)

这有两个主要原因:

1)网络的感受野受限,所以不能够足够的信息来精确预测空间扩展的长文本实例。

2)在EAST的NMS步骤,检测融合使用它们文本/非文本分类分数作为权重,这就忽视了由网络有限的感受野导致的它们质量差异,最后导致有偏差的几何估计

本文提出了一个带有定位细化的多方向场景文字检测器(MOST)。定位细化部分包括一个文本特征对齐模块(TFAM)和一个位置感知非极大抑制(PA-NMS)模块。

前者将图像特征与粗略检测结果对齐,这可以动态地调整定位预测层地感受野。另一方面,后者根据原始检测被预测的位置自适应地合并原始检测,以集中于准确的预测,同时放弃不准确的预测。

2.表现效果

特别地,它们在MLT17验证集提高了4.0%和9.5%的表现(针对不同的IoU标准),在MTW1测试集上提高了5.1%。并且,我们提出的文本检测器保持了一个简单管道,运行非常快。

本文的贡献有4个方面:

1、我们提出了TFAM,它基于粗略检测动态调整感受野。

2、提出的PA-NMS通过融合基于位置的可信预测,更加改善了检测。

3、我们介绍了实例级IoU损失来平衡不同尺度文本实例的训练。

4、我们提出的MOST达到了在快速推理速度下,SOTA或者可竞争的表现。

Bottom-up methods把场景文字检测分为两步处理:1)检测基本元素;2)聚合这些元素来产生检测结果

3.方法策略

Top-down methods通常遵循一个普通目标检测管道,并直接输出单词/文本行检测结果。这些方法可以被进一步明确成两子类。One-stage文本检测器如TextBoxes,EAST,TextBoxes++和RRD直接回归整个特征图上的文本边框参数,并使用NMS来产生最终结果。Two-stage文本检测器像Mask TextSpotter系列,正相反,遵循的MaskRCNN类型框架,通过先使用一个区域提案网络(RPN)来产生文本框,再回归对应边框参数。这些方法通常有一个相对简单的后处理算法,可以避免复杂的聚合步骤。

LOMO提出了一个可迭代细化模块(IRM)通过iterative refinement来感知整个长文字,它基于初步提案提取多倍RoI特征,组成一个多级检测器。

它基于初步提案提取多倍RoI特征,组成一个多级检测器

PA-NMS表示位置感知非极大抑制。

实验:比较SimCLR与非SimCLR进行比较

3.1有监督学习

DataSets:

public datasets of handwriten and scene text recognition.

Handwriten:IAM and CVL and French dataset RIMES

Scene dataset: syntheic dataset SynText and test  IIT5K,IC03 and IC13

本次工作提出一个对比性学习方法:SeqCLR,用于文本识别。将每个特征图看作是一系列的独立实例,得到 sub-word 级上的对比学习,例如每个图像提取几个正面的配对和多个负面的例子。另外,为获得有效的文本识别视觉表征,进一步提出新的增强启发式方法、不同的编码器架构和自定义投影头。

在手写文本和场景文本上的实验表明,当用学到的表征训练文本解码器时,所提出方法优于非序列对比法。此外,当监督量减少时,与监督训练相比,SeqCLR 明显提高了性能,而当用 100% 的标签进行微调时,SeqCLR 在标准手写文本识别基准上取得了最先进的结果。

3.2 位置感知非极大值抑制

文本和非文本可以有得分S(p),S(q)。并且对应权重为p(i)和q(i)

我们提出了位置感知的NMS,在合并过程中,根据方框的位置,保留检测到的方框的准确部分,同时删除不准确的部分

PA-NMS使用相应的位置感知得分的值,而不是文本/非文本分类得分,作为位置感知合并过程中框的权重,这可以帮助精确定位文字边界。

4.实验结果

可以明显看到要么和baseline平行差不多,要么高于普遍的baseline。但是速度超过了一般的训练。

效果图

1:MOST: A Multi-Oriented Scene Text Detector with Localization Refinement相关推荐

  1. 文本检测 论文阅读笔记之 Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

    Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks 摘要:最近语义分割和通用对象检测框架已被场景广泛采用文 ...

  2. EAST: An Efficient and Accurate Scene Text Detector

    EAST: An Efficient and Accurate Scene Text Detector EAST:高效准确的场景文本检测器 [Abstract] 先前的场景文本检测方法已经在各种基准测 ...

  3. EAST: An Efficient and Accurate Scene Text Detector 论文阅读

    EAST: An Efficient and Accurate Scene Text Detector 论文阅读 Reference 正文 摘要 引言 相关工作 方法 算法 网络设计 标签生成 损失函数 ...

  4. 【翻译】EAST: An Efficient and Accurate Scene Text Detector

    EAST: An Efficient and Accurate Scene Text Detector 论文地址 概要 以前的场景文本检测方法已经在各种基准上取得了有希望的表现.然而,即使配备深层神经 ...

  5. EAST: An Efficient and Accurate Scene Text Detector(自然场景下文本识别)训练,测试

    首先介绍一下我的环境配置,ubuntu16.04+cuda9.0,cudnn7.0,tensorflow-gpu=1.8 简介 其实对这个不是很有研究的,只是要参加一个阿里天池的比赛,然后用这个跑了一 ...

  6. 基于深度学习的场景文本检测和识别(Scene Text Detection and Recognition)综述

    1. 引言 文字是人类最重要的创作之一,它使人们在时空上可以有效地.可靠的传播或获取信息. 场景中的文字的检测和识别对我们理解世界很有帮助,它应用在图像搜索.即时翻译.机器人导航.工业自动化等领域. ...

  7. 转:【PAMI2018】ASTER_An Attentional Scene Text Recognizer with Flexible Rectification

    XiangBai--[PAMI2018]ASTER_An Attentional Scene Text Recognizer with Flexible Rectification 作者和论文 论文 ...

  8. MSR: Multi-Scale Shape Regression for Scene Text Detection 论文阅读笔记

    MSR: Multi-Scale Shape Regression for Scene Text Detection 1. 基本信息 文章来源:arxiv(录用期刊或会议未知) SAST链接 上传时间 ...

  9. UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World(译)

    UnrealText:合成来自虚幻世界的真实场景文本图像 仅供参考,如翻译不到的请指出,侵权删 来源: CVPR2020,旷视 code 链接: https://jyouhou.github.io/U ...

最新文章

  1. Bimsight视图及导航控制
  2. css 竖行进度图_css实现横向与竖向进度条效果的方法
  3. 大型开发项目中 git 工作流的最佳实践
  4. Celery的实践指南
  5. Android studio 创建kotlin工程
  6. 【转】Asp.net的生命周期应用之IHttpModule和IHttpHandler
  7. Element UI table组件源码分析
  8. 2015 年出现的十大流行 Python 库
  9. 详解 height 和 width 属性
  10. Uva_11427 Expect the Expected
  11. 【专升本计算机】计算机文化基础练习题(选择题300道附答案)
  12. 【读书笔记】《读懂孩子的心》——重新了解完整的自己
  13. systemd 知:介绍
  14. 系列服务器大概多重,一台服务器有多重
  15. HttpClient在多线程环境下踩坑总结
  16. 我的2021秋招记录
  17. 2018医疗器械行业发展
  18. 财务扫描发票,提示缺少颜色校正文件AV210.ICC
  19. CVE-2020-1938 幽灵猫( GhostCat ) Tomcat-Ajp协议 任意文件读取/JSP文件包含漏洞分析
  20. 详细介绍Audition输出一个周期2khz的正弦波(循环)。将一段数字音频歌曲数据转换为模拟音频波形输出(循环)。

热门文章

  1. 2022年上半年软考模拟卷
  2. 微信怎么隐藏视频号入口
  3. 使用POI导出Excel,以及xls和xlsx格式问题
  4. 恒丰银行基于大数据平台构建数据仓库的研究与实践
  5. SQL查询日期和时间
  6. PRML第七章稀疏核机 (RVM)
  7. Url被多次转义 URLDecoder.decode(url,“UTF-8“)
  8. CodeForces1214C
  9. WordPress采集插件-自动采集插件
  10. 架构解密:从分布式到微服务pdf