点击上方“AI算法与图像处理”,选择加"星标"或“置顶”

重磅干货,第一时间送达

作者:刘崇宇

转载自:CSIG文档图像分析与识别专委会

本文总结了2012年以来在场景文本检测领域的70篇代表性论文、21个常用数据集、15份开源代码,包含176个实验结果以及超过1300条统计信息。Github资源链接见文末。

一、前言

许多自然场景中包含着丰富的文本信息,对于理解自然场景图像有着十分重要的作用。随着互联网和移动互联网技术飞速发展,许多新型的应用场景都需要利用自然场景中的丰富的文本信息,例如车牌检测和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。
OCR(Optical Character Recognition) , 光学字符识别,是指对输入的扫描文档图像进行分析处理,检测并识别出该图像当中的文本信息; 而自然场景中的文本,不同于传统的扫描图像,因其文字展现形式丰富,背景复杂,分辨率和亮度不一,容易受到环境噪声等因素的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。场景文本检测(Scene Text Detection),即准确定位自然场景中文本的位置,是场景文本分析与处理的基石。近年来,随着深度学习的发展,场景文本检测取得了突破性的进展。
二、场景文本检测数据集

本文总共整理了21个场景文本检测数据集,根据数据集的形式和应用场景可以按如下标准划分:

1.  Horizontal-Text Datasets
ICDAR 2003、 ICDAR 2011、ICDAR 2013;
2.  Arbitrary-Quadrilateral-Text Datasets
USTB-SV1K、SVT、SVT-P、ICDAR 2015、COCO-Text、MSRA-TD500、MLT 2017、MLT 2019、CTW、RCTW-17、ReCTS;
3.  Irregular-Text Datasets
CUTE80、Total-Text、SCUT-CTW1500、LSVT、ArT; 
4.  Synthetic Datasets
Synth80k、SynthText。

详细对比内容如表1所示,其中包括语种、图片以及文本数量(训练/测试)、标注类型等,更多内容详见资源链接。

表1 场景文本检测数据集对比

三、场景文本检测方法总结

本小节整理并对比了场景文本检测中70篇重要论文(发表于TPAMI、TIP等期刊以及CVPR,ICCV等CCF A类会议),对比内容包括代码是否开源、方法分类、适用场景、出处、时间以及创新点等。

本文将场景文本检测方法分为四类:

(a) Traditional methods;

(b) Segmentation-based methods;

(c) Regression-based methods;

(d) Hybrid methods.

详细对比见表2-5以及资源链接。注:表格中Hori,Quad和Irreg分别代表水平文本,任意四边形文本以及不规则文本。

1. Traditional methods

表2 传统场景文本检测方法对比

2. Segmentation-based methods

表3 基于分割的场景文本检测方法对比

3. Regression-based methods

表4 基于回归的场景文本检测方法对比

4. Hybrid methods

表5 场景文本检测的集成方法对比

四、场景文本检测结果汇总
本小节整理了70篇场景文本检测重要论文的在不同类型数据集上的评估结果。部分截图如下表,详细内容请见资源链接。(注:P、R、F 分别代表Precision、Recall和F-measure。)
1.  Detection Results on Horizontal-Text Datasets

2.  Detection Results on Arbitrary Quadrilateral Text Datasets

3. Detection Results on Irregular-Text Datasets
五、小结

本文总结了2012年以来在场景文本检测领域的70篇重要论文、21个常用数据集、15份论文开源代码、176个实验结果以及超过1300条统计信息。此外,我们还总结了近年来场景文本检测评估标准的相关论文和部分企业提供的OCR服务。详细内容见下面的Github链接。

Github资源链接
  • Scene Text Detection:https://github.com/HCIILAB/Scene-Text-Detection


作者:刘崇宇
编排:高  学 
审校:殷  飞 
发布:金连文 

作者及资源整理者介绍:刘崇宇,华南理工大学电子与信息学院在读硕士生。

免责声明:本文仅代表作者观点,不代表本公众号立场。

推荐阅读:

点个在看支持一下吧

史上最全场景文字检测资源合集(70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息)...相关推荐

  1. 史上最全场景文字识别资源汇集(56篇重要论文 + 20 个开源代码 + 330 个实验结果 + 1882个统计信息)...

    点击上方"AI算法与图像处理",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:刘崇宇 转载自:CSIG文档图像分析与识别专委会 本 ...

  2. c++实验总结_史上最全场景文字检测资源合集(70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息)...

    本文总结了2012年以来在场景文本检测领域的70篇代表性论文.21个常用数据集.15份开源代码,包含176个实验结果以及超过1300条统计信息.Github资源链接见文末. 一.前言 许多自然场景中包 ...

  3. 史上最全的Android文章精选合集

    用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金 Cover 有什么料? 从这篇文章中你能获得这些料: 知道setContentView()之后发生了什么? ... Andr ...

  4. 史上最全的dB分贝单位合集: dB,dBFS, dB FS, dBTP, dB TP, dBO, dBov, dBu/dBv, dBV, dBm/dBmW, dBW,...

    dB 数值范围根据实际测量的参考值有变化.计算能量: 计算场量: 领域 电压 dBu/dBv dBmV dB(1 mVRMS)–电压相对于75 Ω阻抗上的1毫伏.[16]广泛用于有线电视网,其接收端的 ...

  5. 史上最全提升GPU的tricks合集

    前言 首先,如果你现在已经很熟悉tf.data+estimator了,可以把文章x掉了╮( ̄▽ ̄"")╭ 但是!如果现在还是在进行session.run(..)的话!尤其是苦恼于G ...

  6. python源代码最多的学习网站_史上最全Python学习资料大合集分享

    Python有多火就不用说了,之前也零散地分享过一些Python学习开发资料. 本次将分享Python学习资料合集.合集哦,你品,你细品! 在分享之前,还是要啰嗦一下,不然文章字数太少,不太好看. P ...

  7. android ppt素材,史上最全的PPT素材大合集,670页全动画演示!

    undefined_腾讯视频 今天这套PPT模板,真是我见过最酷的一套,页数最多的一套,有了这一套PPT模板完全可以丢弃掉那些所谓的千套几十GB的PPT模板了,因为这一套起码够你使用一年! 这套PPT ...

  8. 【干货】史上最全的Tensorflow学习资源汇总,速藏!

    一 .Tensorflow教程资源: 1)适合初学者的Tensorflow教程和代码示例:(https://github.com/aymericdamien/TensorFlow-Examples)该 ...

  9. 史上最全大数据学习资源整理

    史上最全大数据学习资源整理 ----------------------------------------------------------------------------------- 转载 ...

最新文章

  1. GnuPG如何安全地分发私钥(1)GnuPG的用法
  2. Kncok之绑定事件
  3. java只有值传递_面试官:为什么 Java 中只有值传递?
  4. 【2016年第1期】农业大数据研究生培养模式探索
  5. VMware workstation 磁盘扩容
  6. IIS6.0 + openssl执行版 + Windows2003--配置篇
  7. bzoj 1911: [Apio2010]特别行动队【斜率优化dp】
  8. 数据分析——十大数据分析模型
  9. Java携带HTTP头信息下载网络图片
  10. 故乡的原风景-宗次郎
  11. pytorch官方文档(中文版)
  12. win产品密钥大搜集
  13. MAC_BOOKPRO苹果电脑系统常用快捷键大全
  14. 获取拼音首字母(含生僻字)工具类
  15. MyBatis -- resultType 和 resultMap
  16. Mendix低代码的与众不同之处
  17. 什么是uboot?uboot有什么用?
  18. 高通平台USB 2.0和USB 3.0接口充电器识别原理
  19. 提供凭证不足 无法访问这台计算机,xp系统纯净版连接win7打印机显示“提供的凭证不足”怎么办...
  20. nodemcu能不能用c语言开发,NodeMcu: 编译及运行esp-open-rtos系统

热门文章

  1. ue4 unreal4 json序列化工具 数据转成字符串等
  2. 同时看过 unreal4 和 Unity 源代码的人觉得哪个引擎架构更好?
  3. ARM CHI总线笔记
  4. 【2021-01-05】JS逆向之B站模拟登入(含极验点选)
  5. [总结自用]关于Mbps、Mb/s、MB/s以及Mpps的区别及计算
  6. 知道创宇云安全发布服务器安全产品-365门神
  7. 知道创宇优质混合云解决方案,点击了解~
  8. 下一代宽带策略控制系统走向何方?
  9. 笔记 绝望主妇第1季第2章 --- desperate housewives session 1 episode 2
  10. 转一个校友的文章--“在计算机领域做研究的一些想法”