场景文本检测与识别：最新进展及未来趋势

Scene text detection and recognition: recent advances and  future trends

文章目录

摘要
1、介绍
2.场景文本检测与识别的最新进展
- 2.1 场景文本检测相关工作
- 2.2 场景文本识别相关工作
- 2.3 端到端文本识别相关工作
- 2.4 场景文本检测与识别的相关应用及产品
3 基准数据集和评估协议
- 3.1基准数据集
- 3.2评估协议
- - 3.2.1文本检测算法的评估协议
  - 3.2.2 文本识别算法的评估协议
4讨论
5 结论

摘要

文本作为人类最具影响力的发明之一，在人类生活中发挥着重要的作用，远古至今。文本所蕴含的丰富而精确的信息在基于视觉的广泛应用中非常有用，因此自然场景中的文本检测与识别已成为计算机视觉和文档分析中重要而活跃的研究课题。特别是近几年来，社会各界在这些领域的研究工作和取得的实质性进展，尽管仍然存在各种挑战（如噪声、模糊、失真、遮挡和变化）。本次调查的目的有三个：
1）介绍最新研究成果，2）确定最新算法，3）预测未来潜在的研究方向。此外，本文提供了到公共可用资源的全面链接，包括基准数据集、源代码和在线演示。综上所述，本文的研究成果可以为场景文本检测与识别领域的研究者提供一个很好的参考。

文本检测，文本识别，自然图像，算法，应用

1、介绍

自然场景中的文本作为人类抽象和操作的产物，直接承载着高层次的语义。这种特性使自然图像和视频中的文本成为一种特殊的、重要的信息源。文本中包含的丰富而精确的信息对于各种基于视觉的应用非常有益，例如图像搜索[1]、目标地理定位[2]、人机交互[3]、机器人导航[4]和工业自动化[5]。因此，文本自动检测与识别，为获取和利用图像和视频中的文本信息提供了一种手段，已成为计算机视觉和文档分析领域的研究热点。

然而，在自然场景中定位和阅读文本是非常困难的任务。场景文本检测与识别的主要挑战大致可分为三类[6,7]：

场景文本的多样性
与文档图像中字体规则、颜色单一、大小一致、排列均匀的文字不同，自然场景中的文本即使在同一场景中也可能具有完全不同的字体、颜色、比例和方向。

背景的复杂性
自然场景图像和视频中的背景可能非常复杂。像标志、栅栏、砖块和草皮这样的元素实际上和真实的文本是无法区分的，因此很容易造成混淆和错误。

干扰因素
各种干扰因素，如噪声、模糊、失真、低分辨率、光照不均匀和部分遮挡等，都可能导致场景文本检测和识别的失败。

为了应对这些挑战，近年来提出了大量的方法，并取得了实质性进展[8-20]。在几乎所有这些方法中，表示的研究是主要的研究课题，因为表示是这些算法有效性和鲁棒性的关键。在场景文本检测与识别中，表示涉及到对自然场景中文本和背景进行描述和建模的方法和方式。

本文主要从表征的角度对近年来有关场景文本检测与识别的研究进行了综述。
本次调查致力于：1）介绍最新研究成果，总结最新进展；2）比较不同方法，突出最新算法；3）分析发展趋势，预测未来研究方向。
此外，它还提供了指向有用资源的链接，包括基准数据集、源代码和在线演示。

在场景文本检测与识别领域，已有多篇优秀的评论论文[21-23]。然而，这些评论论文有些过时，因为它们发表于大约十年前，错过了近年来提出的许多重要的、有影响的著作。我们所知的仅有的两个近期调查是Zhang等人[24]和Uchida等人[25]的研究成果。Zhang等[24]的调查主要集中在与场景文本检测相关的论文上，而忽视了文本识别的方法。Uchida等人[25]的工作回顾了图像和视频中文本检测和识别的方法，但它偏重于文档分析社区的工作，忽略了计算机视觉社区的一些最新研究成果，这些成果带来了新的见解和想法[7,19,20,26]。与以往的文献[21-25]不同，本文对静态图像中的场景检测与识别进行了全面的综述，重点介绍了这些领域的最新进展。

本文其余部分的结构如下。首先，我们回顾了近年来在场景文本和识别领域的研究成果。第三部分介绍了相关的基准数据集和评价方法。第四部分对场景文本检测与识别的研究现状提出了自己的看法、想法和看法。最后，在第五部分给出了结论性意见和未来的研究方向。

2.场景文本检测与识别的最新进展

近年来，自然图像中的文本检测与识别已成为计算机视觉、模式识别乃至文档分析等领域的研究热点。这些社区的研究人员提出了大量新颖的思想和方法来从自然图像和视频中提取文本信息。

这些方法大致可分为三类：
1）文本检测，2）文本识别，3）端到端文本识别，如图1所示。第一类方法[9,12,27-30]涉及如何从自然图像中发现和定位可能包含文本的区域，但不需要预先进行识别。第二类方法[7,14,15,31-33]假设文本已经被检测到，并且只关注将检测到的文本区域转换成计算机可读和可编辑符号的过程。
第三类方法[10,11,13,17,19,34]旨在构建端到端的文本识别系统，完成检测和识别任务。

2.1 场景文本检测相关工作

在过去的二十年里，研究人员提出了许多方法来检测自然图像或视频中的文本。
主要有三种方法：基于纹理的方法、基于组件的方法和混合方法。

基于纹理的方法[8，35–37]将文本视为一种特殊类型的纹理，并利用其纹理特性，如局部强度、滤波器响应和小波系数，来区分图像中的文本区域和非文本区域。
这些方法通常计算成本很高，因为所有的位置和比例都应该扫描。此外，这些方法主要处理水平文本，并且对旋转和缩放变化敏感。

在早期的工作中，Zhong等人[35]提出了一种彩色图像中文本定位的方法。利用水平空间方差对文本进行粗略定位，然后在定位区域内进行颜色分割以找到文本。后来，Li等人[38]引入了一种文本检测系统来检测和跟踪视频中的文本。该系统利用小波系数均值对图像进行分解，以一阶矩和二阶矩作为局部特征。

Kim等人[36]训练了一个支持向量机分类器，通过直接使用原始像素强度作为局部特征对每个像素进行分类。通过概率图中的自适应MeanShift[39]来寻找文本区域。该方法对背景简单的图像或视频（图2）具有良好的检测效果，但很难将该方法推广到复杂的自然场景图像或视频中。

图2 Kim等人[36]的算法的文本检测示例（图像从参考文献[36]转载）。该算法是早期文本检测方法的代表性工作。它只适用于相对简单的场景

为了处理视频中的多语种文本（主要是中英文），Lyu等人[40]提出了一种从粗到精的多尺度搜索方案。该方案利用文本的强边缘和高对比度等特性来区分文本区域和非文本区域。此外，该算法还提供了一种局部自适应的二进制策略来分割检测到的文本区域。与其他方法类似，该方法涉及大量的规则和参数，因此很难处理不同质量的视频和不同类型的文本。

与传统的方法不同，Zhong等人[41]提出了一种在离散余弦变换（DCT）域中直接检测文本的有趣算法。该算法的优点在于效率高，不需要在检测前对图像进行解码。然而，这种方法的检测精度是有限的。

为了加快文本检测过程，Chen等人[8]提出了一种快速文本检测器。检测器是一个级联的Adaboost[42]分类器，其中每个弱分类器都是从一组特征中训练出来的。特征库包括平均强度、强度方差、水平差、垂直差和梯度直方图。该方法的检测效率明显高于其他算法[43-45]，但对真实图像的检测精度有限。

最近，Wang等人[46]提出了一种从自然场景中定位特定词语的方法。首先利用滑动窗口检测单个字符。然后根据字符之间的结构关系对可能的组合进行评分。最后，从给定列表中选择最相似的组合作为输出结果。与传统的文本检测方法不同，该算法只能检测给定列表中的单词，无法处理给定列表中的单词。然而，实际上，包含所有可能单词的单词列表并不总是适用于每个图像。与其他文本检测方法相比，该方法的适用范围较窄。

基于组件的方法[9,12,28,29,47]首先通过多种方法（如颜色聚类或极端区域提取）提取候选成分，然后使用人工设计的规则或自动训练的分类器过滤出非文本成分。一般来说，这些方法效率更高，因为要处理的组件数量相对较少。此外，这些方法对旋转、缩放和字体变化不敏感。近年来，基于组件的方法已成为场景文本检测领域的主流。

Jain等人[47]提出的方法通过颜色聚类将图像分解为若干个不重叠的分量，通过分量分析将分量分组为文本行，然后根据几何规则去除非文本分量。由于人工定义规则和参数，该方法对复杂自然图像的处理效果较差。

利用字符具有几乎恒定的笔划宽度的特性，Epshtein等人[9]提出了一种新的图像算子：笔划宽度变换（SWT）。该算子提供了一种从边缘映射中恢复笔画的简单方法，并且能够有效地从复杂场景中提取不同比例和方向的文本分量（图3）。然而，这种方法还附带了一系列人为定义的规则和参数，并且只考虑水平文本。

图3 Epshtein等人[9]的算法的文本检测示例（图像从参考文献[9]转载）。这项工作提出了SWT，一个允许直接从边缘图中提取笔划的图像算子

Neumann等人[10]提出了一种基于最大稳定极值区域（MSER）的文本检测算法。该算法从原始图像中提取MSER区域作为候选区域，并使用经过训练的分类器消除无效的候选区域（图4）。在后期，通过一系列连接规则将剩余的候选项分组到文本行中。然而，这种连接规则只能适用于水平或接近水平的文本，因此该算法无法处理倾斜角度较大的文本。

图4 Neumann等人[10]的算法的文本检测示例（图像从参考文献[10]转载）。本文首次将MSER引入场景文本检测领域

SWT[9]和MSER[10]是场景文本检测领域的两种具有代表性的方法，它们构成了许多后续工作的基础[12-14,29,30,34,48,49]。

稀疏表示在人脸识别[50]和图像去噪[51]方面的巨大成功启发了众多研究人员。例如，赵等[52]从训练样本中构造了一个稀疏字典，并用它来判断图像中某个特定区域是否包含文本。然而，由于学习到的稀疏字典的泛化能力受到限制，使得该方法无法处理旋转和尺度变化等问题。

与上述算法不同，Yi等人[28]提出的方法可以检测自然图像中倾斜的文本。首先根据像素在颜色空间中的分布将图像划分为不同的区域，然后根据颜色相似度、空间距离和区域的相对大小等特性将区域组合成连通的组件。最后，非文本组件被一组规则丢弃。然而，该方法的前提是假设输入图像由几种主要颜色组成，而对于复杂的自然图像则不一定如此。另外，该方法依赖于大量人工设计的滤波规则和参数，难以推广到大规模复杂图像数据集。

Shivakumara等人[53]还提出了一种面向多方向文本检测的方法。该方法在Fourier-Laplace空间中通过聚类提取候选区域，并通过骨架化将候选区域划分为不同的分量。然而，这些组件通常不对应笔划或字符，而只是文本块。由于该方法不能直接检测字符或单词，因此不能直接与其他方法进行定量比较。

基于SWT[9]，Yao等人[12]提出了一种能够检测自然图像中任意方向文本的算法（图5）。该算法采用两级分类方案和两组旋转和旋转不变特征，专门用于捕捉自然场景中字符的内在特征。

图5
Yao等人[12]算法的文本检测示例（图像转载自参考文献[12]）。与以往只关注水平或近水平文本的方法不同，该算法能够检测自然图像中不同方向的文本

Huang等人[29]提出了一种基于笔划宽度变换的笔划特征变换（SFT）算子。为了解决原始笔划宽度变换中边缘点不匹配的问题，SFT引入颜色一致性和局部边缘点的约束关系，得到了较好的分量提取结果。SFT在标准数据集上的检测性能明显高于其他方法，但仅适用于水平文本。

在文献[30]中，Huang等人提出了一种新的场景文本检测框架，该框架集成了最大稳定的极值区域和卷积神经网络（CNN）。MSER算子在前端提取候选文本，而基于CNN的分类器则用于正确识别候选文本，并分离组件中多个字符的连接。与传统方法相比，该算法的性能得到了显著提高。

混合方法[27，54]是基于纹理的方法和基于组件的方法的结合，它们利用了这两种方法的优点。在Liu等人[54]提出的方法中，利用精细的边缘检测策略提取所有可能的文本区域的边缘像素，并验证区域轮廓的梯度和几何性质，生成候选文本区域，然后是一个纹理分析程序，以区分真实文本区域和非文本区域。

与文献[54]不同，Pan等人[27]提出的混合方法从多尺度概率图中提取候选成分。概率图是由一个分类器来估计的，分类器训练在用一组预定义的模式计算的一组纹理特征（HOG特征[55]）上。结合一元成分属性和二元上下文关系的条件随机域模型[56]被用来区分文本成分和非文本成分。与大多数其他算法一样，这两种方法只能检测水平文本。

表1总结了现有场景文本检测方法的优缺点。

2.2 场景文本识别相关工作

由于自然图像的性质与文档图像有很大的不同，将传统的字符识别方法直接应用于自然图像会遇到许多障碍。例如，当运行在自然图像上时，这些方法可能会产生大量的错误警报和胡言乱语。

为了解决这些问题，Sawaki等人[57]提出了一种根据自然图像的特征自动生成字符模板的方法。Zhou等人[58，59]使用表面拟合分类器，并专门设计了字符识别算法来识别互联网图像（包括简单合成图像和自然图像）中的字符。然而，这些算法并没有在复杂的自然图像上进行评估，因此这些方法的适应性还没有得到充分的验证。

在参考文献[60]中，de Campos等人。对目前计算机视觉和模式识别中常用的特征描述子和分类算法进行了测试、比较和分析。此外，他们还发布了一个名为Chars74K的图像数据集，用于评估字符识别算法。字符识别在自然字符识别领域得到了广泛的应用。然而，与主流的以单词为基本单位的字符识别方法不同，decampos等人[60]的方法只考虑了单个字符的识别问题。

Mishra等人[31]使用自下而上和自上而下的线索进行场景文本识别，这是一种纠错方式[61]。由于自然场景中存在复杂的背景，很难从局部背景中直接分割出字符。因此，该方法利用滑动窗口来检测可能的字符，并将检测结果作为自下而上的信息处理。自上而下的信息来自一本大词典的统计数据。自下而上和自上而下的信息通过条件随机场（CRF）整合在一个统一的模型中[56]。该方法的优点之一是能够容忍字符检测中的错误。如图6所示，将两个“o”之间的区域视为字符“x”，但根据先验信息，“oor”的可能性高于“oxr”，因此最终将该单词识别为“door”。

图6用于场景文本识别的自下而上和自上而下的提示[31]（图像转载自参考文献[31]）。该方法将低层（字符检测）和高层（语言优先）的线索集成到一个统一的框架中

最近，Mishra等人在文献[31]算法的基础上提出了一种新的文本识别方法[15]。该方法引入了一种纠错模型，充分利用了高阶先验信息，进一步提高了识别精度。

Novikova等人[14]提出通过统一的概率模型来描述字符外观和字符之间的关系。与文献[31]中的算法不同，使用mser[62]提取候选字符。该方法采用加权有限状态传感器[63]作为概率模型（见图7），通过有效的推理算法搜索最可能的单词。然而，这种方法的过程复杂，其单词识别性能与其他同样使用统计语言模型的纠错方法相比没有明显的优势[15,31]。

图7
用于场景文本识别的加权有限状态传感器[14]（图像转载自参考文献[14]）。这项工作与文献[31]相似，因为它同时使用了低水平和高水平的线索

Rodriguez-Serrano等人[64]探索了一种新的文本识别方法，利用标签嵌入来直接执行字符串和图像之间的匹配，绕过预处理或后处理操作。

在过去的两年里，基于部分的文本识别算法[7,32]已经非常流行。Shi等人[32]提出了一种基于部分的树结构模型来识别裁剪图像中的字符。该算法对噪声、模糊、部分遮挡和字体变化具有较强的鲁棒性。然而，该算法依赖于详细的注释信息，包括字符模型和部件注释（图8）。

图8用于场景文本识别的基于部分的树结构模型[32]（图像转载自参考文献[32]）。字符结构由人工设计，零件由人工标注

在文献[7]中，Yao等人提出了一种称为Strokelets的新表示法，它由一组多尺度的中层元素组成（图9）。Strokelets可以从字符级别的标签中自动学习，并且能够捕捉不同粒度字符的结构特性。此外，strokelets还提供了一种新的方法来准确识别单个字符，并构造直方图特征来有效地描述字符。基于strokelets的场景文本识别算法已经被证明是有效的和鲁棒的。

图9
场景文本识别用Strokelets[7]（图像转载自参考文献[7]）。与[32]相比，字符的部分（即笔划）是从训练数据中自动学习的

表2总结了现有场景文本识别方法的优缺点。

2.3 端到端文本识别相关工作

上述方法只涉及文本信息抽取问题的一个方面[22]（文本检测或文本识别）。有多种方法试图为文本检测和识别构建一个统一的框架。

在文献[46]的基础上，Wang等[11]提出了一种端到端的文本识别系统（见图10）。该方法受计算机视觉中常用的目标检测算法的启发，将文字视为一种特殊的对象，将字符视为对象的一部分。它通过对每个字符和字符之间的空间关系建模来搜索最可能的检测和识别结果。实验表明，该方法在多个标准数据集上具有良好的性能。但是，该算法只能处理给定单词表中的单词，因此不适用于没有单词表的图像。

图10参考文献[11]的端到端识别示例（从参考文献[11]转载的图像）。该算法实现了文本的检测和识别，但需要事先为每个测试图像指定一个词典

Neumann等人[10]提出了第一个真正的自然图像端到端文本识别系统，它不需要单词表。该系统通过MSER提取候选字符，通过训练后的分类器剔除非文本候选字符。剩下的候选字符被输入一个字符识别模块，该模块使用大量的合成字符进行训练。Neumann等[65]在[10]的基础上引入了新的特征提取方法和组合策略，显著提高了系统的准确性和效率。后来，Neumann等人[13]进一步扩展了参考文献中的方法。[10，65]实现实时文本检测和识别（图11）。

图11
[13]的端到端识别示例（图像转载自参考文献[13]）。这是第一个真正的端到端的场景文本识别系统

最近，Neumann等人[66]提出了一种新的场景文本定位和识别系统，它结合了基于滑动窗口和基于组件的方法的优点。在这个系统中，字符部分（笔划）由定向条形过滤器建模。这些定向条形滤波器用于字符检测和识别。

在文献[12]的基础上，Yao等[34]构建了一个同时完成场景文本检测和识别的端到端系统。这是第一个能够在自然图像中定位和读取任意方向文本的工作。

深度学习方法在各种计算机视觉任务中的巨大成功[67-71]启发了场景文本检测和识别领域的研究人员。Coates[72]和Wang等人。[73]使用CNN和无监督预训练进行文本检测和字符识别。Bissacco等人[17]建立了一个叫做PhotoOCR的系统，它能够在不受控制的条件下读取字符。PhotoOCR的核心是一个运行在HOG特征上的DNN模型，而不是图像像素。Jaderberg等人[19]提出了一种新的CNN架构，允许特征共享（图12），用于字符检测、字符分类和双字元分类。正如我们将在第3节中展示的，基于深度学习的系统，一旦使用大量的数据进行训练，通常会比传统方法表现出相当大的优势。这些方法主要有两个缺点：1）它们都只处理水平或接近水平的文本；2）这些算法的计算负担非常高。这两个缺点可能会制约这类算法的推广和应用。

图12
从自然图像[19]中的字符学习的过滤器（图像从参考文献[19]中重印）。可以看出，学习的过滤器可以捕捉到相应字符的形状

表3总结了现有的端到端文本识别系统的优点和局限性。

2.4 场景文本检测与识别的相关应用及产品

近年来，自然场景中的文本检测与识别成为一个活跃的研究课题。因此，许多相关的理论、模型、算法和系统被提出和发展。同时，机器人、多媒体等相关领域的研究人员将这些技术应用于机器人导航、图像搜索和目标识别等领域，取得了令人满意的效果。

来自宾夕法尼亚大学GRASP实验室的研究人员成功地赋予了一个叫做“Graspy”的机器人定位和阅读自然场景中人物的能力。该机器人在室内移动时，能够感知周围环境，识别出墙上的文字、门牌和标牌，并根据这些信息推断出其位置。

蔡等人[1]开发了一个智能手机文档搜索系统。该系统允许用户对感兴趣的文档进行拍照，然后自动读取文档的标题并返回存储在服务器上的文档。Karaoglu等人[74]将自然图像中的文本信息引入到传统的物体识别框架中，进一步提高了识别精度。

此外，一些商业产品还具有与场景文本检测和识别相关的功能。例如，googlegoggles应用程序[75]能够阅读书籍、cd和产品上的字符。亚马逊萤火虫应用程序可以识别自然场景中的网址和电话号码。

3 基准数据集和评估协议

公共数据集和相关评估标准为算法开发和比较建立了坚实的参考物质。近年来，场景文本检测与识别技术的发展很大程度上取决于这些领域的数据集和评价方法。

在这一节中，我们将详细描述场景文本检测和识别中广泛使用的数据集和性能评估协议。此外，我们将在适用的情况下确定每个基准数据集的当前最先进的算法。

3.1基准数据集

ICDAR 2003 and 2005
2003年举行的ICDAR 2003 Rubust阅读比赛[76]是第一次正式发布场景文本检测和识别基准的比赛。这个数据集包含509个完全注释的文本图像。来自数据集的258幅图像用于训练，251幅用于测试。它也被用于ICDAR 2005文本定位比赛[43]。
ICDAR 2011 and 2013
先后举办了ICDAR 2011[77]和2013[78]鲁棒阅读比赛，跟踪场景文本检测与识别的最新进展。2011年和2013年的数据集继承了以往ICDAR竞赛中使用的基准，但由于之前的数据集存在一些问题（例如，边界框不精确，“单词”的定义不一致），因此进行了扩展和修改。
OSTD
面向场景文本数据库（OSTD）是由Yi等人[28]提出的。该数据集共包含89幅徽标、室内场景和街景图像，可用于评价自然场景中多方向文本的检测算法。
MSRA-TD500
MSRA文本检测500数据库（MSRATD500）是评估自然场景中面向多个文本的检测算法的基准，这一点在Yao等人的工作中首次引入[12]。该数据集包含500幅图像，包括复杂自然场景中的水平文本、倾斜文本和倾斜文本
SVT
街景文本（SVT）数据集[11,46]是具有高度可变性的场景文本的室外图像集合。SVT包含350个完整图像，还具有单词级注释（没有字符边界框）。该数据集既可用于剪切词识别，也可用于全图像单词检测和识别。
NEOCR
NEOCR数据集[79]包括自然场景中具有多方向文本的图像。它包含659个真实世界的图像和5238个带注释的边界框。这是一个多语种数据集，因为该数据库中的文本是不同语言的，例如英语、匈牙利语、俄语、土耳其语和捷克语。
KAIST
KAIST场景文本数据集[80]包含3000张在不同照明条件下在室内和室外场景中拍摄的图像。这个数据库也是一个多语种基准，包括朝鲜语和英语文本。此外，它还为图像中的每个字符提供二进制掩码。因此，该数据集既可以用于文本定位，也可以用于文本分割任务。
Chars74K
Chars74K数据集由de Campos等人[81]发布，用于评估自然图像中单个字符的识别算法。这个数据集包含英语和卡纳达语的符号。GoodImg子集包括636幅图像，其中一部分拉丁字母和阿拉伯数字由注释者标记。
SVHN
街景房屋编号（SVHN）数据集[82]是一个大型现实世界数据库，在自然场景中有超过60万个数字。这些数字是从谷歌街景图片中截取的房屋编号。该基准测试主要用于开发和评估数字识别算法。
IIIT 5K-Word
IIIT 5K字数据集[15]是该领域迄今为止最大、最具挑战性的基准。这个数据库包括5000幅图像，其中包括自然场景和出生数字图像中的文本。由于字体、颜色、大小、布局的变化以及噪音、模糊、失真和不同照明的存在，这是一个挑战。2000幅图像用于训练，3000幅图像用于测试。

3.2评估协议

3.2.1文本检测算法的评估协议

在场景文本检测中，有三个重要的性能评价指标：查准率、查全率和F-测度。
精确性衡量的是真阳性与所有检测的比率，而召回则是衡量真阳性与所有应该检测到的真实文本的比率。F-测度作为一个整体的、单一的算法性能指标，是准确度和召回率的调和平均值。

2003年和2005年ICDAR评估方案

在2003年[76]和2005年[43]的ICDAR稳健阅读竞赛中，组织者设计了比信息检索领域更灵活的精确性和召回率定义。

两个矩形之间的匹配m是两个矩形的相交面积与包含这两个矩形的最小边界矩形的相交面积之比。每个算法估计的矩形集称为估计值，ICDAR数据集中提供的基本真实矩形集称为目标。对于每个矩形，找到最大值的匹配项。因此，一组矩形r中矩形r的最佳匹配定义为：

那么，准确度和召回率的定义是：

其中E和T分别是基本真实矩形和估计矩形的集合。F-度量F是上述两个度量的组合，精确性和召回率。精确度和召回率的相对权重由一个参数α控制，该参数通常设置为0.5，以使精确度和召回率的权重相等：

在ICDAR2003数据集上评估的不同文本检测方法的性能如表4所示。请注意，ICDAR 2003和2005竞赛使用相同的数据集进行性能评估和算法比较。

在这个数据集上，Huang等人[29]的算法在很大程度上优于其他方法。该算法利用颜色信息增强SWT特征，并引入协方差描述符。

2011年和2013年ICDAR评估方案

2003年和2005年ICDAR稳健阅读比赛的评价方法存在一个问题，即无法处理实践中经常出现的一对多和多对多的情况。因此，该协议往往低估了文本检测算法的性能。为了解决这一问题，ICDAR 2011[77]和2013[78]的组织者采用了Wolf等人[84]提出的评估方法。

Wolf等人[84]的协议考虑了三种匹配情况：一对一、一对多和多对多。准确度和召回率的定义如下：

G和D分别表示地面真值矩形集和检测矩形集。tr∈[0，1]是区域召回的约束，tp∈[0，1]是区域精度的约束。tr和tp的典型值分别为0.8和0.4。

MatchD和MatchG是考虑不同类型匹配的函数。具体来说，MatchD和MatchG定义为：

其中fsc（k）是一个控制惩罚量的参数函数，在散射（即分裂或合并）的情况下施加。实际上，fsc（k）设置为常数0.8。

在ICDAR 2011数据集上评估的不同文本检测方法的性能如表5所示。由于ICDAR 2013数据集是全新数据集，且最近的算法尚未对其进行全面评估，因此我们仅报告ICDAR 2011数据集的定量结果。

从表5可以看出，Huang等人[30]提出的方法在这个基准上获得了最先进的性能。该方法是MSER和深度学习技术的混合。

MSRA-TD500的评估协议

在文献[12]中，Yao等人提出了一种新的协议，该协议更适合于评估针对任意方向文本的检测算法。在文献[12]的协议中使用最小面积矩形[90]，因为它们比轴对齐矩形更紧凑、更精确。然而，使用最小面积矩形所带来的一个问题是，很难判断文本行是否被正确地检测到。直接计算估计矩形D与地面真值矩形G之间的重叠比并非易事。[6，12]提出了利用轴对齐矩形G 和D 来计算重叠率，这两个矩形分别通过围绕其中心CG和CD旋转得到。G和D之间的重叠比定义为：

其中A（G∩∩D ）和A（G∪D ）表示G 和D 的交并面积。显然，用这种方法计算的重叠率是不准确的。此外，标注的基本真理矩形也不准确，尤其是当文本倾斜时。由于地面真实度和计算的重叠率都不精确，ICDAR协议中使用的精确度和召回率的定义不适用。或者，Yao等人[6,12]使用了精确性和召回率的原始定义。

与PASCAL目标检测任务的评估方法[91]类似，在参考文献[6,12]的协议中，基于估计的最小面积矩形和地面真实矩形之间的重叠比率，将检测视为真或假阳性。如果估计的矩形和大地真值矩形的夹角小于π/8，并且它们的重叠比超过0.5，则认为所估计的矩形是正确的检测。同一文本行的多次检测被视为误报。精确性和召回率的定义是：

式中，TP是真阳性检测的集合，而E和T是估计矩形和地面真实矩形的集合。

此外，为了适应文本检测算法难以处理的困难文本（太小、被遮挡、模糊或被截断），参考文献[12]引入了一种弹性机制，可以容忍困难文本的检测失误。如果不是这个算法的一个基本机制，那么这个算法是很难检测到的。因此，应更改所建议数据集中的图像注释。每一个文本行被认为是困难的额外的“困难”标签。因此，基本真值矩形可以分为两个子集：普通子集To和困难子集Td；同理，真正数TP也可以分为普通子集TPo（与To匹配的矩形集）和困难子集TPd（与Td匹配的矩形集集）。加入弹性机制后，精确度、召回率和F-测量的定义为：

在MSRA-TD500数据集上评价了不同文本检测方法的性能，如表6所示。可以看出，Kang等人[26]和Yin等人[49]的方法在这个数据库上实现了最先进的性能。这里需要注意的一点是，这两种方法都采用自适应聚类策略进行文本行分组。

3.2.2 文本识别算法的评估协议

在场景文本识别中，通过字符级识别率和单词级识别率来衡量算法的性能。

ICDAR评估协议

ICDAR竞赛[43，76–78]还包括文本识别任务。性能评估有两个指标：词级识别率和规范化编辑距离。前者相当严格，因为它要求每个字符都被正确识别。后者相对宽松，因为它可以容忍每个单词的局部错误。

表7显示了在ICDAR 2003数据集上评估的不同识别算法的性能。算法的性能是通过字级识别率来衡量的，而文字识别率更常用于定量比较。由于ICDAR 2011和2013中使用的数据集与ICDAR 2003数据集几乎相同，并且最近在该数据集上报告的大多数工作都是这样，因此，为了简单和清晰，我们只对其进行了定量结果的演示。

可以看出，Jaderberg等人[19]提出的深度特征方法的性能明显优于其他方法。该方法基于深度学习，需要大量的训练数据。

SVT评估协议

SVT数据集[11，46]的性能评估指标也是单词级别的识别率，类似于ICDAR数据集。在SVT数据集上评估的不同识别算法的性能如表8所示。在这个基准测试中表现最好的是PhotoOCR[17]和Deep Features[19]，这两个都是基于深度学习的算法，并为培训获取额外的数据。

Chars74K评估协议

Chars74K数据集[81]的主要目的是评估不同算法对裁剪字符的分类精度，因此de Campos等人使用字符级别的平均识别率作为性能评估的指标。

iiit5k - word评估协议

与ICDAR竞赛的评估方法类似，IIIT 5K字数据集使用的协议[15]采用字级识别率作为算法性能的衡量标准。这个数据集为每个测试图像提供了三种类型的词典（小型、中型和大型）。这三种类型的词汇对应于三种类型的词汇。

在IIIT 5K字数据集上评估的不同文本识别算法的性能如表9所示。在这个基准测试中，Yao等人[7]提出的Strokeletsmethod通常优于其他竞争算法。Strokelets方法是首次将自动学习的多尺度中层表示引入场景文本识别领域。这为场景文本识别中使用的一系列新技术打开了大门，并为进一步提高性能提供了新的可能性。

4讨论

本文综述了场景文本检测与识别的相关文献。我们介绍了一些启发性的想法和有影响的著作，并描述了这些领域的公共数据集和评估协议。

从前面的章节可以看出，场景文本的检测与识别是一个发展迅速、持续增长的活跃的研究课题。大量的优秀作品被提出，极大地推动了文本检测与识别的性能极限。例如，ICDAR 2011的最佳文本检测性能在很短的时间内（2011年至2014年）从F-measure的0.581大幅提升至0.78；在更短的时间内（2012年至2014年），具有挑战性的大型数据集IIIT 5K单词的最高识别准确率从55.5提高到80.2。

然而，仍有许多挑战有待解决。目前还没有一种算法可以处理现实世界中遇到的所有困难。各种因素，如噪声、模糊、遮挡、光照不均匀、严重失真和复杂杂波等，仍然会使系统陷入困境甚至失败。

此外，现有算法的实用性和适用性都很有限。除[12,28,34,49]外，所有算法都只能处理自然场景中的水平或近水平文本。这是一个严重的缺点，因为现实世界场景中有相当一部分文本是非水平的。这种局限性使得非水平文本中的文本信息无法被捕捉，从而严重制约了这些方法的实用性和适用性。

全世界有100多种常用语言，但大多数现有的方法和基准（除了[12,27,79–81]）都集中在英语文本上。在这个全球化的时代，建立能够处理多语种文本并为全世界人民服务的系统是迫切和不可或缺的。

场景文本检测和识别的一个新趋势是使用深度学习和大数据[17,19,73,82,95–98]。这些方法确实为这些领域带来了新的思想，并提高了性能。然而，他们只是简单地采用了其他领域的技术，使用了大量的培训示例，但对问题本身却很少有深入的了解。性能提升的主要原因可能是大量的培训数据，这些数据并不公开。因此，研究和揭示这种基于深度学习的系统成功背后的原因是很有趣的。

场景文本的本质属性在于人物个体的结构和人物之间的关系。建立有效的场景文本检测与识别系统的关键是要捕捉和利用单个字符的结构和字符之间的关系。我们认为这一方向是有希望的，值得进一步探索。

5 结论

文本作为高级语义的显性载体而诞生。这种独特的属性使文本与其他一般的视觉提示（如轮廓、颜色和纹理）不同。文本中包含的丰富而精确的信息可以帮助广泛的实际应用。因此，自然场景中文本的检测与识别已成为计算机视觉领域的一个重要而富有活力的研究领域。本文综述了近年来在场景文本检测与识别方面的研究进展，为其他研究者提供了一个充分的参考。

经过众多研究者的努力，近年来在场景文本检测与识别方面取得了长足的进展。但是，还有很多问题需要在未来解决。要建立一个能够从自然场景中准确、可靠地提取文本信息的实用系统，还有很长的路要走。我们认为，在未来十年中，以下几个方面值得探讨：

多方位
在现实世界中，文本可以处于不同的方向。Yao等人[12,34]、Shivakumara等人[53]和Yi等人[28]的作品成功地让社区意识到了多方位文本检测和识别的意义。但大多数研究者只关注水平文本。为了充分利用自然场景中的文本信息，需要阅读不同方向的文本。

Muiti language
现有的方法大多是针对英语文本的，而有一些作品涉及到其他语言的文本（例如汉语[12]、卡纳达语[60]和韩语[80]）。考虑到实用性，开发能够处理不同语言文本的检测与识别系统至关重要。

深度学习+大数据
深度学习方法和大量训练数据的结合似乎是场景文本检测与识别领域的主流。以前的基于深度学习的方法简单地采用了其他领域的成熟技术，并且比传统的算法实现了性能提升。如果使用深度学习框架从大量数据中发现并建模场景文本的特征，则可以进一步提高检测和识别的准确性。