未来发展趋势和面临的挑战

1文本检测与识别技术的未来发展趋势

场景文本检测与识别的研究发展趋势。场景文本检测识别目前来讲大概分为场景文本检测、场景文本识别、以及端到端文本检测和识别三个主要的方向。其中文本检测方法主要是包括基于文本框回归的分类、基于分割的方法、以及分割和回归结合的方法。它的发展趋势是,早期2015年以前是以水平的矩形框检测为主,后来发展到多方向的矩形框,再到2017年开始有研究做任意的四边形框检测,再到近期的任意曲线文本的检测。矩形框的文本检测基本上解决得很好了,只要有一定的数据量基本上可以做到比较不错的识别性能。任意形状(例如曲线)文本检测还是一个比较挑战的问题,但是近两年的研究有很大的进步。

场景文本识别的传统方法很复杂,但在2015年之后基本上主流的方法是基于两套思路,一个是基于CTC的方法,尤其是CTC和神经网络的结合,典型的代表方法是CRNN;另外一套思路是基于Attention的方法。

而文本检测与识别的应用发展趋势可以归纳为以下几点:

(1)一体化的端到端模型

构建一体化的端到端网络,同时对文本检测和识别进行训练,目前已成为了文本检测与识别领域的一种重要技术趋势。端到端的网络设计,实现了基础特征的共享,既能够减少重复计算,又能够提高特征的质量,促进任务性能的改善。

(2)兼具高性能高效率的文本检测与识别

大量的文本检测与识别应用需要在资源受限的移动端设备上运行,当前移动端文本检测与识别算法大多以牺牲一定的算法精度来换取运行速度,针对移动设备设计兼顾性能和效率的轻量文本检测与识别 模型是未来趋势。

(3)从感知到认知的智能文本检测与识别

文本检测与识别 技术通常从计算机视觉领域出发,未来与自然语言处理技术、知识图谱等更广领域的交叉融合,通过语义及知识的深度挖掘提升文本检测与识别 性能是重要趋势。此外,在文本检测与识别中引入强化学习和元学习等新的学习范式,让机器自主学习如何识别文本,也将成为研究热点。

2文本检测与识别技术面临的挑战

场景文本检测的挑战在哪里?

1. 语言:世界上有1000多种语言。然而,目前大多数算法和数据集主要集中在英语文本上。虽然英语是一个相当小的字母表,但汉语和日语等其他语言的字母表要大得多,有数万个符号。基于RNN的识别器可能会受到这种放大符号集的影响。此外,有些语言的外观要复杂得多,因此它们对图像质量等条件更加敏感。研究人员应该首先验证当前的算法在多大程度上可以推广到其他语言的文本,并进一步推广到混合文本。针对多种语言的统一检测和识别系统具有重要的学术价值和应用前景。一个可行的解决方案可能是探索能够捕获不同语言的文本实例的常见模式的组合表示,并使用文本合成引擎生成的不同语言的文本示例来训练检测和识别模型。

2. 模型的鲁棒性:尽管目前的文本识别器已经被证明能够很好地推广到不同的场景文本数据集,即使只使用合成数据,最近的工作(Liao et al.,2019b)表明,对有缺陷的检测的鲁棒性不是一个可忽视的问题。实际上,在文本检测模型中也观察到了这种预测的不稳定性。这种现象背后的原因尚不清楚。有一种推测是,模型的鲁棒性与深度神经网络的内部操作机制有关。

3. 泛化:除了TextSnake之外,很少有检测算法考虑了跨数据集的泛化能力问题,即大部分算法在一个数据集上进行训练,在另一个数据集上进行测试。因为某些应用场景需要对不同自然环境的都有适用性,所以泛化能力非常重要。例如,自动驾驶车辆中的即时翻译和OCR应该能够在不同的情况下稳定地执行,比如:进而大的图像、远而小的文本、模糊单词、不同语言和形状。仅仅将所有现有数据集集中在一起是否就足够了,尤其是在目标域完全未知的情况下,仍然没有得到验证。

4. 评估:现有的检测评估指标源于一般目标检测的评估指标。基于IoU分数或像素级精度和召回率的匹配忽略了一个事实,即缺失的部分和多余的背景可能会影响后续识别过程的性能。

5. 合成数据:虽然在合成数据集上训练识别器已经成为一种惯例,而且效果很好,但检测器仍然严重依赖真实数据集。合成多样且逼真的图像来训练识别器仍然是一个挑战。合成数据的潜在好处尚未得到充分探索,例如泛化能力。使用3D引擎和模型进行合成可以模拟不同的条件,例如照明和遮挡,因此合成数据值得进一步开发。

6. 效率:基于深度学习的方法的另一个缺点在于其效率。当前大多数系统部署在没有GPU或移动设备的计算机上时无法实时运行。模型压缩和轻量级模型在其他任务中被证明是有效的,研究如何为文本相关任务定制加速机制会很有价值。

7. 更大更好的数据集:目前研究最广泛采用的数据集的大小都很小(1k图像)。值得研究的是,从当前算法中获得的改进是否可以扩大规模,还是只是更好的正则化的偶然结果。此外,大多数数 据集只标注边框和文本。如果对不同属性做详细注释,如艺术字体,可能会有针对性地指导研究人员。最后,以现实世界有挑战性的文本为特征的数据集在推动研究进展方面也很重要,例如产品上密集的文本。另一个相关问题是,大多数现有数据集都没有验证集。由于测试集上的过度拟合,当前报告的评估结果很可能比实际结果更乐观,即实际效果无法准确达到评估结果的标准。因此建议研究人员应关注大型数据集。

8. 定向文本:现有的最先进的场景文本识别方法更侧重于识别水平、多定向和曲线文本,它们利用空间校正模块,通常使用为阅读文本而设计的序列到序列模型。尽管这些方法试图解决识别任意方向文本的问题,但这些方法仍无法处理野生图像中的定向文本类型,如高度弯曲文本、平面内旋转文本、垂直文本,以及从下到上和从上到下堆叠的文本。此外,由于水平文本和垂直文本具有不同的特征,研究人员最近尝试在一个统一的框架中设计识别这两种类型文本的技术。因此,需要进一步的研究来构建能够同时识别不同方向的模型。

9. 遮挡文本:尽管现有的基于注意的方法已经显示出识别部分遮挡文本的能力,但它们在识别重度遮挡文本时的性能下降。这是因为目前的方法没有广泛利用上下文信息来克服遮挡。因此,未来的研究可以考虑高级语言模型以最大限度地利用上下文来预测由于遮挡文本而导致的不可见字符。

10. 图像质量下降:还可以注意到,最先进的文本识别方法并没有特别克服图像质量下降(如低分辨率和照明变化)对识别精度的影响。对未来研究的重要的建议是研究图像增强技术,如图像超分辨率、图像去噪和障碍物学习,这些可以使文本识别方案得以解决图像质量下降问题。

11. 复杂的字体:在自然场景图像中有几种具有挑战性的图形字体文本,当前的方法没有明确处理。识别自然场景图像中复杂字体的文本强调模型设计能够识别不同字体的方案,方法是改进这些方案的特征提取步骤,或使用样式转换技术,学习从一种字体到另一种字体的映射。

12. 特殊字符:除了字母数字字符外,特殊字符($、/、-、!、:、@和#字符)在自然场景图像中也很丰富,但是现有的文本识别方法在训练和测试期间排除了它们。因此,这些预训练模型无法识别特殊字符。最近,部分论文中指出,对特殊字符的模型进行训练可以提高识别精度,如何将特殊字符纳入文本识别模型的训练和评估中会是下一步研究的重点。

Shangbang Long,Xin He,Cong Yao,“Scene Text Detection and Recognition: The Deep Learning Era”,arXiv:1811.04256v5 [cs.CV] 9 Aug 2020

Zobeir Raisi,Mohamed A. Naiel,Paul Fieguth,Steven Wardell2 · John Zelek1,“Text Detection and Recognition in the Wild: A Review”,arXiv:2006.04305v2 [cs.CV] 30 Jun 2020

文字检测识别技术的未来发展趋势和面临的选择相关推荐

  1. 自然场景文本检测识别技术集合(转)

    本文及其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次. 书的购买链接 书的勘 ...

  2. 天然场景文本检测识别技术综述

    这篇文章主要向大家介绍天然场景文本检测识别技术综述,主要内容包括基础应用.实用技巧.原理机制等方面,希望对大家有所帮助. 标签:html前端gitgithub算法网络框架机器学习ide函数 本文及其它 ...

  3. 自然场景文本检测识别技术综述

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 番外青蛇 ...

  4. MMOCR: OpenMMLab 全流程的文字检测识别理解工具箱

    号外号外,继 港中文-商汤OpenMMLab开源全景图!之后,OpenMMLab 又有新成员加入咯-       01       MMOCR 特点 全流程:支持文字检测.文字识别以及其下游任务,比如 ...

  5. 未来计算机网络技术层面的发展,计算机网络技术的未来发展趋势和新媒体影响...

    计算机网络技术的未来发展趋势和新媒体影响 时间:2019-02-13 11:21:17 所属分类:计算机网络 浏览量: 这篇计算机工程师论文发表了计算机网络技术的未来发展趋势和新媒体影响,计算机网络技 ...

  6. 表格检测识别技术的发展历程

    近年来,随着计算机技术的飞速发展,越来越多的研究者开始关注表格检测识别技术.表格检测识别技术是一种利用计算机自动处理表格的技术,它可以实现从文本中检测出表格,并进行识别和提取.这种技术有助于提高文本处 ...

  7. 藏文文字检测识别存在的问题有哪些?

    藏文文字检测识别存在以下一些问题: 多样性:藏文有多种字体和书写风格,这会导致一些识别算法在处理不同的字体和书写风格时出现困难. 识别误差:由于藏文字母之间的形态相似,很容易发生识别错误.而且一些藏文 ...

  8. OCR大突破:Facebook推出大规模图像文字检测识别系统——Rosetta

    作者 | Fedor Borisyuk,Albert Gordo,Viswanath Sivakumar 译者 | 林椿眄 编辑 | 非主流 出品 | AI科技大本营 [导读]OCR(Optical ...

  9. 自然场景文本检测识别技术综述【转】

    转载自https://blog.csdn.net/SIGAI_CSDN/article/details/80858565 番外青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑 ...

最新文章

  1. windowsclient开发--为你的client进行国际化
  2. torch 使用hdf5训练
  3. 借贷记账法下的账户对应关系_事业单位改用的借贷记账法
  4. python3 设置默认编码_Python3的字符编码乱码问题解决思路
  5. Qt学习笔记之网络相关概念
  6. 爬虫教程( 4 ) --- 分布式爬虫 scrapy-redis、集群
  7. 【Spring】Spring 如何解决循环依赖问题
  8. 原声socket 向服务端发长连接
  9. Access——SQL语言查询
  10. 地理和遥感数据获取方法
  11. 计算机的键盘怎么找出来,电脑的键盘隐藏了怎么办
  12. html前端实现李峋爱心代码 百分百复刻
  13. Big Data 导论HadoopHDFS
  14. 春风十里不如你、与IPC的邂逅
  15. 大数据安全的重要性解读
  16. matlab之绘制表达式或函数fplot
  17. .net core 不能更新数据
  18. 学信息安全买计算机,大学学习计算机类信息安全方向真的很蠢吗?
  19. Oulipo HDU - 1686--strlen()耗时啊啊啊--KMP
  20. Symbian OS on E65应用开发手记(3)——SDK注册及14天学习总结

热门文章

  1. 在HTML中hr的默认值inset,CSS inset属性用法及代码示例
  2. Shell脚本编程-总
  3. vega8显卡和mx250哪个好_vega8核显性能跟mx250独显2g那个好
  4. 如何打开磁盘管理工具
  5. 抖音如何定位?抖音技巧必知的13种玩法
  6. cloudfront_使用CloudFront进行动态图像交付
  7. 【可转债,股票】低频量化之 可转债 配债价格表
  8. call()、apply()、bind()的使用和区别以及使用场景
  9. jquery 文字无缝滚动
  10. bash 生成N位随机字符串