导语

自然场景文本识别是计算机视觉领域的一个经典问题,并被广泛使用于无人驾驶、视觉识别等领域。不同于电脑中的文本识别,自然场景中所采集的文本,往往包含着大量低质量的图像,这对于目前的文本识别器来说是一个相当棘手的问题。

为此,ImageDT图匠数据联合华中师范大学提出,“PlugNet:一种基于可插拔的超分辨学习单元的文本识别方法”( PlugNet: Degradation Aware Scene Text Recognition Supervised by a Pluggable Super-Resolution Unit),显著提升了通用文本识别方法在低质量文本上的识别效果,并在更加广泛的通用文本基线数据集中取得了目前最佳的性能。目前,这项研究工作已经被欧洲计算机视觉大会(ECCV2020)收录。

(图1,研究背景)

如图1所示,此前,解决模糊问题往往需要依赖于串联一个大型的超分辨网络来进行图像级的超分辨学习,以此改善输入图像的质量。这种方案往往需要依赖有力的数据集划分以及大量的计算资源,在实际应用中显得并不具有性价比。

因此,作者提出了一个含有可插拔超分辨单元的端到端学习的文本识别方法(PlugNet)。通过在训练时增加超分辨支路来改善特征表达的方式提升低质量文本的识别结果,这也就意味着相对于原始的文本识别方案,PlugNet在应用时(前向计算)没有增加任何额外的计算量。

PlugNet的主要贡献在于:

1、利用特征级超分辨学习来增加用于识别特征的鉴别能力,进而提升文本识别结果的精度。

2、针对原始文本识别方法使用CNN压缩图像分辨率的问题,提出了使用特征压缩模块进行替代,尽可能的更好的保留特征原始的空间特性。

3、算法训练时间无显著增加,推理时间不变的情况下,低质量图像精度显著提升,非常有利于对实时和精度要求较高的应用场景。

方法:

(图2,PlugNet整体结构)

如图2所示,PlugNet的构建基于自顶而下的文本识别方案,共包含五个模块,分别是校正模块、特征提取模块、特征压缩模块、识别模块和可插拔的超分辨单元。

1、校正模块:使用一个简单的浅层卷积神经网络预测了20个关键点位置来约束文字的上下边缘,并通过TPS方法从原始的图像中采样得到校正图像。

2、特征提取模块:沿袭了ResNet的结构作为主干网络,选取了四倍下采样的特征图来作为最终的特征尺度。为了更好的将底层特征引入到识别的部分中,作者使用了一个特征增强块,通过将不同层的特征下采样并进行通道融合,让最终的特征能够获取多元化的语义信息。

3、特征压缩模块:通过1*1降维和Reshape的方式,从特征提取模块输出的特征中,获取到输入到识别模块的1维向量。

在传统的文本识别方案中,常使用CNN来进行特征的压缩,但是在过去两年的研究中发现,CNN对于空间特征显得并不敏感,这在一定程度上使得过去的文本识别方法的校正部分,不能够很好的对文本的上下边缘进行预测。

因此,PlugNet采用了更为直接的手段,采用特征压缩模块取代了传统的CNN压缩,更多的保留了原始的空间位置信息。

4、识别模块:使用基于LSTM的Encoder-Decoder架构,这种方案在过去的数年中,在文本识别领域取得了极佳的效果。因此,PlugNet在识别部分仍然沿用了这一方案,通过将特征压缩模块得到的一维向量输入到双向LSTM的Encoder和基于注意力机制的Decoder结构,最终输入文本识别的结果。

5、可插拔超分辨单元:使用了2个基于Resnet结构的超分辨基础单元和一个上采样部分,将共享的特征恢复成原始图像对应的超分辨图像。为了更好的训练超分辨单元、改善特征的表达,使用了如下两种特征增强的方式:高斯模糊和4倍上下采样。其生成方式可以表示为:

其中,和分别代表4倍上下采样和高斯模糊处理,和是两个随机参数,是文章中所使用的阈值。

在损失函数部分,作者使用了一个比较通用的多任务形式,总的损失由文本识别部分的交叉熵损失和超分辨部分的L1损失构成,并使用了一个超参数对两个部分的权重进行调节,这部分可以描述为:

实验:

作者选取了文本识别领域应用最为广泛的7个数据集进行测试,分别是SVT, SVTP, IIIT5K, ICDAR2003, ICDAR2013, ICDAR2015以及CUTE80。实验的第一部分讨论了不同的特征分辨率对于文本识别的影响。为了保证公平性,对于不同的特征分辨率,实验通过调整1*1卷积的维度,确保Reshape后的特征尺度的完全相同。从下面的图表可以看到,特征分辨率的提升有效的帮助校正模块定位到文字部分的边界,从而改善了文本识别的性能。

如下图所示,作者也对所提出的模块和方案进行了相应的消融实验以证明其作用,尤其是在模糊文本的识别问题上,PlugNet的表现相较于之前的文本识别方法有着较明显的改善。

当然,作者也讨论超参数的影响,下面的图展示了不同的情况下识别准确率和共享特征的变化。

最后,实验在大量的通用文本数据集上与其他SOTA的方法进行了比较。PlugNet在所有的7个数据集中取得了6个数据集的最佳结果,尤其是在模糊文本较多的SVT数据集中相较于其他方法有着较大的领先。

总结:

总的来说,PlugNet提出了一种端到端可训练的退化感知场景文本识别器, 该方法结合可插拔超分辨率单元(PSU)从特征层解决低质量文本识别问题。它只在训练阶段进行可接受的额外计算,在推理阶段不需要额外的计算,最大程度减小了网络模型的大小和训练难度,并在模糊文本识别问题上取得了极佳的效果。

这种通过超分辨学习来改善特征的网络设计方式,相比于传统的图像级超分辨学习方案,摒弃了在应用中使用大型而复杂的超分辨网络,联合照片质量恢复技术,从特征层面提升表达能力,确实让人耳目一新。这未尝不是超分辨方法在实际场景中一种更加简单的应用新思路。相信这项工作所提出的方案,在其他研究领域也将会有更为广泛的应用前景。

END

备注:ocr

OCR交流群

文本检测、识别、编辑等更多最新技术,若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

ECCV 2020 | 图匠数据、华中师范提出低质退化文本识别算法PlugNet相关推荐

  1. 图匠数据等提出高精度零售货架姿态估计算法GSPN

    导语 近日,ImageDT图匠数据联合江西科技师范大学在<IEEE Transactions on Industrial informatics>(国际工业电子学会顶刊/中科院A类期刊/影 ...

  2. NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等

    NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏链接:NLP领域知识+项目+码源+方案设计 订阅本专栏你能获得什 ...

  3. ECCV 2020 论文大盘点 - OCR 篇

    本文盘点 ECCV 2020 与 OCR 相关论文,包括 Text Detection(文本检测).Text Recognition(文本识别).神经架构搜索+文本识别.文本超分辨率.Scene te ...

  4. ECCV 2020 论文大盘点-姿态估计与动作捕捉篇

    本文盘点ECCV 2020 中所有与姿态估计(Pose Estimation)相关的论文,总计 12 篇,其中一篇Oral 论文,6 篇已经或者将开源代码. 下载包含这些论文的 ECCV 2020 所 ...

  5. ECCV 2020 论文大盘点-人脸技术篇

    本文盘点ECCV 2020 所有与人脸相关的研究,涵盖人脸各子领域,总计46篇文章,涉及21个方向. 除了常见的人脸检测.对齐.识别.活体检测,人脸合成.编辑.重建.动画等技术都非常吸引人. 下载包含 ...

  6. ECCV 2020 谷歌论文盘点—Poster 篇

    前文已经盘点了谷歌ECCV 2020 中Oral 和 Spotlight的论文: ECCV 2020 Oral 中谷歌论文盘点,点云与3D方向工作居多 ECCV 2020 Spotlight 谷歌论文 ...

  7. ECCV 2020 论文大盘点-动作检测与识别篇

    本文盘点 ECCV 2020 所有动作检测与识别(Action Detection and Recognition)相关论文,总计 26 篇. 包含动作识别(Action Recognition).动 ...

  8. ECCV 2020 论文大盘点—显著目标检测篇

    显著目标检测(Salient Object Detection)是为找到图像或者视频中最明显最显著的物体标出来,可用于图像编辑合成等.虽然其也被称为"检测",但不同于框出物体的目标 ...

  9. ECCV 2020 论文大盘点-人体形状与姿态估计篇

    本文盘点ECCV 2020 中所有与人体形状和姿态估计(Human Shape and Pose Estimation)相关的论文,总计 4 篇. 人体感知(Human Sensing)是计算机视觉的 ...

最新文章

  1. R语言之可视化-火山图
  2. 6位有符号补码阵列乘法器_C/C++学习日记:原码、反码和补码
  3. mkdir创建递归目录
  4. 3.3 目标检测-深度学习第四课《卷积神经网络》-Stanford吴恩达教授
  5. python网页服务器_python编写简单网页服务器
  6. js中四种创建对象的方式
  7. android实现3种定位的切换,Android 滑动定位+吸附悬停效果实现
  8. 键盘按下某键 停止运行java_Java:按下“Q”键后终止while循环
  9. 【NIPS 2020】通过文本压缩,让BERT支持长文本
  10. idea导出jar包
  11. 小福利,介绍excel高阶函数2
  12. 字符编码集与ASCII码表
  13. python 虚拟环境打包exe方法及路过的坑
  14. 输入苹果的单价和购买的数量,计算总价,分别显示总价的整数部分和四舍五入后的整数部分
  15. 蓝桥云课练习题 用杂志拼接信件
  16. 和平精英服务器维护多少钱,和平精英因充钱太多服务器崩溃?王小歪充52W,只用一小时...
  17. 管理Linkedin账号三步曲,高效管理领英账号。
  18. java 个人通讯录_java个人通讯录管理系统
  19. MPB:猪胃肠道内容物和黏膜样品采集与微生物组成分析
  20. 简单爬取红牛分公司基本数据part01

热门文章

  1. html 小于号 乱码,shell重定向(大于号,小于号,左右,21,)
  2. Spring框架 DI
  3. Transformer介绍
  4. What is Freeview Play
  5. 放大镜_小学科学实验器材使用规范之放大镜
  6. uds下载服务流程图_UDS诊断全集,干货分享
  7. 原生html冻结表头,CSS如何实现表头冻结效果
  8. nginx 常用命令整理
  9. rip协议中周期性广播路由信息的报文_RIP路由理论知识详解(一)
  10. 计算机考试换机密码,Ami换机,让你轻松转移手机资料!