引入Mask R-CNN思想通过语义分割进行任意形状文本检测与识别。

(欢迎关注“我爱计算机视觉”,一个有价值有深度的公众号~)

华中科技大学白翔老师团队在自然场景文本检测与识别领域成果颇丰,这篇被ECCV2018接收的论文《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。

文章指出,最近,基于深度神经网络的模型已经主导了场景文本检测和识别领域。在该文中,研究了场景“text spotting”的问题,其旨在自然图像中同时进行文本检测和识别。

该文受到Mask R-CNN的启发提出了一种用于场景text spotting的可端到端训练的神经网络模型:Mask TextSpotter。与以前使用端到端可训练深度神经网络完成text spotting的方法不同,Mask TextSpotter利用简单且平滑的端到端学习过程,通过语义分割获得精确的文本检测和识别。此外,它在处理不规则形状的文本实例(例如,弯曲文本)方面优于之前的方法。

在ICDAR2013、ICDAR2015和Total-Text数据库上的实验表明,所提出的方法在场景文本检测和端到端文本识别任务中都达到了state-of-the-art的水平。

任意形状文本检测与识别的例子:

左图是水平text spotting方法的结果,它的检测框是水平的;中间图是具有方向的text spotting方法的结果,它的检测框倾斜;右图是该文提出的Mask TextSpotter算法的结果,它的检测框不是外接矩形而是一个最小外接多边形,对这种弯曲文本达到了更精确的文本检测和识别。

网络架构

网络架构由四部分组成,骨干网feature pyramid network (FPN),文本候选区域生成网络region proposal network (RPN),文本包围盒回归网络Fast R-CNN,文本实例分割与字符分割网络mask branch。

训练阶段

RPN首先生成大量的文本候选区域,然后这些候选区域的RoI特征被送入Fast R-CNN branch和mask branch,由它们去分别生成精确的文本候选包围盒(text candidate boxes)、文本实例分割图(text instance segmentation maps)、字符分割图(character segmentation maps)。

尤其值得一提的是Mask Branch,如下图:

它将输入的RoI(固定大小16*64)经过4层卷积层和1层反卷积层,生成38通道的图(大小32*128),包括一个全局文本实例图——它给出了文本区域的精确定位,无论文本排列的形状如何它都能分割出来,还包括36个字符图(对应于字符0~9,A~Z),一个字符背景图(排除字符后的的所有背景区域),在后处理阶段字符背景图会被用到。

这是一个多任务模型,其Loss组成:

推理阶段

推理阶段mask branch的输入RoIs来自于Fast R-CNN的输出,

推理的过程如下:首先输入一幅测试图像,通过Fast R-CNN获取候选文本区域,然后通过NMS(非极大抑制)过滤掉冗余的候选区域,剩下的候选区域resize后送入mask branch,得到全局文本实例图,和字符图。通过计算全局文本实例图的轮廓可以直接得到包围文本的多边形,通过在字符图上使用提出的pixel voting方法生成字符序列。

如上图所示,Pixel voting方法根据字符背景图中每一个联通区域,计算每一字符层相应区域的平均字符概率,即得到了识别的结果。

为了在识别出来的字符序列中找到最佳匹配单词,作者在编辑距离(Edit Distance)基础上发明了加权编辑距离(Weighted Edit Distance)。

识别结果示例:

ICDAR2013的结果

该库主要用来验证在水平文本上的识别效果。

ICDAR2015的结果

用来验证识别方向变化的文本的结果。

Total-Text结果

验证弯曲的文本检测识别结果。

弯曲文本识别示例

速度

在Titan Xp显卡上,720*1280的图像,速度可以达到6.9FPS。

效果分析

作者通过进一步的实验分析,发现:如果去除字符图子网络,只训练检模型,检测的性能会下降,说明检测可以受益于识别模块。下图中Ours(det only)为只有检测的模型。

如果去除训练样本中的真实世界字符标注图像,模型依然可以达到相当竞争力的性能。下图中Ours(a)即不使用真实世界字符标注图像的训练结果。

通过加权编辑距离(weighted edit distance)和原始编辑距离的比较,发现,加权编辑距离可以明显提高识别性能。下图中Ours(b)为原始编辑距离的结果。

该文将Mask R-CNN语义分割的方法用于文本检测与识别,取得了显著的性能改进,并能成功应对任意形状的文本,其他语义分割方法是否也能拿来试一下呢?

该文目前还没有开源代码。

https://arxiv.org/abs/1807.02242

白翔老师主页:

http://cloud.eic.hust.edu.cn:8071/~xbai/

华科计算机博导刘云生论文,华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter相关推荐

  1. 华科计算机博导刘云生论文,AAAI 2020线上分享 | 华科Oral论文:点云中3D目标检测的鲁棒性...

    原标题:AAAI 2020线上分享 | 华科Oral论文:点云中3D目标检测的鲁棒性 在 2020 年第一场人工智能学术顶会 AAAI 开幕之前,机器之心将策划多期线下分享.这是机器之心 AAAI 2 ...

  2. 华科计算机博导刘云生论文,华科论文式要求.doc

    华科论文式要求 华中科技大学计算机科学与技术学院 本科生课程设计规范化要求 计算机科学与技术学院 2012年2月 课程设计是教学计划中的重要实践环节之一,为了进一步加强本科生课程设计教学工作和规范课程 ...

  3. 华科计算机博导刘云生论文,华科计算机学院导师名录及研究方向

    博士导师简介 姓  名 性 别 职 称 研 究 方 向 张江陵 男 教 授 计算机外存储系统,磁盘阵列,海量信息存储,IP电话网关等计算机系统结构方面的研究工作 余胜生 男 教 授 多媒体系统技术计算 ...

  4. 华科计算机博导刘云生论文,关于对博士学位论文进行盲审的通知

    各院(系): <华中科技大学博士学位论文评审暂行规定(试行)>(校研[2013]15号文)已印发,请各院(系)遵照执行.现就具体工作事项通知如下: 一.送审材料 1.经导师.院系审核通过后 ...

  5. 华科计算机保研复试题目,2010华科保研复试经验谈

    2010华科保研复试经验谈(写的很详细) 此贴子是我本科师弟的经验之谈.在此对他表示最诚挚的谢意. 他是外校保送的第4名,各科成绩应该是很理想的.而且这个帖子写的非常详细和真诚. 经过自己的努力,终于 ...

  6. 2021华科计算机学院推免生名单,武汉理工大学2021届保研率14.9%,主要保研本校、武大、华科...

    原标题:武汉理工大学2021届保研率14.9%,主要保研本校.武大.华科 一.保研率 根据武汉理工大学<关于开展推荐2021年优秀应届本科毕业生免试攻读硕士研究生工作的通知>: 学校202 ...

  7. 计算机导论刘云翔,我心目中的好老师 | 计算机科学与信息工程学院 刘云翔:爱岗敬业为人师表...

    原标题:我心目中的好老师 | 计算机科学与信息工程学院 刘云翔:爱岗敬业为人师表 教师不仅是知识的传播者,而且是模范. --[美国]布鲁纳 院长教授:刘云翔 刘云翔老师,现任计算机科学与信息工程学院院 ...

  8. 论文推荐|Mask TextSpotter:An End-to-End Trainable Neural Network

    本文介绍2019年8月TPAMI录用论文"MaskTextSpotter: An End-to-End TrainableNeural Network for Spotting Textwi ...

  9. 考研小纪2---考研经历分享(华科计算机)

    1.背景 本科华科软件,毕业后在深圳某厂做了两年蓝牙,在2020年4月离职考试考研,在2021年4月上岸一志愿华科计算机专业. 2.备考地点与时间 2.1 前文 2020年初疫情原因,在家办公,三月前 ...

最新文章

  1. 费曼:所有的科学知识都是不确定的
  2. Javascript 数组
  3. 分析一个BO上创建的extension field detail
  4. iOS沙盒文件夹及获取路劲方法
  5. centos7 python3.6编译安装
  6. unity 草 可以一棵棵种吗?_这种野草人称“瓜子金”,1斤能卖50多,拔1棵少棵很珍贵...
  7. 3. OD-爆破有钥匙的exe(有验证文件,如KeyFile.dat)
  8. 去掉右键新建菜单多余内容
  9. 云计算的高增长将持续推动光模块行业景气度
  10. 解决家庭版win10、win8没有远程桌面选项
  11. 已解决:ubuntu-软件更新处无nvidia驱动/ubuntu检测不到扩展屏幕
  12. Excel如何锁定首列,教程来啦!怎样将excel的列锁定冻结
  13. 臀部无论大小,翘起才是王道。
  14. 代码随想录第十三天 LeetCode 239、347(队列)
  15. android 后台数据获取,android post方式给后台服务器传递数据
  16. 2020/5/4/ 每日一咕
  17. 股票市场中有哪些是一般散户想不到但实际却很重要的知识?
  18. SQ01报表添加事物码
  19. 高能同步辐射光源基建攻克首个难关
  20. linux 群组分类,Linux文件权限与群组修改命令详解

热门文章

  1. 从wolai转移到Notion
  2. 图书管理系统---用户模块
  3. 怎么用python画直线_python怎么画直线
  4. plsql tables 里面不显示表格
  5. 太空射击unity工程素材文件 飞机大战 飞行射击游戏源码(C#,Unity2019.2.4f1)素材+源码 最新写的,demo简单版本
  6. java hex_使用java实现hex和ascii码的转换
  7. $Self~Problem~C~:~Samsara$
  8. QT五子棋游戏课设及源码(连接mysql数据库含打开并运行程序的教程)
  9. 读论文《Recurrent neural network based language model 》
  10. 20201211_127_编码知识_中文乱码问题解决