加入「公开课」交流群,获取更多学习资料、课程及热招岗位等信息

编辑 | Jane

出品 | AI科技大本营(ID:rgznai100)

【导读】今年的ICCV,商汤科技及联合实验室共有57篇论文入选ICCV 2019(包含11篇Oral),同时在Open Images、COCO、LVIS等13项重要竞赛中夺冠!

本文简要介绍商汤科技研究团队在ICCV2019上录用的一篇文章:Geometry Normalization Networks for Accurate Scene Text Detection(GNNets),针对自然场景下文字检测的几何归一化网络。该文章通过对待处理图像的特征图进行几何变换,从而将待处理图像中几何分布差异较大的文本框归一化到一定的几何分布范围内,提高了自然场景下文本测检的效果。

一、研究背景

随着深度学习的迅速发展,计算机视觉技术对实际生产具有影响越来越重要的影响。对图像中的文本进行检测和识别,有助于计算机理解视觉内容。由于卷积神经网络(CNN)方法的通用性,自然场景文本检测受益于常规物体检测而快速发展。但由于自然场景中的文本在实际应用场景中具有较大的几何变化(例如宽高比或文字方向),所以其自身仍存在巨大的挑战。

对于尺度变化问题,现有方法一般通过使用一个检测头(detection header)对不同层级的特征进行检测,利用NMS融合结果后作为输出或者使用类似FPN [1]的网络将多尺度特征融合然后进行文本检测。对于角度变化问题,现有方法一般通过直接回归文本框角度或使用对方向敏感的卷积来预测任意方向。但目前的方法中要求检测头(detection header)需要学习到文字巨大的几何差异或者检测头(detection header)仅在所有训练样本中一个子集进行学习,这可能导致性能欠佳。

作者研究了几何分布对场景文本检测的影响,发现基于CNN的检测器只能捕获有限的文本几何分布,但充分利用所有训练的样本可以提高其泛化能力。为了解决上述难题,作者提出了一种新颖的几何规范化模块(GNM)。每个自然场景图片中的文本实例可以通过GNM归一化到一定的几何分布范围内。这样所有训练样本均被归一化为有限的分布,因此可以有效地训练一个共享的文本检测头。

本文提出的GNM是通用的,可以直接将该模块插入到任何基于CNN的文本检测器中。为了验证提出方法的有效性,作者针对文字方向的差异性新建了一个测试集(Benchmark)并发布。

二、方法描述 

Fig.1. Overall architecture.

Fig. 1是GNNets的整体网络结构图。总体网络结构由Backbone,GNM,Shared Text Detection Header组成。通过Backbone提取的特征图会被输入到具有多个分支的几何规范化模块(GNM)中,每个分支由一个尺度归一化单元(SNU)和方向归一化单元(ONU)组成。SNU有两个不同比例的尺归一化单位(S,S1/2)和四个方向归一化单位(O,Or,Of,Or + f)。通过SNU和ONU的不同组合,GNM会生成不同的几何归一化特征图,这些特征图将被输入到一个共享文本检测标头中。

Fig.2. ONU.

Fig. 2是作者提出的ONU模块的示意图。通过应用ONU可以更改文本框方向。如图所示“绿色”框是原始框,“灰色”框是转换过程中的中间框,“红色”框是ONU的输出的结果框。θ和θ’分别是原始框和结果框的角度。(a),(b),(c)和(d)分别是O,Or,Of,Or + f的过程的示意图。由上图可以简单明了的表示ONU具有将[0,π/4],[-π/2,-π/4],[-π/4,0]和[π/4,π/2]角度的文本转换为在[0,π/4]角度的文本。

Fig.3. Architecture of GNM.

Fig. 3展示了GNM在网络中的结构设置。对于SNU中的S使用1x1的卷积操作和3x3的卷积操作;S1/2使用1X1的卷积,步长为2的下采样以及3x3的卷积。对于ONU中的O,Or,Of,Or + f中的Operations则分别采用不操作,旋转feature maps,翻转feature maps和旋转后再翻转feature maps。

由于多分支网络的影响,作者提出了一个针对GNNets的抽样训练策略。在训练期间,作者随机采样一个文本实例,并通过旋转和调整大小7次来对其进行扩充,以使GNM的每个分支在每批次中都具有有效的文本实例用于训练。这样可以对GNM的所有分支进行统一训练。并且在训练过程中如果文本实例不在预先设定的几何区间内,则忽略分支中的该文本实例。在测试过程中,作者将GNM中所有分支输出文本框相应地反向投影到原始比例和方向。不在分支预先设定的几何区间内的文本框会被丢弃。其余的文本框通过NMS合并。

三、实验结果

Table 1. Comparison with the state-of-the-art methods on both ICDAR 2015 and ICDAR 2017 MLT.

与原始的PSENet[2] 相比,作者提出的GNNets在ICDAR 2015[3]和ICDAR 2017 MLT [4]上分别实现了约1.3%和2.1%的性能提升。与ICDAR 2015上的EAST[5]和ITN [6]相比,GNNet的F-score比它们分别高出8%和9%。与FTSN [7]相比,获得了4.5%的性能提升。GNNets在ICDAR 2015上的表现优于FOTS [8],在ICDAR 2017 MLT上的F-score更超出其7.3%。并且FOTS使用了文字识别的数据。在单尺度测试中,作者提出的GNNets在ICDAR 2015和ICDAR 2017 MLT上均达到了state-of-the-art的性能。Fig. 5可视化了GNNets和其他文本检测方法在ICDAR 2015和ICDAR 2017 MLT上的检测结果。

Fig.5. Qualitative results on ICDAR 2015 and ICDAR 2017 MLT. The right column shows GNNets results.

四、总结及讨论

1. 在本文中,作者提出了一种新颖的几何归一化模块(GNM)以生成多个几何感知特征图。并且GNM是通用的,可以应用到任何基于CNN的检测器中,以构建端到端的几何归一化网络(GNNet)。实验表明,GNNet在检测几何分布较大的文本实例方面相较于baseline表现出出色的性能。并且,GNNet在两个文字检测主流的数据集上较最新的方法获得了显著的性能提升。

2. 文中研究了几何分布对场景文本检测的影响,发现基于CNN的检测器只能捕获有限的文本几何分布,但充分利用所有训练的样本可以提高其泛化能力,对后续文字检测以及其他相关领域有启发性影响。

3. 综上所述,文本检测是OCR任务的首要前提,但自然场景下文字的字体变化、悬殊的宽高比、任意角度给检测任务带来巨大的挑战,本文为我们提出了目前研究方向上忽略的点,并提供了一个新颖的解决方法,但是相较与常规物体检测,文本检测领域仍然有其特殊性以及较大的提升空间。

(*本文为AI科技大本营投稿文章,转载请微信联系 1092722531)

精彩公开课

推荐阅读

  • 20行代码发一篇NeurIPS:梯度共享已经不安全了

  • 图灵奖得主Bengio:深度学习不会被取代,我想让AI会推理、计划和想象

  • 4大主流CPU处理器技术架构,不知道就out了!

  • 国产数据库年终大盘点

  • 支付宝也崩溃,中心化支付体系尚能饭否?

  • Android 10 vs iOS 13,逐鹿手机操作系统之王!

  • 搞定面试算法系列 | 分治算法三步走

  • 我在华为做外包的真实经历

  • 了不起的 Unicode!

  • 想开发智能合约?先 get 下这个适合所有人的模型驱动法(文末有福利)

  • 你点的每个“在看”,我都认真当成了AI

商汤联手华科:提出文字检测模型GNNets,新颖模块可解决几何分布难题相关推荐

  1. 华科提出目标检测新方法:基于IoU-aware的定位改进,简单又有效

    作者 | 周强 来源 | 我爱计算机视觉(ID:aicvml) [导语]近日,华中科技大学发表了一篇新论文<IoU-aware Single-stage Object Detector for ...

  2. ICCV 2019 | 旷视研究院提出文字检测新方法:像素聚合网络PAN

    本文介绍ICCV 2019 旷视研究院提出任意形状文字检测模型:像素聚合网络 PAN,它考虑了任意文字识别过程中速度与精度的权衡,在大幅提升识别性能的同时也显著降低了计算量,成为当前该领域最佳方法. ...

  3. 14.7倍推理加速、18.9倍存储节省!北航、商汤、UCSD提出首个点云二值网络 | ICLR 2021...

    允中 编辑整理 量子位 报道 | 公众号 QbitAI 编者按: 无论是在自动驾驶场景中,还是在手持移动设备上,基于点云的深度学习模型应用越来越广泛. 但这些离线边缘场景自身的限制,给模型的推理.存储 ...

  4. 超越 FPN 和 NAS-FPN!商汤港中文提出 FPG,特征金字塔网格强势登场!

    论文标题:Feature Pyramid Grids 作者团队:商汤&港中文(陈恺&林达华)&南洋理工大学&FAIR 论文链接:https://arxiv.org/ab ...

  5. 商汤港理工提出基于聚类的联合建模时空关系的 GroupFormer 用于解决群体活动识别问题,性能SOTA...

    关注公众号,发现CV技术之美 ▊ 写在前面 群体活动识别是一个关键而又具有挑战性的问题,其核心在于充分探索个体之间的时空交互,产生合理的群体表征 .然而,以前的方法要么分别建模空间和时间信息,要么直接 ...

  6. ​东京大学商汤悉尼大学等提出融合了动态规划、分治算法的MIM,实现绿色高效层次Transformer!已开源!...

    关注公众号,发现CV技术之美 本文分享论文『Green Hierarchical Vision Transformer for Masked Image Modeling』,由东京大学&商汤& ...

  7. “商汤日日新”大模型体系全面升级,智能涌现,落地千行百业

    2023世界人工智能大会(WAIC)战略合作伙伴商汤科技召开"大爱无疆·日日新"人工智能论坛,重磅推出 "商汤日日新SenseNova"大模型体系的多方位全面升 ...

  8. 聚观早报|九安医疗从硅谷银行取回6亿存款;商汤科技发布通用大模型

    今日要闻:九安医疗从硅谷银行取回6亿存款:OpenAI推出GPT-4更精准解决问题:iPhone 14/Plus黄色版开售即破发:消息称英伟达RTX 4070显卡即将上市:商汤科技发布多模态通用大模型 ...

  9. 商汤实习面试准备(已上岸)

    简介 个人从牛客网,知乎等网站收集了一些近一年内商汤实习计算机视觉算法工程师(见习研究员)的面经,总结如下. 面经及回答 关于BN层.可学习参数,BN层的作用,在训练阶段和预测阶段的有什么不同,了解G ...

最新文章

  1. 树莓派安装oepncv3.43
  2. 卷积Strassen算法
  3. 课程 预编译框架,开发高性能应用 - 微软技术暨生态大会 2018
  4. java对时间使用des加密_Java如何使用DES加密对象?
  5. android代码关闭数据库,android – 我应该如何正确打开和关闭我的数据库
  6. Ubuntu下跑通py-faster-rcnn、详解demo运作流程
  7. Mycat安全_SQL拦截白名单---MyCat分布式数据库集群架构工作笔记0033
  8. oracle创建表(并且实现ID自增)
  9. day 61 pymysql
  10. 为什么红黑树查询快_为什么要有红黑树?什么是红黑树?画了20张图,看完这篇你就明白了...
  11. 字节跳动后端开发实习生一面凉经
  12. 人像图片Relight
  13. 400集高并发分布式超级电商项目实战
  14. 穆利堂[推荐]WxCSM客户服务整体解决方案-河南郑州房地产客户服务管理系统软件-穆穆-movno1
  15. 硬盘分区-从其他盘划分容量到c盘
  16. Android7.0 PackageManagerService (2) PKMS构造函数的主要工作
  17. python ConfigParser 区分大小写
  18. 坚持自己的初心,不做工作的奴隶
  19. SpringBoot集成Kafka并调优
  20. 趣味编程故事|java进程占用cpu过高怎么办,别急我来帮你

热门文章

  1. 有计划地开放数据 促进大数据法规落地
  2. memcache缓存失效
  3. Eclispse Che(2):启动Che服务,进入IDE界面
  4. 【TortoiseSVN使用教程】
  5. java 解决Html table的rowspan问题(osc处女作)
  6. windows mobile做一个摄象头预览程序
  7. 【转】ubuntu下实用的三款录屏软件
  8. IOS 编程中引用第三方的方类库的方法及常见问题
  9. SQL Server (MSSQLSERVER) 服务因 2148081668 服务性错误而停止。
  10. SQL Server中的分页查询