点击我爱计算机视觉标星,更快获取CVML新技术


今天跟大家分享一篇昨天新出的场景文本识别方法MASTER,其发明了一种Multi-Aspect 全局上下文建模方法,有效改进了文本识别精度,在多个数据集上取得了目前最好的精度,是最近最值得读的文本识别方面的论文。

该文作者信息:

作者单位为来自国内的平安产险视觉团队和徐州医科大学。

现实中出现的规则和不规则文本示例:

该文指出,目前基于注意力机制的自然场景文字识别方法在OCR领域取得了很大成果,成功的主要原因是在RNN的框架下,基于注意力的方法可以学习到一维或者二维特征的内在表示。

但是这种基于这种局部注意力机制的方法却存在注意力漂移的问题,并且在RNN架构下模型无法高效的并行计算。

作者正是想在文本识别中引入全局注意力机制。

为了提高模型性能和缓解注意力混淆问题,本文作者(平安产险视觉团队)等人提出了一个更高效和更鲁棒的场景文本识别方法:MASTER。

MASTER包括两个核心模块:

(1)基于Multi-Aspect的全局上下文注意力机制的编码器;

(2)基于Transformer的解码器。

今年一种全局注意力模型GCNet被提出:

Y. Cao, J. Xu, S. Lin, F. Wei, and H. Hu, “GCNet: Non-local networks meet squeeze-excitation networks and beyond,” ArXiv, vol. abs/1904.11492, 2019.

其全局上下文建模模块如下:

其主要分为Context Modeling 和 Transform 两大部分,并将原始特征图与Transform输出结果融合。

该文将其用于场景文本识别的注意力建模,发现如果使用多个注意力函数,可以取得更好的结果:

其核心模块如下:

可见,创新之处在于其含有h个Context Modeling。

在解码器部分也有多处改进,主要有:

  • Scaled Multi-Head Dot-Product Attention

  • Masked Multi-Head Attention

  • Position-wise Feed-Forward Networn

  • Loss Function

MASTER架构图:(请点击查看大图)

实验结果

作者在常见评价数据集上与State-of-the-art方法进行了比较:

在 7 个数据集上有 4 个取得了当前最高的精度。

(另外3个是52CV曾经向大家重点介绍过的Mask TextSpotter:

华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter)

下表是在 COCO-text test 数据集上的结果:

可见MASTER在不区分大小写赛道取得了当前第一名的结果,并大幅超越第二名,在区分大小写赛道取得准确率指标第四的好成绩。

作者总结称MASTER方法具有如下优势:

(1)模型能够更好的学习输入和输出之间的对齐关系,并且能够在编码器内部学习特征与特征之间的依赖关系,在解码器内部学习目标与目标之间的依赖关系,缓解了注意力混淆问题;

(2)模型在公开的基准数据集上取得了SOTA水平,尤其在不规则文本数据集上刷新了准确率,表明其对图片的空间形变不敏感;

(3)训练和预测阶段使用了并行计算,更加高效。

目前还未发现该文有开源代码,不过作者在论文中详细列出了关键模块的配置和PyTorch实现,应该比较容易复现。

论文地址:

https://arxiv.org/pdf/1910.02562.pdf

在我爱计算机视觉公众号对话界面回复“MASTER”(建议复制),即可收到论文下载。


OCR交流群

OCR交流群是52CV最活跃的技术交流群之一,关注文本检测、识别、风格化相关技术,聚集了大量学术界和产业界的朋友,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:OCR)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

MASTER:全局上下文建模大幅提高文本识别精度相关推荐

  1. 图像二值化处理提高pytesseract识别精度

    # 识别前处理 # 图片二值化 from PIL import Image import os os.chdir('D:\OCR') img = Image.open('test.png')# 模式L ...

  2. OCR文本识别系统项目文档——欢迎探讨交流

    <OCR文本识别系统项目计划书> 一.作品概述 http://115.159.205.168/ocr_php/public/index.php 本项目的名称为OCR文本识别系统,研发其主要 ...

  3. 新思路!商汤开源利用无标注数据大幅提高精度的人脸识别算法

    出处"来自微信公众号:我爱计算机视觉" 新思路!商汤开源利用无标注数据大幅提高精度的人脸识别算法 这篇论文解决的问题与现实中的人脸识别应用场景密切相关,其假设已经有了少量已经标注的 ...

  4. 【深度学习】OCR文本识别

    OCR文字识别定义 OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程: ...

  5. 【文本检测与识别白皮书-3.2】第一节:基于分割的场景文本识别方法

    3.2技术背景--文本识别方法 3.2.1 基于分割的场景文本识别方法 基于分割的识别算法是自然场景文本识别算法的一个重要分支(Wang 等,2012;Bissacco 等,2013;Jaderber ...

  6. 大幅提高生产力:你需要了解的十大Jupyter Lab插件

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 下一代数据科学开发环境 Jupyter Lab 应该怎么用?让我们 ...

  7. 文本识别综述 <软件学报_王建新等、中国图象图形学报_刘崇宇等>

    1 软件学报_王建新 基于时序特征分类的方法 基于时序特征分类的方法首先利用卷积网络将图像转换为图像特征序列,然后采用循环神经网络或者卷积网络将图像特征序列识别为字符概率预测序列.鉴于图像特征序列长度 ...

  8. Opencv多语言自然场景文本识别系统(源码&教程)

    1. 研究背景 人类在自然场景中可以快速定位并识别看到的文字信息,但是想要计算机做到和人类一样是比较困难的.开发人员一直想要让机器也能识别图像中的文字信息.当然,对于自然场景来说,图像中的信息复杂甚至 ...

  9. Mask TextSpotter v3 来了!最强端到端文本识别模型

    场景文本的识别可以用文本检测+文本识别两个过程来做,近年来端到端的场景文本识别(即Text Spotting)越来越引起学术界的重视,而华中科技大学白翔老师组的 Mask TextSpotter v1 ...

最新文章

  1. 04-dispatch_group
  2. 从AlexNet到BERT:深度学习中那些最重要idea的最简单回顾
  3. iBATIS配置文件的特殊使用方法
  4. Java开发者 IntelliJ IDEA 转换 VScode 时的优缺点
  5. Python 技术篇-3行代码实现语音朗读,pywin32库实现语音朗读
  6. python 3.5opencv 环境搭建_Python3.5+openCv进行人脸识别的环境搭建(Windows下)
  7. 从零开始学电脑_《新手从零开始学电脑》1.6——怎样才能打一手好字
  8. CodeCraft-21 and Codeforces Round #711 (Div. 2) D. Bananas in a Microwave 优化暴力
  9. numpy统计分布显示
  10. 税友软件公司java面试_税友集团java面试题
  11. Luogu1525 关押罪犯
  12. EyouCms前台GetShell漏洞复现
  13. 批处理文件——BAT学习
  14. 远程计算机或许不支持所需的,WIN10远程计算机不支持所需的FIPS安全级别解决
  15. 小米10pro和小米10的区别
  16. AR单片机编程软件的菜单栏功能及用法
  17. UML活动图与状态图
  18. Unity3D键盘输入被输入法屏蔽
  19. 苹果电脑上好用的4款摄影后期修饰剪辑工具
  20. RustDesk 自建服务器,局域网可以连接服务器,外网就不可以了。 求高手指点迷津。

热门文章

  1. Golang笔记——go使用Redis
  2. VMWARE 构建局域网 + VMWARE SQL Server 服务器搭建
  3. android6.0关机动画,安卓系统修改开机动画,关机动画
  4. 阵列卡直通模式和raid模式_DNF:希洛克Raid攻坚流程攻略
  5. mcrypt拓展_【PHP】Mcrypt 扩展模块安装及使用
  6. u盘序列号读取工具_硬盘读写工具
  7. php.exe不是内部或外部命令,“php.exe”不被识别为内部或外部命令,可操作程序或batch file...
  8. java方法中的循环里的变量_Java中循环声明变量方法
  9. weka使用训练集分类测试集_Giao 13C NMR计算分类训练集提高结构归属的准确性和可靠性...
  10. python中global的使用_PYTHON中使用GLOBAL引发的一系列问题