MORAN文本识别算法开源，刷新多个OCR数据集state-of-the-art

点击我爱计算机视觉标星，更快获取CVML新技术

近日华南理工大学金连文老师组在文本识别领域又出牛文，提出一种基于像素级不规则文本纠正的识别新算法MORAN(Multi-Object Rectified Attention Network)，刷新了多个OCR数据集的最高精度,并将其开源了！

MORAN文本识别算法由矫正子网络MORN和识别子网络ASRN组成，在MORN中设计了一种新颖的像素级弱监督学习机制用于不规则文本的形状纠正，大大降低了不规则文本的识别难度。

MORN与ASRN可端到端联合学习，训练过程不需要字符位置或像素级分割的监督信息，使得网络的训练大大简化。在常用的IIIT 5K、IC03、IC13、SVT、SVT-Perspective、CUTE80、IC15等7个OCR数据集上，取得了state-of-the-art的识别性能。

文本识别的难题——形状不规则

虽然目前文字识别的应用广泛，但自然场景文字识别仍然面临诸多挑战，其中影响识别率的重要因素就是文本形状的不规则。如下图：

文本形状的多样化上如依次为（a）水平规则文本；（b）倾斜文本；（c）弯曲文本。

普通的矫正方法——仿射变换

普通的矫正方法，使用仿射变换能够对图像做整体的变换，其对图像的纠正局限于缩放、旋转和平移。在深度学习网络中使用STN（Spatial transformer networks）网络可以做这样的纠正。

使用STN学习仿射变换系数

MORN形状矫正方法

该文作者基于分解的思想，提出了一种像素级预测的纠正模型，首先将文本图像分解为多块小图像，然后对每块小图像回归偏移量，并对偏移量进行平滑操作，再在原图像上进行采样，得到新的形状更加规则的水平文本。

整体网络结构

MORN网络结构

矫正的文本图像示例

然后作者设计了基于注意力机制下的识别算法ASNR。

ASRN网络结构

最终的MORAN算法在多个数据集上均超越了state-of-the-art。

实验结果

作者称论文投稿时达到多个数据集当时最高准确率。

最新改进

该文已被Pattern Recognition录用，近期升级的MORAN v2版又做了多项改进：

（1）增强了MORN网络的稳定性，降低了训练难度，实现了单步训练；

（2）使用ResNet替换VGG作为骨干网络；

（3）借鉴了白翔老师组PAMI2018论文中双向解码器思想。

更新后精度如下：

论文及代码地址

https://arxiv.org/abs/1901.03003

https://github.com/HCIILAB/MORAN_v2

https://github.com/Canjie-Luo/MORAN_v2

本文来自于MORAN论文及CSIG文档图像分析与识别专委会公众号：https://mp.weixin.qq.com/s/XbT_t_9C__KdyCCw8CGDVA

加入专业讨论群

加入52CV-OCR专业讨论群，扫码添加52CV君(your-word)拉你入群：

（请务必注明:OCR）

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：928997753。

（不会时时在线，如果没能及时通过验证还请见谅）

更多技术干货，详见：

新年快乐！"我爱计算机视觉"干货集锦与新年展望

长按关注我爱计算机视觉

麻烦给我一个好看！

MORAN文本识别算法开源，刷新多个OCR数据集state-of-the-art相关推荐

华科新开源文本识别算法：ASTER与DeepLesion数据集百度云下载
(欢迎关注"我爱计算机视觉",一个有价值有深度的公众号~) ASTER 昨天跟大家介绍了白翔老师团队ECCV2018上的最新工作:华科白翔老师团队ECCV2018 OCR论文:Ma ...
基于CRNN+CTC的改进图像文本识别算法
上一次介绍了基于改进EAST(An Efficient and Accurate Scene Text Detector)算法的文本定位算法这次我来介绍基于卷积循环神经网络CRNN (Convolut ...
关于CRNN文本识别算法的理解
一.简介常用文本识别算法有两种: CNN+RNN+CTC(CRNN+CTC) CNN+Seq2Seq+Attention 其中CTC与Attention相当于是一种对齐方式,具体算法原理比较复杂,就 ...
怎样快速识别英文地址中包含非英文字符_[论文笔记]端到端的场景文本识别算法--CRNN 论文笔记...
本文大约 4000 字,阅读大约需要 10 分钟论文地址:https://arxiv.org/abs/1507.05717 开源代码:https://github.com/bgshih/crnn 1 ...
ECCV 2020 | 图匠数据、华中师范提出低质退化文本识别算法PlugNet
导语自然场景文本识别是计算机视觉领域的一个经典问题,并被广泛使用于无人驾驶.视觉识别等领域.不同于电脑中的文本识别,自然场景中所采集的文本,往往包含着大量低质量的图像,这对于目前的文本识别器来说是一 ...
精准识别文字信息：通用文本识别算法整理
通用文字识别(OCR)目前有很多火热的应用,比如身份证识别可以自动地从图片中定位和识别出身份信息.通用高精版识别,可以单字识别并返回单字坐标,表格识别可以识别文档上所有表格里面的信息内容.增值税发票识 ...
人脸识别算法开源php,[开源] 一个机器翻译平台 + 一个人脸识别平台
说这次开源的两个东西都还有很大的改进空间,开源的目的一方面是希望给对两个项目的方向感兴趣的初学者提供一个大致的方向,还有就是希望吸引一些大牛参与进来,提一些 pull request 改进一下模型,或 ...
DeepMindVGG提出基于集合的人脸识别算法GhostVLAD,精度远超IJB-B数据集state-of-the-art...
点击我爱计算机视觉标星,更快获取CVML新技术在人脸识别应用中,很多场景能够获取某一个体的多幅人脸图像的集合(比如在监控视频中),使用人脸图像集来做识别,这个问题被称为基于模板的人脸识别(templ ...
python实现ocr识别算法_基于Python的OCR实现示例
摘要: 近几天在做一个东西,其中需要对图像中的文字进行识别,看了前辈们的文章,找到两个较简单的方法:使用python的pytesseract库和调用百度AI平台接口.写下这篇文章做一个比较简短的记录和 ...

MORAN文本识别算法开源，刷新多个OCR数据集state-of-the-art

MORAN文本识别算法开源，刷新多个OCR数据集state-of-the-art相关推荐

最新文章

热门文章