MORAN文本识别算法开源,刷新多个OCR数据集state-of-the-art
点击我爱计算机视觉标星,更快获取CVML新技术
近日华南理工大学金连文老师组在文本识别领域又出牛文,提出一种基于像素级不规则文本纠正的识别新算法MORAN(Multi-Object Rectified Attention Network),刷新了多个OCR数据集的最高精度,并将其开源了!
MORAN文本识别算法由矫正子网络MORN和识别子网络ASRN组成,在MORN中设计了一种新颖的像素级弱监督学习机制用于不规则文本的形状纠正,大大降低了不规则文本的识别难度。
MORN与ASRN可端到端联合学习,训练过程不需要字符位置或像素级分割的监督信息,使得网络的训练大大简化。在常用的IIIT 5K、IC03、IC13、SVT、SVT-Perspective、CUTE80、IC15等7个OCR数据集上,取得了state-of-the-art的识别性能。
文本识别的难题——形状不规则
虽然目前文字识别的应用广泛,但自然场景文字识别仍然面临诸多挑战,其中影响识别率的重要因素就是文本形状的不规则。如下图:
文本形状的多样化上如依次为(a)水平规则文本;(b)倾斜文本;(c)弯曲文本。
普通的矫正方法——仿射变换
普通的矫正方法,使用仿射变换能够对图像做整体的变换,其对图像的纠正局限于缩放、旋转和平移。在深度学习网络中使用STN(Spatial transformer networks)网络可以做这样的纠正。
使用STN学习仿射变换系数
MORN形状矫正方法
该文作者基于分解的思想,提出了一种像素级预测的纠正模型,首先将文本图像分解为多块小图像,然后对每块小图像回归偏移量,并对偏移量进行平滑操作,再在原图像上进行采样,得到新的形状更加规则的水平文本。
整体网络结构
MORN网络结构
矫正的文本图像示例
然后作者设计了基于注意力机制下的识别算法ASNR。
ASRN网络结构
最终的MORAN算法在多个数据集上均超越了state-of-the-art。
实验结果
作者称论文投稿时达到多个数据集当时最高准确率。
最新改进
该文已被Pattern Recognition录用,近期升级的MORAN v2版又做了多项改进:
(1)增强了MORN网络的稳定性,降低了训练难度,实现了单步训练;
(2)使用ResNet替换VGG作为骨干网络;
(3)借鉴了白翔老师组PAMI2018论文中双向解码器思想。
更新后精度如下:
论文及代码地址
https://arxiv.org/abs/1901.03003
https://github.com/HCIILAB/MORAN_v2
https://github.com/Canjie-Luo/MORAN_v2
本文来自于MORAN论文及CSIG文档图像分析与识别专委会公众号:https://mp.weixin.qq.com/s/XbT_t_9C__KdyCCw8CGDVA
加入专业讨论群
加入52CV-OCR专业讨论群,扫码添加52CV君(your-word)拉你入群:
(请务必注明:OCR)
喜欢在QQ交流的童鞋,可以加52CV官方QQ群:928997753。
(不会时时在线,如果没能及时通过验证还请见谅)
更多技术干货,详见:
新年快乐!"我爱计算机视觉"干货集锦与新年展望
长按关注我爱计算机视觉
麻烦给我一个好看!
MORAN文本识别算法开源,刷新多个OCR数据集state-of-the-art相关推荐
- 华科新开源文本识别算法:ASTER与DeepLesion数据集百度云下载
(欢迎关注"我爱计算机视觉",一个有价值有深度的公众号~) ASTER 昨天跟大家介绍了白翔老师团队ECCV2018上的最新工作:华科白翔老师团队ECCV2018 OCR论文:Ma ...
- 基于CRNN+CTC的改进图像文本识别算法
上一次介绍了基于改进EAST(An Efficient and Accurate Scene Text Detector)算法的文本定位算法这次我来介绍基于卷积循环神经网络CRNN (Convolut ...
- 关于CRNN文本识别算法的理解
一.简介 常用文本识别算法有两种: CNN+RNN+CTC(CRNN+CTC) CNN+Seq2Seq+Attention 其中CTC与Attention相当于是一种对齐方式,具体算法原理比较复杂,就 ...
- 怎样快速识别 英文地址中包含非英文字符_[论文笔记]端到端的场景文本识别算法--CRNN 论文笔记...
本文大约 4000 字,阅读大约需要 10 分钟 论文地址:https://arxiv.org/abs/1507.05717 开源代码:https://github.com/bgshih/crnn 1 ...
- ECCV 2020 | 图匠数据、华中师范提出低质退化文本识别算法PlugNet
导语 自然场景文本识别是计算机视觉领域的一个经典问题,并被广泛使用于无人驾驶.视觉识别等领域.不同于电脑中的文本识别,自然场景中所采集的文本,往往包含着大量低质量的图像,这对于目前的文本识别器来说是一 ...
- 精准识别文字信息:通用文本识别算法整理
通用文字识别(OCR)目前有很多火热的应用,比如身份证识别可以自动地从图片中定位和识别出身份信息.通用高精版识别,可以单字识别并返回单字坐标,表格识别可以识别文档上所有表格里面的信息内容.增值税发票识 ...
- 人脸识别算法开源php,[开源] 一个机器翻译平台 + 一个人脸识别平台
说这次开源的两个东西都还有很大的改进空间,开源的目的一方面是希望给对两个项目的方向感兴趣的初学者提供一个大致的方向,还有就是希望吸引一些大牛参与进来,提一些 pull request 改进一下模型,或 ...
- DeepMindVGG提出基于集合的人脸识别算法GhostVLAD,精度远超IJB-B数据集state-of-the-art...
点击我爱计算机视觉标星,更快获取CVML新技术 在人脸识别应用中,很多场景能够获取某一个体的多幅人脸图像的集合(比如在监控视频中),使用人脸图像集来做识别,这个问题被称为基于模板的人脸识别(templ ...
- python实现ocr识别算法_基于Python的OCR实现示例
摘要: 近几天在做一个东西,其中需要对图像中的文字进行识别,看了前辈们的文章,找到两个较简单的方法:使用python的pytesseract库和调用百度AI平台接口.写下这篇文章做一个比较简短的记录和 ...
最新文章
- C ++变量,文字和常量
- 【硬核书】矩阵代数基础
- iphone微信美颜插件_iPhone、安卓微信自动更新,又有新功能?
- /home/appleyuchi主目录迁移到新磁盘中
- ACM常用之 异或运算的性质。
- 飞船向上飞pygame用k_up_十分钟就能用Python教你开发出一个迷你打飞机的游戏
- Codeforces 1096F(dp + 树状数组)
- (转)MTK 消息分发及窗口管理
- php弹窗拨打电话,调用系统的拨打电话,不弹框或多次出现弹框问题
- Ubuntu 20.04 上安装使用 ibus-rime(超实用)
- MLP is Maybe Your Need
- 微信公众号申请注意事项
- AWE 2017盛大开幕,跨界生态圈刷新未来
- TAC配置错误导致无法切换
- vue使用html2canvas jspdf实现pdf下载导出功能
- 安装jupyter notebook中关于markupsafe的问题
- 记录第一次完整安卓逆向过程笔记
- Linux系统级IO②:RIO-带缓冲区IO实现
- 【操作系统】-- 动态分区分配算法(首次适应算法FF、最佳适应算法BF、最坏适应算法WF、循环首次适应算法NF)
- mysql数据库索引的科普
热门文章
- ios13 无法传参_iOS13个人热点功能频遭投诉
- python 从入门到实践 pdf_python入门基础实践课,带你有效的学习python
- pb90代码如何连接sql2008r2_RabbitMQ各种交换机机制,代码实践篇
- harmonyos2.0测评,爆料:荣耀30 Pro开始测试华为鸿蒙HarmonyOS 2.0
- sqlserver导入execl数据ACE.OLEDB.12.0错误
- jsp在mysql中删除数据_如何在jsp页面中删除数据库中的数据
- 常用的sublime text 3插件
- Android项目实战(三十八):2017最新 将AndroidLibrary提交到JCenter仓库(图文教程)...
- leetcode之二叉树的层序遍历
- 17秋 软件工程 团队第五次作业 Alpha Scrum9