新视角：用图像分类来建模文字识别也可以SOTA

点开名片 ↓↓↓ ，关注公众号

本文为52CV粉丝mileistone投稿，介绍了一篇最新OCR方向的论文，大胆直接使用图像多分类进行文本识别。

我们最近做了一个文字识别的工作：“ CSTR: A Classification Perspective on Scene Text Recognition ” 简单介绍如下：

当前文字识别有两种建模视角：seq2seq-based和segmentation-based。

seq2seq-based的方法首先将图片encode为特征序列（比如CNN、RNN、Transformer encoder或者它们的组合），然后对特征序列进行decode（比如CTC、RNN、attention based RNN、Transformer decoder等）。

segmentation-based的方法首先定位出字符的位置，然后识别出各个位置的字符，最后将字符组合成字符串。

过去达到SOTA的文字识别方法大部分是seq2seq-based，但是seq2seq-based的方法pipeline复杂（大部分还需要STN模块来对图像进行矫正）。

segmentation-based的方法简洁很多，但是需要字符级别的标注，字符级别的标注成本高昂，在实际生产环境中不太可能使用这样精细的标注方式。

我们提出了一种图像分类的建模视角：classification-based。

即将文字识别任务建模为图像分类，整体pipeline比segmentation-based的方法更简单，而且不需要字符级别的标注。

classification-based的模型像其他图像分类模型一样容易实现，因为是纯卷积所以训练、推理非常高效。

CSTR模型结构，ϕ为end token

我们的classification-based模型即CSTR，在六个常用的公开数据集上的效果如下表所示。

我们的模型没有STN模块，仅仅只有一个图像分类器，训练数据集为常用的两个合成的数据集SynthText (ST)和MJSynth (MJ)，仅使用单词级别的标注，测试的时候没用任何TTA，整体效果基本达到SOTA。

CSTR与业界经典模型指标比较

代码将在我们的文字识别工具箱vedastr中开源。

论文：https://arxiv.org/abs/2102.10884

代码：https://github.com/Media-Smart/vedastr

END

备注：OCR

OCR交流群

扫码备注拉你入群。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到

新视角：用图像分类来建模文字识别也可以SOTA相关推荐

Spring Boot + 百度 OCR 图片文字识别功能
一.知识点简介 OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程. - ...
TextScanner：旷视新作文字识别新突破，确保字符阅读顺序
点击我爱计算机视觉标星,更快获取CVML新技术由于深度学习和海量数据的涌现,场景文字识别技术获得飞速发展.但是先前同类方法存在种种缺点,为此,本文提出 TextScanner,一种鲁棒的基于分割的场 ...
模式识别新研究：微软OCR两层优化提升自然场景下的文字识别精度
模式识别新研究:微软OCR两层优化提升自然场景下的文字识别精度发表于2015-03-30 23:46| 6209次阅读| 来源CSDN| 8 条评论| 作者霍强模式识别微软亚洲研究院微软OCR文字 ...
微软OCR两层优化提升自然场景下的文字识别精度（模式识别新研究）
摘要:OCR识别可分为两步:首先是文本检测,将文字从图片中提取出来:然后对文本进行识别.此次的突破主要是在文本检测环节的两个子阶段:先采用对比极值区域CER检测方法,再采用基于浅层神经网络的文字/非文 ...
浅谈文字识别：新观察、新思考、新机遇
点击我爱计算机视觉标星,更快获取CVML新技术 2019年10月16日,VALSE举办了2019年第27期主题为"让机器像人一样阅读:文字检测与识别新趋势"的Webinar,邀请国 ...
网约车需求预测文献阅读笔记（一）《基于图卷积的出发地—目的地矩阵预测：旅客需求建模的新视角》
文献阅读笔记:<基于图卷积的出发地-目的地矩阵预测:旅客需求建模的新视角> 摘要现有研究不足研究挑战(难点) 本文的贡献准备工作定义1:格子定义2:时间片定义3:OD矩阵模型 ...
合合信息新推出反光消除技术，助力手写文字识别更精准
近期,合合信息旗下扫描全能王推出液晶手写板(简称"手写板"),为用户带来仿真.流畅的书写绘画体验,一同发布的还有扫描全能王APP的新功能"拍手写板".该功能可帮 ...
模板字段_劲爆新功能：轻流文字识别（OCR）功能支持自定义识别模板啦
Hi,又和大家见面啦- 前段时间我们的文字识别(OCR)功能推出后,由于只支持系统提供的固定识别模板,很多客户跟我们反馈说:希望可以自定义识别模板! 现应大家的要求,轻流「文字识别(OCR)」的「自定 ...
【华为云技术分享】云图说|人工智能新科技—文字识别服务
在日常生产和生活中,我们往往要处理大量的文字.报表和文本.为了减轻人们的劳动,提高工作效率,华为云文字识别服务应用而生.您可以调用服务提供的文字识别API接口,将我们日常中大量的证件.票据.表格识别成 ...

新视角：用图像分类来建模文字识别也可以SOTA

新视角：用图像分类来建模文字识别也可以SOTA相关推荐

最新文章

热门文章