点开名片 ↓↓↓ ,关注公众号

本文为52CV粉丝mileistone投稿,介绍了一篇最新OCR方向的论文,大胆直接使用图像多分类进行文本识别。

我们最近做了一个文字识别的工作:“ CSTR: A Classification Perspective on Scene Text Recognition ” 简单介绍如下:

当前文字识别有两种建模视角:seq2seq-based和segmentation-based。

seq2seq-based的方法首先将图片encode为特征序列(比如CNN、RNN、Transformer encoder或者它们的组合),然后对特征序列进行decode(比如CTC、RNN、attention based RNN、Transformer decoder等)。

segmentation-based的方法首先定位出字符的位置,然后识别出各个位置的字符,最后将字符组合成字符串。

过去达到SOTA的文字识别方法大部分是seq2seq-based,但是seq2seq-based的方法pipeline复杂(大部分还需要STN模块来对图像进行矫正)。

segmentation-based的方法简洁很多,但是需要字符级别的标注,字符级别的标注成本高昂,在实际生产环境中不太可能使用这样精细的标注方式。

我们提出了一种图像分类的建模视角:classification-based。

即将文字识别任务建模为图像分类,整体pipeline比segmentation-based的方法更简单,而且不需要字符级别的标注。

classification-based的模型像其他图像分类模型一样容易实现,因为是纯卷积所以训练、推理非常高效。

CSTR模型结构,ϕ为end token

我们的classification-based模型即CSTR,在六个常用的公开数据集上的效果如下表所示。

我们的模型没有STN模块,仅仅只有一个图像分类器,训练数据集为常用的两个合成的数据集SynthText (ST)和MJSynth (MJ),仅使用单词级别的标注,测试的时候没用任何TTA,整体效果基本达到SOTA。

CSTR与业界经典模型指标比较

代码将在我们的文字识别工具箱vedastr中开源。

论文:https://arxiv.org/abs/2102.10884

代码:https://github.com/Media-Smart/vedastr

END

备注:OCR

OCR交流群

扫码备注拉你入群。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

新视角:用图像分类来建模文字识别也可以SOTA相关推荐

  1. Spring Boot + 百度 OCR 图片文字识别功能

    一.知识点简介 OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程. - ...

  2. TextScanner:旷视新作文字识别新突破,确保字符阅读顺序

    点击我爱计算机视觉标星,更快获取CVML新技术 由于深度学习和海量数据的涌现,场景文字识别技术获得飞速发展.但是先前同类方法存在种种缺点,为此,本文提出 TextScanner,一种鲁棒的基于分割的场 ...

  3. 模式识别新研究:微软OCR两层优化提升自然场景下的文字识别精度

    模式识别新研究:微软OCR两层优化提升自然场景下的文字识别精度 发表于2015-03-30 23:46| 6209次阅读| 来源CSDN| 8 条评论| 作者霍强 模式识别微软亚洲研究院微软OCR文字 ...

  4. 微软OCR两层优化提升自然场景下的文字识别精度(模式识别新研究)

    摘要:OCR识别可分为两步:首先是文本检测,将文字从图片中提取出来:然后对文本进行识别.此次的突破主要是在文本检测环节的两个子阶段:先采用对比极值区域CER检测方法,再采用基于浅层神经网络的文字/非文 ...

  5. 浅谈文字识别:新观察、新思考、新机遇

    点击我爱计算机视觉标星,更快获取CVML新技术 2019年10月16日,VALSE举办了2019年第27期主题为"让机器像人一样阅读:文字检测与识别新趋势"的Webinar,邀请国 ...

  6. 网约车需求预测文献阅读笔记(一)《基于图卷积的出发地—目的地矩阵预测:旅客需求建模的新视角》

    文献阅读笔记:<基于图卷积的出发地-目的地矩阵预测:旅客需求建模的新视角> 摘要 现有研究不足 研究挑战(难点) 本文的贡献 准备工作 定义1:格子 定义2:时间片 定义3:OD矩阵 模型 ...

  7. 合合信息新推出反光消除技术,助力手写文字识别更精准

    近期,合合信息旗下扫描全能王推出液晶手写板(简称"手写板"),为用户带来仿真.流畅的书写绘画体验,一同发布的还有扫描全能王APP的新功能"拍手写板".该功能可帮 ...

  8. 模板 字段_劲爆新功能:轻流文字识别(OCR)功能支持自定义识别模板啦

    Hi,又和大家见面啦- 前段时间我们的文字识别(OCR)功能推出后,由于只支持系统提供的固定识别模板,很多客户跟我们反馈说:希望可以自定义识别模板! 现应大家的要求,轻流「文字识别(OCR)」的「自定 ...

  9. 【华为云技术分享】云图说|人工智能新科技—文字识别服务

    在日常生产和生活中,我们往往要处理大量的文字.报表和文本.为了减轻人们的劳动,提高工作效率,华为云文字识别服务应用而生.您可以调用服务提供的文字识别API接口,将我们日常中大量的证件.票据.表格识别成 ...

最新文章

  1. TED+肢体语言塑造你自己+power+fake it till you make it
  2. 语法错误 : 缺少“;”(在“类型”的前面)的解决方案 转载
  3. SQL-SQLServer(926)
  4. linux卸载python3.6,当python3.6位于/usr/local/bin/python3.6时,如何在ubuntu上卸载它
  5. 在STM32上实现使用DMA+USART3传输数据
  6. 服务器系统2012怎么多人连接,windows2012服务器TCP连接数
  7. django ORM中的RelatedManager(关联管理器)
  8. 纯函数式编程语言_纯功能编程语言如何改变您的生活。
  9. cass展点不在原位置_cass展点之步骤及方法
  10. 我年薪百万,孩子教育花掉一半
  11. CSS3 必须要知道的10 个顶级命令
  12. SAS 学习笔记 (一) — SAS简介
  13. Android 设备解锁
  14. 如何使用代理服务器上网
  15. 放弃腾讯75W年薪,回老家当公务员,提离职被领导教育。网友:leader嫉妒了
  16. 1.8安装大华相机SDK及测试
  17. Unity 获取设备信息
  18. 判断日期是否为周末 java_如何用Java检查给定的日期是否代表周末
  19. 如何解决java中的安全问题_如何解决java中“使用了未经检查或不安全的操作 请使用 -Xlint:unchecked 重新编译 ”的问题...
  20. windows启动管理器_【指南】Windows操作技巧集合(欢迎在评论区补充)

热门文章

  1. Multi_thread--Linux进程编程基础介绍
  2. Android 4 2官方文档chm格式下载
  3. Linux学习笔记--导航(CentOS 7)
  4. A. Regular Bracket Sequences
  5. python爬去朋友圈_python爬虫24 | 搞事情了,用 Appium 爬取你的微信朋友圈。
  6. linux 如何关闭屏幕录像,如何使用GNOME Shell隐藏的屏幕录像工具
  7. mysql gtid 主键冲突_数据库开启gtid时,需要注意的问题
  8. 太原理工大学自考计算机应用难,太原理工大学人工智能精彩试题+问题详解
  9. apache安装_kali Linux下的Apache的配置和安装:
  10. c语言甘勇第二版第五章答案,C语言(1) - Patata的个人页面 - OSCHINA - 中文开源技术交流社区...