欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。

文本检测和识别是计算机视觉的一个非常重要的应用,今天给大家推荐初入该领域可以读的文章。

作者&编辑 | 言有三

1 CTPN

文本与一般的目标有区别,比如没有精确而闭合的边缘,单个字符目标窄,但是整体文本串又较长。针对这个特点,研究者提出CTPN框架(Connectionist Text Proposal Network),通过检测行方向上宽度固定的文本提高定位精度,然后对相邻行进行合并来获取检测结果。

文章引用量:300+

推荐指数:✦✦✦✦✧

[1] Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C]    . european conference on computer vision, 2016: 56-72.

2 TextBoxes

针对文本行一般比较长的特点,TextBoxes对SSD框架中的Default Box的长宽比以及卷积核的大小进行了相应的改变,本质上依旧是使用SSD框架进行检测。

文章引用量:150+

推荐指数:✦✦✦✦✧

[2] Liao M, Shi B, Bai X, et al. TextBoxes: a fast text detector with a single deep neural network[C]. national conference on artificial intelligence, 2017: 4161-4167.

3 R2CNN

与大部分目标检测问题的一个显著不同就是,文本往往是有倾斜方向的,因此检测结果框如果没有方向就不够精确,R2CNN框架即Rotational Region CNN,就是将最后的检测box定义为一个带方向的box,另外也会同时预测一个无方向(即水平)的框来包包裹有方向的box。

文章引用量:150+

推荐指数:✦✦✦✦✧

[3] Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection.[J]. arXiv: Computer Vision and Pattern Recognition, 2017.

4 EAST

EAST是一个基于DenseBox的旋转文本检测框架,不过与R2CNN的不同之处在于,它不是在最终box回归的时候输出旋转框,而是使用了多个通道来预测旋转信息,比如4个通道预测边界距离,一个通道预测旋转角度。

文章引用量:300+

推荐指数:✦✦✦✦✦

[4] Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]. computer vision and pattern recognition, 2017: 2642-2651.

5 RRPN

RRPN是一个基于Faster RCNN框架的旋转文本检测框架,与R2CNN和EAST不同的是,它采用了带方向的Region Proposal和RoI Pooling,因此本身就可以输出带方向的目标框。

文章引用量:200+

推荐指数:✦✦✦✦✧

[5] Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.

6 SegLink

文本有的时候非常的长,anchor box不一定能够很好覆盖,SegLink基于SSD目标检测方法进行改进。首先检测局部片段,然后通过规则将所有的片段进行连接,得到最终的文本行,这样做的好处是可以检测任意长度的文本行。

文章引用量:150+

推荐指数:✦✦✦✦✧

[6] Shi B, Bai X, Belongie S, et al. Detecting Oriented Text in Natural Images by Linking Segments[C]. computer vision and pattern recognition, 2017: 3482-3490.

7  CRNN

CRNN是一个端到端的文本识别框架,它输入整段的文本图片。CRNN使用CNN进行特征提取,RNN进行隐藏状态和空间特征建模,CTC用于对RNN的结果进行整合改进。

文章引用量:600+

推荐指数:✦✦✦✦✦

[7] Shi B, Bai X, Yao C, et al. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.

8 综述

最后,如果你想快速了解整个领域的发展现状,可以阅读相关的综述文章[8-9]。

[8] 王润民, 桑农, 丁丁,等. 自然场景图像中的文本检测综述[J]. 自动化学报, 2018, 044(012):2113-2141.

[9] Long S, He X, Yao C, et al. Scene Text Detection and Recognition: The Deep Learning Era.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.

总结

本次我们介绍了初学文本检测和识别值得读的文章,另外当前文本检测和识别的研究难点在于任意形状文本检测,多语言文本识别,端到端检测与识别等方向,读者可以继续关注。

有三AI知识星球

知识星球是有三AI的付费内容社区,里面包括各领域的模型学习,数据集下载,公众号的付费图文原稿,技术总结PPT和视频,知识问答,书籍下载,项目推荐,线下活动等资源,了解详细请阅读以下文章:

【杂谈】有三AI知识星球一周年了!为什么公众号+星球才是完整的?

【杂谈】万万没想到,有三还有个保密的‘朋友圈’,那里面都在弄啥!

转载文章请后台联系

侵权必究

往期精选

  • 【每周论文推荐】 初入深度学习CV领域必读的几篇文章

  • 【每周CV论文推荐】 掌握残差网络必读的10多篇文章

  • 【每周CV论文推荐】 初学者必须精读的5篇深度学习优化相关文章

  • 【每周CV论文推荐】 CV领域中数据增强相关的论文推荐

  • 【每周CV论文推荐】 初学高效率CNN模型设计应该读的文章

  • 【每周CV论文推荐】 初学目标检测必须要读的文章

  • 【每周CV论文推荐】 初学深度学习图像分割必须要读的文章

  • 【每周CV论文推荐】 初学GAN必须要读的文章

  • 【每周CV论文推荐】 深度学习人脸检测入门必读文章

  • 【每周CV论文推荐】 初学深度学习人脸关键点检测必读文章

  • 【每周CV论文推荐】 初学深度学习人脸识别和验证必读文章

  • 【每周CV论文推荐】 初学深度学习人脸属性分析必读的文章

  • 【每周CV论文推荐】 初学活体检测与伪造人脸检测必读的文章

  • 【每周CV论文推荐】 初学深度学习单张图像三维人脸重建需要读的文章

  • 【每周CV论文推荐】 人脸识别剩下的难题:从遮挡,年龄,姿态,妆造到亲属关系,人脸攻击

【每周CV论文】深度学习文本检测与识别入门必读文章相关推荐

  1. 【每周CV论文推荐】初学模型量化值得阅读的文章

    欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 模型量化是非常重要的模型压缩方法,在工业界应 ...

  2. Github:深度学习文本检测识别(OCR)精选资源汇总

    点击我爱计算机视觉标星,更快获取CVML新技术 今天跟大家推荐一个Github项目,来自NAVER Clova AI Research的hwalsuklee同学汇总了近几年的基于深度学习进行文本检测. ...

  3. 【每周CV论文推荐】 初学GAN必须要读的文章

    欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. GAN作为当前最有前途,也最烧钱的方向之一, ...

  4. 人工智能学习--文本检测和识别综述(2021)

    文本检测和文本识别可以分成两个部分: 目前的深度学习方案也有很多端到端的系统. 本质也是计算机视觉中的一种物体检测和识别分支: -- 传统方法用手工特征提取检测是否文本区域: 之后通过传统的机器学习方 ...

  5. 【每周CV论文】初学深度学习图像风格化要读的文章

    欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像风格化的研究由来以久,这是一个艺术和科学相结 ...

  6. 【每周CV论文】初学深度学习图像修复应该要读的文章

    欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像修复(image inpainting)或补 ...

  7. 【每周CV论文】初学深度学习图像对比度增强应该要读的文章

    欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像对比度增强,即增强图像中的有用信息,抑制无用 ...

  8. 【每周CV论文】初学深度学习图像超分辨应该要读的文章

    欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像超分辨是一个非常实际应用价值的方向,今天给大 ...

  9. 【每周CV论文】深度学习图像降噪应该从阅读哪些文章开始

    欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像降噪是图像处理领域中非常传统和经典的问题 ...

最新文章

  1. 利用Java反射机制和poi插件操作excel
  2. BZOJ 1013: [JSOI2008]球形空间产生器sphere 高斯消元
  3. linux下拒绝用户登录,Linux系统用户管理之禁止用户登录
  4. 【Node.js】serve 实现目录浏览服务
  5. 12c 新特性之单表恢复
  6. 自由口通信模式下计算机读写PLC存储区的程序
  7. scrapy mysql测试连接_scrapy连接MySQL
  8. WINDOWS蓝色当机画面解读
  9. 蓝桥杯 ALGO-46 算法训练 Hanoi问题
  10. MVC中页面的传值方式总结
  11. MATLAB非线性最小二乘lsqnonlin
  12. 中国成为全球最活跃5G市场
  13. 需求分析师如何做好非功能性需求
  14. linux系统怎么打开菜单,Linux如何编辑开始菜单
  15. 程序员通病:小厂薪资低,想跳槽,又担心面试过不了!
  16. JAVA计算机毕业设计员工健康检测系统Mybatis+源码+数据库+lw文档+系统+调试部署
  17. v2ray服务端启动出现panic: runtime error: invalid memory address or nil pointer dereference
  18. 基于数据挖掘的智能停车场运营数据分析系统
  19. 60万奖金“人脸攻防大战”,全部进阶妙招奉上丨独家公开课实录(3)
  20. JavaWeb web.xml配置详解

热门文章

  1. 优质 Spring Boot 在线教育平台 源码 免费分享
  2. java实现支付宝支付完整过程(沙箱测试环境,下篇整合ssm)
  3. hibernate教程--事务处理详解
  4. 【Servlet】Request/Response/Cookie/Session中常用方法
  5. poj2566Bound Found尺取法进阶(java)
  6. 简单生产消费模式的代码流程(Java代码)
  7. 工厂方法模式(Factory Method)简介
  8. mysql 1366 utf8_mysql出现ERROR 1366 (HY000):的解决办法
  9. 手机上可以学python吗_Python爬虫也能用手机进行抓包?没错!这个技巧我只告诉你...
  10. 收藏丨运维良药,K8S日常故障处理集锦