【每周CV论文】深度学习文本检测与识别入门必读文章

欢迎来到《每周CV论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。

文本检测和识别是计算机视觉的一个非常重要的应用，今天给大家推荐初入该领域可以读的文章。

作者&编辑 | 言有三

1 CTPN

文本与一般的目标有区别，比如没有精确而闭合的边缘，单个字符目标窄，但是整体文本串又较长。针对这个特点，研究者提出CTPN框架(Connectionist Text Proposal Network)，通过检测行方向上宽度固定的文本提高定位精度，然后对相邻行进行合并来获取检测结果。

文章引用量：300+

推荐指数：✦✦✦✦✧

[1] Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C] . european conference on computer vision, 2016: 56-72.

2 TextBoxes

针对文本行一般比较长的特点，TextBoxes对SSD框架中的Default Box的长宽比以及卷积核的大小进行了相应的改变，本质上依旧是使用SSD框架进行检测。

文章引用量：150+

推荐指数：✦✦✦✦✧

[2] Liao M, Shi B, Bai X, et al. TextBoxes: a fast text detector with a single deep neural network[C]. national conference on artificial intelligence, 2017: 4161-4167.

3 R2CNN

与大部分目标检测问题的一个显著不同就是，文本往往是有倾斜方向的，因此检测结果框如果没有方向就不够精确，R2CNN框架即Rotational Region CNN，就是将最后的检测box定义为一个带方向的box，另外也会同时预测一个无方向(即水平)的框来包包裹有方向的box。

文章引用量：150+

推荐指数：✦✦✦✦✧

[3] Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection.[J]. arXiv: Computer Vision and Pattern Recognition, 2017.

4 EAST

EAST是一个基于DenseBox的旋转文本检测框架，不过与R2CNN的不同之处在于，它不是在最终box回归的时候输出旋转框，而是使用了多个通道来预测旋转信息，比如4个通道预测边界距离，一个通道预测旋转角度。

文章引用量：300+

推荐指数：✦✦✦✦✦

[4] Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]. computer vision and pattern recognition, 2017: 2642-2651.

5 RRPN

RRPN是一个基于Faster RCNN框架的旋转文本检测框架，与R2CNN和EAST不同的是，它采用了带方向的Region Proposal和RoI Pooling，因此本身就可以输出带方向的目标框。

文章引用量：200+

推荐指数：✦✦✦✦✧

[5] Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.

6 SegLink

文本有的时候非常的长，anchor box不一定能够很好覆盖，SegLink基于SSD目标检测方法进行改进。首先检测局部片段，然后通过规则将所有的片段进行连接，得到最终的文本行，这样做的好处是可以检测任意长度的文本行。

文章引用量：150+

推荐指数：✦✦✦✦✧

[6] Shi B, Bai X, Belongie S, et al. Detecting Oriented Text in Natural Images by Linking Segments[C]. computer vision and pattern recognition, 2017: 3482-3490.

7 CRNN

CRNN是一个端到端的文本识别框架，它输入整段的文本图片。CRNN使用CNN进行特征提取，RNN进行隐藏状态和空间特征建模，CTC用于对RNN的结果进行整合改进。

文章引用量：600+

推荐指数：✦✦✦✦✦

[7] Shi B, Bai X, Yao C, et al. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.

8 综述

最后，如果你想快速了解整个领域的发展现状，可以阅读相关的综述文章[8-9]。

[8] 王润民, 桑农, 丁丁,等. 自然场景图像中的文本检测综述[J]. 自动化学报, 2018, 044(012):2113-2141.

[9] Long S, He X, Yao C, et al. Scene Text Detection and Recognition: The Deep Learning Era.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.

总结

本次我们介绍了初学文本检测和识别值得读的文章，另外当前文本检测和识别的研究难点在于任意形状文本检测，多语言文本识别，端到端检测与识别等方向，读者可以继续关注。

有三AI知识星球

知识星球是有三AI的付费内容社区，里面包括各领域的模型学习，数据集下载，公众号的付费图文原稿，技术总结PPT和视频，知识问答，书籍下载，项目推荐，线下活动等资源，了解详细请阅读以下文章：

【杂谈】有三AI知识星球一周年了！为什么公众号+星球才是完整的？

【杂谈】万万没想到，有三还有个保密的‘朋友圈’，那里面都在弄啥！

转载文章请后台联系

侵权必究

往期精选

【每周论文推荐】初入深度学习CV领域必读的几篇文章
【每周CV论文推荐】掌握残差网络必读的10多篇文章
【每周CV论文推荐】初学者必须精读的5篇深度学习优化相关文章
【每周CV论文推荐】 CV领域中数据增强相关的论文推荐
【每周CV论文推荐】初学高效率CNN模型设计应该读的文章
【每周CV论文推荐】初学目标检测必须要读的文章
【每周CV论文推荐】初学深度学习图像分割必须要读的文章
【每周CV论文推荐】初学GAN必须要读的文章
【每周CV论文推荐】深度学习人脸检测入门必读文章
【每周CV论文推荐】初学深度学习人脸关键点检测必读文章
【每周CV论文推荐】初学深度学习人脸识别和验证必读文章
【每周CV论文推荐】初学深度学习人脸属性分析必读的文章
【每周CV论文推荐】初学活体检测与伪造人脸检测必读的文章
【每周CV论文推荐】初学深度学习单张图像三维人脸重建需要读的文章
【每周CV论文推荐】人脸识别剩下的难题：从遮挡，年龄，姿态，妆造到亲属关系，人脸攻击

【每周CV论文】深度学习文本检测与识别入门必读文章相关推荐

【每周CV论文推荐】初学模型量化值得阅读的文章
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 模型量化是非常重要的模型压缩方法,在工业界应 ...
Github：深度学习文本检测识别（OCR）精选资源汇总
点击我爱计算机视觉标星,更快获取CVML新技术今天跟大家推荐一个Github项目,来自NAVER Clova AI Research的hwalsuklee同学汇总了近几年的基于深度学习进行文本检测. ...
【每周CV论文推荐】初学GAN必须要读的文章
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. GAN作为当前最有前途,也最烧钱的方向之一, ...
人工智能学习--文本检测和识别综述（2021）
文本检测和文本识别可以分成两个部分: 目前的深度学习方案也有很多端到端的系统. 本质也是计算机视觉中的一种物体检测和识别分支: -- 传统方法用手工特征提取检测是否文本区域: 之后通过传统的机器学习方 ...
【每周CV论文】初学深度学习图像风格化要读的文章
欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像风格化的研究由来以久,这是一个艺术和科学相结 ...
【每周CV论文】初学深度学习图像修复应该要读的文章
欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像修复(image inpainting)或补 ...
【每周CV论文】初学深度学习图像对比度增强应该要读的文章
欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像对比度增强,即增强图像中的有用信息,抑制无用 ...
【每周CV论文】初学深度学习图像超分辨应该要读的文章
欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像超分辨是一个非常实际应用价值的方向,今天给大 ...
【每周CV论文】深度学习图像降噪应该从阅读哪些文章开始
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像降噪是图像处理领域中非常传统和经典的问题 ...

【每周CV论文】深度学习文本检测与识别入门必读文章

【每周CV论文】深度学习文本检测与识别入门必读文章相关推荐

最新文章

热门文章