【每周CV论文】深度学习文本检测与识别入门必读文章
欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。
文本检测和识别是计算机视觉的一个非常重要的应用,今天给大家推荐初入该领域可以读的文章。
作者&编辑 | 言有三
1 CTPN
文本与一般的目标有区别,比如没有精确而闭合的边缘,单个字符目标窄,但是整体文本串又较长。针对这个特点,研究者提出CTPN框架(Connectionist Text Proposal Network),通过检测行方向上宽度固定的文本提高定位精度,然后对相邻行进行合并来获取检测结果。
文章引用量:300+
推荐指数:✦✦✦✦✧
[1] Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C] . european conference on computer vision, 2016: 56-72.
2 TextBoxes
针对文本行一般比较长的特点,TextBoxes对SSD框架中的Default Box的长宽比以及卷积核的大小进行了相应的改变,本质上依旧是使用SSD框架进行检测。
文章引用量:150+
推荐指数:✦✦✦✦✧
[2] Liao M, Shi B, Bai X, et al. TextBoxes: a fast text detector with a single deep neural network[C]. national conference on artificial intelligence, 2017: 4161-4167.
3 R2CNN
与大部分目标检测问题的一个显著不同就是,文本往往是有倾斜方向的,因此检测结果框如果没有方向就不够精确,R2CNN框架即Rotational Region CNN,就是将最后的检测box定义为一个带方向的box,另外也会同时预测一个无方向(即水平)的框来包包裹有方向的box。
文章引用量:150+
推荐指数:✦✦✦✦✧
[3] Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection.[J]. arXiv: Computer Vision and Pattern Recognition, 2017.
4 EAST
EAST是一个基于DenseBox的旋转文本检测框架,不过与R2CNN的不同之处在于,它不是在最终box回归的时候输出旋转框,而是使用了多个通道来预测旋转信息,比如4个通道预测边界距离,一个通道预测旋转角度。
文章引用量:300+
推荐指数:✦✦✦✦✦
[4] Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]. computer vision and pattern recognition, 2017: 2642-2651.
5 RRPN
RRPN是一个基于Faster RCNN框架的旋转文本检测框架,与R2CNN和EAST不同的是,它采用了带方向的Region Proposal和RoI Pooling,因此本身就可以输出带方向的目标框。
文章引用量:200+
推荐指数:✦✦✦✦✧
[5] Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.
6 SegLink
文本有的时候非常的长,anchor box不一定能够很好覆盖,SegLink基于SSD目标检测方法进行改进。首先检测局部片段,然后通过规则将所有的片段进行连接,得到最终的文本行,这样做的好处是可以检测任意长度的文本行。
文章引用量:150+
推荐指数:✦✦✦✦✧
[6] Shi B, Bai X, Belongie S, et al. Detecting Oriented Text in Natural Images by Linking Segments[C]. computer vision and pattern recognition, 2017: 3482-3490.
7 CRNN
CRNN是一个端到端的文本识别框架,它输入整段的文本图片。CRNN使用CNN进行特征提取,RNN进行隐藏状态和空间特征建模,CTC用于对RNN的结果进行整合改进。
文章引用量:600+
推荐指数:✦✦✦✦✦
[7] Shi B, Bai X, Yao C, et al. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.
8 综述
最后,如果你想快速了解整个领域的发展现状,可以阅读相关的综述文章[8-9]。
[8] 王润民, 桑农, 丁丁,等. 自然场景图像中的文本检测综述[J]. 自动化学报, 2018, 044(012):2113-2141.
[9] Long S, He X, Yao C, et al. Scene Text Detection and Recognition: The Deep Learning Era.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.
总结
本次我们介绍了初学文本检测和识别值得读的文章,另外当前文本检测和识别的研究难点在于任意形状文本检测,多语言文本识别,端到端检测与识别等方向,读者可以继续关注。
有三AI知识星球
知识星球是有三AI的付费内容社区,里面包括各领域的模型学习,数据集下载,公众号的付费图文原稿,技术总结PPT和视频,知识问答,书籍下载,项目推荐,线下活动等资源,了解详细请阅读以下文章:
【杂谈】有三AI知识星球一周年了!为什么公众号+星球才是完整的?
【杂谈】万万没想到,有三还有个保密的‘朋友圈’,那里面都在弄啥!
转载文章请后台联系
侵权必究
往期精选
【每周论文推荐】 初入深度学习CV领域必读的几篇文章
【每周CV论文推荐】 掌握残差网络必读的10多篇文章
【每周CV论文推荐】 初学者必须精读的5篇深度学习优化相关文章
【每周CV论文推荐】 CV领域中数据增强相关的论文推荐
【每周CV论文推荐】 初学高效率CNN模型设计应该读的文章
【每周CV论文推荐】 初学目标检测必须要读的文章
【每周CV论文推荐】 初学深度学习图像分割必须要读的文章
【每周CV论文推荐】 初学GAN必须要读的文章
【每周CV论文推荐】 深度学习人脸检测入门必读文章
【每周CV论文推荐】 初学深度学习人脸关键点检测必读文章
【每周CV论文推荐】 初学深度学习人脸识别和验证必读文章
【每周CV论文推荐】 初学深度学习人脸属性分析必读的文章
【每周CV论文推荐】 初学活体检测与伪造人脸检测必读的文章
【每周CV论文推荐】 初学深度学习单张图像三维人脸重建需要读的文章
【每周CV论文推荐】 人脸识别剩下的难题:从遮挡,年龄,姿态,妆造到亲属关系,人脸攻击
【每周CV论文】深度学习文本检测与识别入门必读文章相关推荐
- 【每周CV论文推荐】初学模型量化值得阅读的文章
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 模型量化是非常重要的模型压缩方法,在工业界应 ...
- Github:深度学习文本检测识别(OCR)精选资源汇总
点击我爱计算机视觉标星,更快获取CVML新技术 今天跟大家推荐一个Github项目,来自NAVER Clova AI Research的hwalsuklee同学汇总了近几年的基于深度学习进行文本检测. ...
- 【每周CV论文推荐】 初学GAN必须要读的文章
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. GAN作为当前最有前途,也最烧钱的方向之一, ...
- 人工智能学习--文本检测和识别综述(2021)
文本检测和文本识别可以分成两个部分: 目前的深度学习方案也有很多端到端的系统. 本质也是计算机视觉中的一种物体检测和识别分支: -- 传统方法用手工特征提取检测是否文本区域: 之后通过传统的机器学习方 ...
- 【每周CV论文】初学深度学习图像风格化要读的文章
欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像风格化的研究由来以久,这是一个艺术和科学相结 ...
- 【每周CV论文】初学深度学习图像修复应该要读的文章
欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像修复(image inpainting)或补 ...
- 【每周CV论文】初学深度学习图像对比度增强应该要读的文章
欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像对比度增强,即增强图像中的有用信息,抑制无用 ...
- 【每周CV论文】初学深度学习图像超分辨应该要读的文章
欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像超分辨是一个非常实际应用价值的方向,今天给大 ...
- 【每周CV论文】深度学习图像降噪应该从阅读哪些文章开始
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像降噪是图像处理领域中非常传统和经典的问题 ...
最新文章
- 利用Java反射机制和poi插件操作excel
- BZOJ 1013: [JSOI2008]球形空间产生器sphere 高斯消元
- linux下拒绝用户登录,Linux系统用户管理之禁止用户登录
- 【Node.js】serve 实现目录浏览服务
- 12c 新特性之单表恢复
- 自由口通信模式下计算机读写PLC存储区的程序
- scrapy mysql测试连接_scrapy连接MySQL
- WINDOWS蓝色当机画面解读
- 蓝桥杯 ALGO-46 算法训练 Hanoi问题
- MVC中页面的传值方式总结
- MATLAB非线性最小二乘lsqnonlin
- 中国成为全球最活跃5G市场
- 需求分析师如何做好非功能性需求
- linux系统怎么打开菜单,Linux如何编辑开始菜单
- 程序员通病:小厂薪资低,想跳槽,又担心面试过不了!
- JAVA计算机毕业设计员工健康检测系统Mybatis+源码+数据库+lw文档+系统+调试部署
- v2ray服务端启动出现panic: runtime error: invalid memory address or nil pointer dereference
- 基于数据挖掘的智能停车场运营数据分析系统
- 60万奖金“人脸攻防大战”,全部进阶妙招奉上丨独家公开课实录(3)
- JavaWeb web.xml配置详解
热门文章
- 优质 Spring Boot 在线教育平台 源码 免费分享
- java实现支付宝支付完整过程(沙箱测试环境,下篇整合ssm)
- hibernate教程--事务处理详解
- 【Servlet】Request/Response/Cookie/Session中常用方法
- poj2566Bound Found尺取法进阶(java)
- 简单生产消费模式的代码流程(Java代码)
- 工厂方法模式(Factory Method)简介
- mysql 1366 utf8_mysql出现ERROR 1366 (HY000):的解决办法
- 手机上可以学python吗_Python爬虫也能用手机进行抓包?没错!这个技巧我只告诉你...
- 收藏丨运维良药,K8S日常故障处理集锦