文本检测综述(2017 ~ 2021 持续更新)
文本检测综述
- 文本检测传统方法
- 文本检测深度方法
- 目标检测
- 文本检测
- 1.CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)
- 2. SegLink(Detecting Oriented Text in Natural Images by link Segments)
- 3. EAST(EAST: An Efficient and Accurate Scene Text Detector)
- 4. PSENet(Shape Robust Text Detection with Progressive Scale Expansion Network)
- 5. LSAE(Learning Shape-Aware Embedding for Scene Text Detection)
- 6. ATRR(Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation)
- 7. CRAFT(Character Region Awareness for Text Detection)
- 8. LOMO(Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes)
- 9. PAN(Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network)
- 10. Mask TextSpotter( An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes)
- 11. Learning to Predict More Accurate Text Instances for Scene Text Detection
- 12. DBNet(Real-time Scene Text Detection with Differentiable Binarization)
- 13. SBD(Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection)
- 14. ABCNet(Real-time Scene Text Spotting with Adaptive Bezier-Curve Network)
- 15. SR-Deeptext(Scale robust deep oriented-text detection network)
- 16. FCENet(Fourier Contour Embedding for Arbitrary-Shaped Text Detection)
- 17. STKM(Self-attention based Text Knowledge Mining for Text Detection)
- 18. MOST: A Multi-Oriented Scene Text Detector with Localization Refinement
- 19. TextMountain: Accurate scene text detection via instance segmentation.
- 20. TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text
- 21. STR-TDSL: Scene Text Retrieval via Joint Text Detection and Similarity Learning
- 22. TextBPN: Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection
- 23. PCR: Progressive Contour Regression for Arbitrary-Shape Scene Text Detection
- 方法总结
- 参考文献
OCR(Optical Character Recignition) 光学字符识别
文本识别分为两个步骤:文本检测和文本识别,传统的文本检测方法一般采用手工特征提取的方式进行检测文本,比如 SWT、MSER等方法,然后采用模板匹配或模型训练的方法对检测到的文本进行识别。而现在的深度学习方法使用卷积神经网络代替手工提取特征方法进行文本检测,然后神经网络对检测到的文本进行识别。
本篇文章是对近年来(2017-2020)一些重要的深度学习方向上的文本检测方法的综述。
文本检测从刚开始的检测水平文本,到检测多方向文本,再到检测弯曲文本以及不规则形状文本,在这个方向上有了很大的进展,提出的新模型可以解决大部分问题。总体来说,文本检测可以分为两大类:基于回归的文本检测和基于分割的文本检测。基于回归的文本检测,基本上都是将文字当做一个目标去检测,主要是受到了一些目标检测方法的启发,比如SSD,FasterRCNN等。基于分割的文本检测,相当于是对图像的像素进行分类,表示是不是文本部分,得到属于文本部分的二值图,然后通过后处理部分得到文本框。
文本检测传统方法
图像预处理;版面处理;图像切分;特征提取、匹配及模型训练;识别后处理
- 预处理:灰度化、二值化、倾斜检测与矫正,平滑、规范化
- 版面处理:版面分析、版面理解、版面重构
- 图像切分:行(列)切分和字切分
- 特征提取与模型训练:特征提取及匹配、模型训练
- 识别后处理:版面恢复和识别矫正
文本检测:
SWT(Stroke Width Transform) 笔画宽度变化
MSER(Robust wide-baseline stereo from maximally stable extremal regions) 最大稳定极值区域
对文字形状变化(文字模糊、笔画粘连、断笔、黑白不均、油墨反透)的适应性和抗干扰性比较差
文本检测深度方法
简单说一下为什么通用目标检测不太适合文本检测(也是可以用的):
目标检测
候选区域、特征提取、分类、位置精修
RCNN
- 一整图像生成1K~2K个候选区域(Selective Search)
- 对每个候选区域,使用深度网络提取特征
- 特征送入每一类的SVM分类器,判别是否属于该类
- 使用回归器精细修正候选框位置
Fast-RCNN
- 整张图归一化后直接送入深度网络
- 在ROI Pooling层才输入候选框
- 然后再进行分类和回归
Faster-RCNN
区域生成网络 + Fast-RCNN (使用区域生成网络代替 Fast-RCNN中的 Selective Search 方法)
- 基础网络做特征提取
- 特征送入RPN做候选框提取
- 分类层对候选框内物体进行分类,回归层对候选框的坐标进行精细调整
文本特点:
使用通用目标检测方法做文本检测效果不好,因为文本有自己独有的特点,这种通用的文本检测并不能很好的解决文本的这些特点:
- 文本大多数以长矩形形式存在,与普通的目标检测中的物体不一样(长宽比接近于1)
- 普通物体存在明显的闭合边缘轮廓,而文本没有
- 文本中包含多个文字,而文字之间是有间隔的,如果检测做的不好,我们就会把每个字都当成文本行给框出来而非整行作为文本框,这与我们的期望不一样
基于以上文本检测的特点,必须对Faster-RCNN这类通用网络进行改进,设计出适合文本检测全新架构。
文本检测
1.CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)
解读链接:CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)
- 考虑到文本框以长矩形存在,首先检测文本的一小部分,判断是不是文本的一部分,然后将同一个文本框的小文本框合并,得到一个完整的、大的文本框。
- 考虑到文本都是连续字符,连续的上下文本信息很重要,所以使用了RNN(BLSTM)来进一步提升效果。还有就是如果仅仅根据一个文本框的信息预测该框内含不含有文字是很草率的,如果参考这个框的左边和右边的信息后,也就是使用RNN将左右信息利用起来,会大大提升预测的准确率。
- 对 y 轴中心和高度的偏移进行回归(宽度固定为16,高度在 11-283之间)
- 使用边缘细化方法精修边缘
- 将各部分进行文本行构建
缺点:对于非水平文本的检测效果不好,比如弯曲文本、多向文本(垂直文本)。
2. SegLink(Detecting Oriented Text in Natural Images by link Segments)
- 与CTPN思想类似,都是先找出文本行的一部分,然后再连接所有的部分,组成一个完整的文本行;
- 在SSD基础上加入了旋转角度的学习;
- 在小部分文本框之前用连接线(相邻框的中点连线)来表示属不属于同一个文本框,也是用网络来学习;
- 使用融合规则将各个阶段的框信息和线信息进行融合,组成文本行。
缺点:不能检测间隔很大的文本行,不能检测弯曲文本
3. EAST(EAST: An Efficient and Accurate Scene Text Detector)
解读链接:EAST(EAST: An Efficient and Accurate Scene Text Detector)
把完整文本行先分割检测再合并的思路,做法比较麻烦,把文本检测切割成多阶段来进行,增大了文本检测精度的损失和时间消耗,中间处理影响效果。(候选框选取,候选框过滤,bbox回归,候选框合并)
- 通过FCN结构的网络直接学习是不是文本框以及文本框的坐标和角度(或者八个坐标);
- 局部感知NMS(先合并再NMS),降低了NMS的复杂度。
- 精度和速度都有所提高
缺点:感受野不大,对于长文本检测不是很好,比较适合短文本行检测
AdvancedEAST:score map -> 文本头部、中部和尾部三部分,没有从根本上解决长文本检测。
4. PSENet(Shape Robust Text Detection with Progressive Scale Expansion Network)
解读链接:PSENet(Shape Robust Text Detection with Progressive Scale Expansion Network)
bbox回归的方法对弯曲文本的检测不准确,分割的方法对文字紧靠的情况分割效果不好。
亮点:渐进式扩展算法
- 是一个基于像素分割的方法,能够精确地定位任意形状的文本实例;
- 提出了渐进式扩展算法,即使两个文本实例离得很近也可以分开,从而保证文本实例的准确位置
从最小尺度的kernels开始扩展,最小的kernels可以把紧靠的文本实例分开;逐渐扩展到更大的kernels;直到扩展到最大的kernels,组成最终的结果。
缺点:对于不同的数据集,超参数的选取较为重要(最小尺度比例和分割结果数)。
5. LSAE(Learning Shape-Aware Embedding for Scene Text Detection)
解读链接:LSAE(Learning Shape-Aware Embedding for Scene Text Detection)
亮点:嵌入形状感知
- 分离紧靠的文本实例
- 解决文本行过长的问题
使用输出的三个结果做聚类。
6. ATRR(Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation)
解读链接:ATRR(Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation)
使用LSTM网络学习应该使用多少个点来表示文本框。
类似于Faster-RCNN,增加了基于自适应文本表示的LSTM分支。
7. CRAFT(Character Region Awareness for Text Detection)
解读链接:CRAFT(Character Region Awareness for Text Detection)
通过精确的定位每一个字符,然后再把检测到的字符连接成一个文本。
- 生成两部分GT,字符框 + 亲和框(同一文本框中的相邻字符),使用高斯热图
- 字符感知方法,只需要很小的感受野就可以了处理长的弯曲文本
缺点:对粘连字符的检测效果不好;对标注数据的要求高;使用弱监督学习生成伪GT造成的损失;训练复杂,需要先进行弱监督训练得到字符级标注框,再训练网络。
8. LOMO(Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes)
解读链接:LOMO(Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes)
LOMO由直接回归器(DR),迭代优化模块(IRM)和形状表示模块(SEM)组成。
首先,DR分支生成四边形形式的文本建议框。 接下来,IRM基于提取的初步建议功能块,通过迭代细化逐步感知整个长文本。 最后,通过考虑文本实例的几何属性(包括文本区域,文本中心线和边界偏移),引入了SEM来重构不规则文本的更精确表示。
9. PAN(Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network)
解读链接:PAN(Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network)
有低计算成本的分割部分和可学习的后处理。分割分割部分由特征金字塔增强模块(FPEM)和特征融合模块(FFM)组成。 FPEM是可级联的U形模块,可以引入多级信息来指导更好的分割。 FFM可以将不同深度的FPEM提供的特征收集到最终特征中进行分割。 可学习的后处理是通过像素聚合(PA)实施的,该算法可以通过预测的相似度矢量精确地聚合文本像素。
- 通过分割网络预测文本区域,内核和相似度向量。FPEM + FFM
- 从预测的内核重建完整的文本实例。
10. Mask TextSpotter( An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes)
解读链接:Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes
通过语义分割可以直接从二维空间实现检测和识别。
Spatial Attention Module(SAM)
- Mask TextSpotter 的识别模型对于处理二维空间中的常规文本和不规则文本更通用,并且同时考虑本地和全局文本信息会更有效
- 不同于之前的方法只能处理水平或者旋转文本,本文方法可以处理任意形状的文本
- Mask TextSpotter 是第一个完全可端到端训练以进行文本发现的框架,它具有简单,平滑的训练方案,因此其检测模型和识别模型可充分受益于特征共享和联合优化。
11. Learning to Predict More Accurate Text Instances for Scene Text Detection
解读链接:Learning to Predict More Accurate Text Instances for Scene Text Detection
为检测弯曲文本,提出与起始顶点无关的坐标回归,提出文本实例精度损失作为辅助任务来细化预测坐标。
基于回归+像素
12. DBNet(Real-time Scene Text Detection with Differentiable Binarization)
解读链接:DB(Real-time Scene Text Detection with Differentiable Binarization)
速度很快!
传统的基于分割的文本检测的后处理方法比较复杂,提出的差分二值化不仅可以简化后处理还可以增强文本检测的性能。
13. SBD(Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection)
解读链接:SBD(Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection)
SBD首先将四边形边框离散为几个关键边缘,其中包含所有可能的水平和垂直位置。为了解码准确的顶点位置,提出了一种简单而有效的匹配程序来重构四边形边界框。
基本思想是利用与标签序列无关的不变表示形式(例如,最小x,最小y,最大x,最大y,平均中心点和对角线的相交点)来反推边界框坐标。为了简化参数化,SBD首先查找所有包含顶点的离散水平和垂直边。 然后学习序列标记匹配类型以找出最佳拟合的四边形。 摆脱了训练目标的模糊性。
检测水平和旋转矩形,不能检测多边形以及任意形状的文本。
14. ABCNet(Real-time Scene Text Spotting with Adaptive Bezier-Curve Network)
解读链接:ABCNet(Real-time Scene Text Spotting with Adaptive Bezier-Curve Network)
使用参数化的 Bezier 曲线 自适应的拟合任意形状的文本
15. SR-Deeptext(Scale robust deep oriented-text detection network)
对文本尺度的变化就有鲁棒性,并且可以减轻类别不平衡。
在EAST基础上做的改动,主干网络使用 ResNet50,不适用多尺度而是在网络中嵌入了上采样层,避免了高计算复杂度。还增加了细化模块 refining block,包含残差卷积单元(RCU)和链式残差池(CRP),以通过使用远程残差连接来改善预测。
16. FCENet(Fourier Contour Embedding for Arbitrary-Shaped Text Detection)
论文链接:https://arxiv.org/abs/2104.10442
解读链接:
代码地址:https://github.com/open-mmlab/mmocr
17. STKM(Self-attention based Text Knowledge Mining for Text Detection)
论文链接:
解读链接:
代码地址:https://github.com/CVI-SZU/STKM
待读
18. MOST: A Multi-Oriented Scene Text Detector with Localization Refinement
论文链接:https://arxiv.org/abs/2104.01070
解读链接:
代码地址:
19. TextMountain: Accurate scene text detection via instance segmentation.
论文链接:https://arxiv.org/abs/1811.12786
解读链接:
代码地址:https://github.com/uunnhh/TextMountain
20. TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text
论文链接:https://arxiv.org/abs/2105.05486
解读链接:
代码地址:https://textvqa.org/textocr
21. STR-TDSL: Scene Text Retrieval via Joint Text Detection and Similarity Learning
论文链接:https://arxiv.org/abs/2104.01552
解读链接:
代码地址:https://github.com/lanfeng4659/STR-TDSL
22. TextBPN: Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection
论文链接:https://arxiv.org/abs/2107.12664
解读链接:https://mp.weixin.qq.com/s/LTQjb63OVOJ3AFY0PaBzkw
代码地址:https://github.com/GXYM/TextBPN
23. PCR: Progressive Contour Regression for Arbitrary-Shape Scene Text Detection
论文链接:Progressive Contour Regression for Arbitrary-Shape Scene Text Detection
解读链接:
代码地址:https://github.com/dpengwen/PCR
方法总结
论文题目 | 模型 | 方法 | 时间 | 检测文本类别 | 备注 |
---|---|---|---|---|---|
Tian et al.[1] | CTPN | 回归 | ECCV 2016 | 水平文本 | |
Liao et al. [8] | TextBoxes | 回归 | CVPR 2017 | 水平文本 | |
Shi et al.[2] | SegLink | 回归 | CVPR 2017 | 水平+弯曲文本 | |
Zhou et al.[3] | EAST | 回归 | CVPR 2017 | 水平+旋转文本 | |
Liao et al. [9] | TextBoxes++ | 回归 | IEEE 2018 | 水平+旋转文本 | |
Zhu et al. [10] | SLPR | 回归 | arXiv 2018 | 水平+弯曲+不规则文本 | |
Lyu et al. [11] | 回归+分割 | CVPR 2018 | 水平+旋转文本 | ||
Liao et al. [12] | RRD | 回归 | CVPR 2018 | 水平+旋转文本 | |
Yang et al. [13] | IncepText | 回归+分割 | IJCAI 2018 | 水平+旋转文本 | |
Yue et al. [14] | Guided CNN | 回归+分割 | BMVC 2018 | ||
Liu et al. [15] | MCN | 分割 | CVPR 2018 | 水平+旋转文本 | |
Long et al. [16] | TextSnake | 回归 | ECCV 2018 | 水平+弯曲+不规则文本 | |
Chu et al. [17] | Border | 回归 | ECCV 2018 | 水平+旋转文本 | |
Wang et al.[20] | ITN | 回归 | CVPR 2018 | 水平+旋转文本 | |
Zhao et al. [24] | Elite Loss | 分割 | 2018 | 水平+旋转文本 | |
Liu et al.[22] | CSE | 回归 | CVPR 2019 | 水平+弯曲+不规则文本 | |
Wang et al.[4] | PSENet | 分割 | CVPR 2019 | 水平+弯曲+不规则文本 | |
Tian et al.[5] | LSAE | 分割 | CVPR 2019 | 水平+弯曲+不规则文本 | |
Wang et al.[6] | ATRR | 回归 | CVPR 2019 | 水平+弯曲+不规则文本 | |
Zhang et al. [26] | LOMO | 回归+分割 | CVPR 2019 | 水平+弯曲+不规则文本 | |
Baek et al.[7] | CRAFT | 分割 | CVPR 2019 | 水平+弯曲+不规则文本 | |
Wang et al.[18] | PAN | 分割 | ICCV 2019 | 水平+弯曲+不规则文本 | |
Liao et al. [27] | MaskTextSpotte | 分割 | TPAMI2019 | 水平+弯曲+不规则文本 | 检测+识别 |
Liao et al. [23] | DBNet | 分割 | AAAI 2019 | 水平+弯曲+不规则文本 | |
Liu et al. [19] | SBD | 回归 | arXiv 2019 | 水平+旋转文本 | |
Zheng et al. [21] | SR-Deeptext | 分割 | PR 2019 | 水平+旋转文本 | |
Liu et al. [25] | ABCNet | 回归 | CVPR 2020 | 水平+旋转+不规则文本 | 检测+识别 |
Zhang et al.[28] | DRRG | CVPR 2020 | 水平+旋转+不规则文本 | ||
Wang et al.[29] | ContourNet | CVPR2020 | 水平+旋转+不规则文本 | ||
Yiqin et al.[30] | FCENet | CVPR2021 | |||
He et al.[31] | MOST | CVPR2021 | |||
Zhu et al.[32] | TextMountain | PR2021 | |||
Amanpreet et al.[33] | TextOCR | CVPR2021 | |||
Hao et al. [34] | STR-TDSL | CVPR2021 | |||
Zhang et al.[35] | TextBPN | ICCV2021 | |||
Dai et al.[36] | PCR | CVPR2021 |
参考文献
[1] Tian Z, Huang W, He T, et al. Detecting text in natural image with connectionist text proposal network. European conference on computer vision(ECCV), 2016: 56-72
[2] Shi B, Bai X, Belongie S. Detecting Oriented Text in Natural Images by Linking Segments. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 3482-3490
[3] Zhou X, Yao C, Wen H, et al. EAST: an efficient and accurate scene text detector. CVPR, 2017: 2642-2651.
[4] Wenhai W, Enze X, et al. Shape Robust Text Detection with Progressive Scale Expansion Network. In CVPR 2019.
[5] Zhuotao Tian, Michelle Shu, et al, Learning Shape-Aware Embedding for Scene Text Detection. In CVPR, 2019.
[6] Xiaobing Wang, Yingying Jiang, et al, Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation. In CVPR, 2019.
[7] Youngmin Baek, Bado Lee, et al. Character Region Awareness for Text Detection. In CVPR 2019.
[8] Liao M, Shi B, Bai X, et al. TextBoxes: A Fast Text Detector with a Single Deep Neural Network. AAAI. 2017: 4161-4167.
[9] Liao M, Shi B , Bai X. TextBoxes++: A Single-Shot Oriented Scene Text Detector. IEEE Transactions on Image Processing, 2018, 27(8):3676-3690.
[10] Zhu Y, Du J. Sliding Line Point Regression for Shape Robust Scene Text Detection. arXiv preprint arXiv:1801.09969, 2018.
[11] Pengyuan Lyu, Cong Yao, Wenhao Wu et al. Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation. In CVPR 2018.
[12] Minghui L, Zhen Z, Baoguang S. Rotation-Sensitive Regression for Oriented Scene Text Detection. In CVPR 2018.
[13] Qiangpeng Yang, Mengli Cheng et al. IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection. In IJCAI 2018.
[14] Xiaoyu Yue et al. Boosting up Scene Text Detectors with Guided CNN. In BMVC 2018.
[15] Zichuan Liu, Guosheng Lin, Sheng Yang et al. Learning Markov Clustering Networks for Scene Text Detection. In CVPR 2018.
[16] Long, Shangbang and Ruan, Jiaqiang, et al. TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes. In ECCV, 2018.
[17] Chuhui Xue et al. Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping. In ECCV 2018.
[18] Wenhai Wang et al. Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network. In ICCV 2019
[19] Yuliang Liu et al. Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection
[20] Fangfang Wang et al. Geometry-Aware Scene Text Detection with Instance Transformation Network. In CVPR 2018
[21] Yuqiang Zheng,Yuan Xie,Yanyun Qu,Xiaodong Yang,Cuihua Li,Yan Zhang. Scale robust deep oriented-text detection network[J]. Pattern Recognition,2019
[22] Zichuan Liu et al. Towards Robust Curve Text Detection with Conditional Spatial Expansion. In CVPR2019
[23] Minghui Liao et al. Real-time Scene Text Detection with Differentiable Binarization. In AAAI2020
[24] Xu Zhao et al. Elite Loss for scene text detection. Neurocomputing 333: 284-291 (2019)
[25] YuLiang Liu et al. ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network. In Proc. IEEE Conf. Comp. Vis. Pattern Recogn. (CVPR) 2020
[26] Chengqian Zhang et al. Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes. CVPR 2019: 10552-10561
[27] Minghui Liao et al. Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes. TPAMI 2019
[28] Shi-Xue Zhang et al. Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection. CVPR 2020
[29]Yuxin Wang et al. ContourNet: Taking a Further Step Toward Accurate Arbitrary-Shaped Scene Text Detection. CVPR 2020
[30]Yiqin Zhu et al. Fourier Contour Embedding for Arbitrary-Shaped Text Detection. CoRR abs/2104.10442 (CVPR 2021)
[31] Minghang He, Minghui Liao, Zhibo Yang, Humen Zhong, Jun Tang, Wenqing Cheng, Cong Yao, Yongpan Wang, Xiang Bai: MOST: A Multi-Oriented Scene Text Detector with Localization Refinement. CoRR abs/2104.01070 (CVPR 2021)
[32] Yixing Zhu, Jun Du: TextMountain: Accurate scene text detection via instance segmentation. Pattern Recognit. 110: 107336 (2021)
[33] Amanpreet Singh, Guan Pang, Mandy Toh, Jing Huang, Wojciech Galuba, Tal Hassner: TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text. CVPR (2021)
[34] Hao Wang, Xiang Bai, Mingkun Yang, Shenggao Zhu, Jing Wang, Wenyu Liu: Scene Text Retrieval via Joint Text Detection and Similarity Learning. CVPR (2021)
[35] Shi-Xue Zhang, Xiaobin Zhu, Chun Yang, Hongfa Wang, Xu-Cheng Yin:
Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection. ICCV (2021)
[36] Pengwen Dai, Sanyi Zhang, Hua Zhang, Xiaochun Cao:
Progressive Contour Regression for Arbitrary-Shape Scene Text Detection. CVPR 2021: 7393-7402
参考资料:
传统OCR
目标检测
2017文本检测
2018文本检测
文本检测
文本检测综述(2017 ~ 2021 持续更新)相关推荐
- mfc倾斜文本输入_文本检测知识梳理(持续更新)
最近在做作业批改场景的OCR相关算法研发工作,打算梳理一下文本检测的相关知识,也欢迎大家留言讨论. 目前主流的基于深度学习的目标检测方法大体分为两类:one-stage和two-stage: 1.Tw ...
- 《异常检测——从经典算法到深度学习》9 异常检测资料汇总(持续更新抛砖引玉)
<异常检测--从经典算法到深度学习> 0 概论 1 基于隔离森林的异常检测算法 2 基于LOF的异常检测算法 3 基于One-Class SVM的异常检测算法 4 基于高斯概率密度异常检测 ...
- 机器学习面试经验--2017年持续更新
机器学习面试经验--2017年持续更新 搜狐面试算法实习生 岗位搜狐后台开发(机器学习NLP) 10:00--11:10 1.首先自我介绍,blabla简单介绍了一下本科研究生学校专业方向,面试官开始 ...
- 【计算机视觉】文本检测综述(含2019年)
1 文本检测主流思路 到2019年中旬,目前的文本检测方案汇总如下:(看不清的可以点大图) 2 文本检测解决方案 含常用数据集上的检测结果 3 文本检测常用数据集介绍 Benchmark Datase ...
- 【论文汇总】2D目标检测文章汇总,持续更新
记录自己比较感兴趣的2D目标检测文章 分类 1.模型架构相关 2.YOLO系列 3.分类与回归不一致问题 4.标签分配 5.DETR系列 6.知识蒸馏 7.FPN相关 8.小目标检测系列 9.数据增强 ...
- 前端项目中常用的工具包(拖拽排序表格、打印导出表格、文本复制等)【持续更新~~~】
表格类: cdn库 cdn vxe-table[开源的多功能表格] 简介 一个基于 vue 的 PC 端表格组件,支持增删改查.虚拟滚动.懒加载.快捷菜单.数据校验.树形结构.打印导出.表单渲染.数据 ...
- 雷达 距离-方位(RA)图目标检测 一些笔记(持续更新)
目录 距离方位角大致测量过程 射频数据的特性(对于目标检测而言) 一些要素 最近在看RODNet,顺便记录一下上面提到的有关雷达的玩意儿. 距离方位角大致测量过程 Chirp信号 -> 目标 - ...
- 文本检测(Text Detection)简要综述
文章目录 检测(Detection)在计算机视觉中的位置 检测任务 经典数据集 评价指标 发展历史 什么叫Anchor 检测架构 RPN FPN(特征金字塔网络) 几个文本检测的较新方法 FOTS([ ...
- 学习知识汇总(持续更新......)
章节 内容 常用 Colab使用教程 csdn博客编辑教程目录 新版CSDN编辑器示例(代码及显示样式) 如何快速转载CSDN中的博客 B站视频资料汇总 系统 windows10和安装linux双系统 ...
- 【每周CV论文】深度学习文本检测与识别入门必读文章
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 文本检测和识别是计算机视觉的一个非常重要的应 ...
最新文章
- python创建文件名称_如何在Python中创建递增文件名?
- php php_zip.dll,PHP如何开启自带的ZipArchive类,实现压缩解压功能
- OS-鸿蒙系统-以及编译器
- 32位与64位、单精度(single-precision)与双精度(double-precision)
- [NOI2014]魔法森林
- php在类方法里面检测错误,是否有任何PHP静态分析器可以检测不存在的类方法调用?...
- 百万年薪挖了个P7程序员,难道是“水货”?
- DataTemplate 以及Template Selector 学习笔记
- python dbf 修改_Python修改DBF文件指定列
- Android使用自带的文件管理器选择文件并读取内容
- PeopleSoft 配置文件
- 正好配资复盘观点:上证第一支撑位3426
- 国外大牛的黑苹果配置清单
- C++打印之字形矩阵
- 宅男必备福利壁纸大全自动采集微信小程序源码带动态壁纸支持多种流量主
- 安装Gearman及其PHP扩展
- 计算机科技英语文章及翻译,计算机专业英语短文翻译.doc
- Linux电脑自动重启,修复win10下distributedcom(10016)导致电脑自动重启的方法
- TCP TSO/GSO初步探索
- 不及格的小A 360笔试 C++
热门文章
- Windows_解决win7开机画面变成vista画面的方法
- Java读取星历excel数据并计算卫星坐标
- 【业务安全03】密码找回业务安全
- 网银支付接口编程资料汇总
- mysql information_schema库结构
- 手把手教你构建 C 语言编译器(0)- 前言
- 甲型流感H1N1流感症状预防和治疗
- android 设置自动曝光,我应该如何设置自定义的相机,曝光和白平衡值,如果在Android定制camera.Does初始化相机参数时,相机自动处理这些我不设置曝光和白平衡或者我需要...
- 《霍比特人2:史矛革之战》BD高清 电影 下载 [中文字幕]
- 腾讯实时股票数据接口怎么获取行情?