EAST 自然场景文本检测

自然场景文本检测是图像处理的核心模块，也是一直想要接触的一个方面。

刚好看到国内的旷视今年在CVPR2017的一篇文章：EAST: An Efficient and Accurate Scene Text Detector。而且有开放的代码，学习和测试了下。

题目说的是比较高效，它的高效主要体现在对一些过程的消除，其架构就是下图中对应的E部分，跟上面的比起来的确少了比较多的过程。这与去年经典的CTPN架构类似。不过CTPN只支持水平方向，而EAST在论文中指出是可以支持多方向文本的定位的。

对于长文本效果不好。

优势：

提供了方向信息，可以检测各个方向的文本

缺点：

对较长的文本检测效果不好，感受野不够长

整体网络结构分为3个部分

(1) 特征提取层：

使用的基础网络结构是PVANet，分别从stage1，stage2，stage3，stage4抽出特征，一种FPN(feature pyramid network)的思想。

(2) 特征融合层：

第一步抽出的特征层从后向前做上采样，然后concat

(3) 输出层：

输出一个score map和4个回归的框+1个角度信息，或者输出，一个scoremap和8个坐标信息。

由于程序实现使用的基础网络不是pvanet网络，而是resnet50-v1。

在caffe版本的resnet50实现中，只有第一个卷积后面的pooling和最后一层的gloabl pooling，详细结构见reference，网络通过卷积层的stride=2操作实现类似pooling的效果

而本程序使用的slim中带的resnet50包含了5个pooling。

Resnet50结构，最后一个featuremap本质上将输入图像缩小16倍(4个pooling)，最后一个gloabl pooling，类似于vgg中的全连接。gloabl pooling是googlenet和Resnet的专利。

本文网络结构主要取了pool2，pool3，pool4，pool5，的featuremap引出，分别进行uppooling，concat，conv操作，得到最终的featuremap，然后进行卷积，分别输出channel=1的F_score

，channel=4的geo_map，channel=1的angle_map。

标签生成过程：

(a) 中黄色的为人工标注的框，绿色为对黄色框进行0.3倍边长的缩放后的框，这样做可以进一步去除人工标注的误差，拿到更准确的label信息。

(b) 为根据(a)中绿色框生成的label信息

论文采用的架构如下：

后来，有大佬改进EAST针对长文本检测效果不好的缺陷，提出advancedEAST，结构如下：

开源源码：https://github.com/huoyijie/AdvancedEAST

转自： https://blog.csdn.net/sparkexpert/article/details/77987654

https://blog.csdn.net/qq_14845119/article/details/78986449

仅为学习记录，侵删，感谢作者。

转载于:https://www.cnblogs.com/Allen-rg/p/9729469.html

EAST 自然场景文本检测相关推荐

opencv 文字识别_Python+opencv+EAST做自然场景文本检测！
在本教程中,您将学习如何使用OpenCV通过EAST文本检测器检测自然场景图像中的文本. OpenCV的EAST文本检测器是一种深度学习模型,基于新颖的架构和训练模式.它的优势是 (1)可以以13 F ...
自然场景文本检测识别技术集合（转）
本文及其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次. 书的购买链接书的勘 ...
自然场景文本检测识别技术综述
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接书的勘误,优化,源代码资源番外青蛇 ...
论文翻译：自然场景文本检测与识别综述
论文翻译:自然场景文本检测与识别综述引言介绍文章回顾文本检测文本识别实验结果总结和未来工作展望引言自然图片的检测和识别是计算机视觉领域的两个主要的问题,在运动视频分析,自动驾驶,工业 ...
自然场景文本检测识别技术综述【转】
转载自https://blog.csdn.net/SIGAI_CSDN/article/details/80858565 番外青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑 ...
【OCR技术系列之五】自然场景文本检测技术综述（CTPN, SegLink, EAST）
文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别.今天我们首先来谈一下当今流行的文字检测技术有哪些. 文本检测不是一件简 ...
文字识别（五）--自然场景文本检测技术综述（CTPN, SegLink, EAST）
转自:https://www.cnblogs.com/skyfsm/p/9776611.html 文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文 ...
MSER — 自然场景文本检测
MSER是最大稳定极值区域:是对一幅灰度图像(灰度值为0-255)取阈值进行二值化处理,阈值从0到255依次递增.阈值的递增类似于分水岭算法中的水面的上升,随着水面的上升,有一些较矮的丘陵会被淹没,如 ...
选字验证码破解思路：CTPN - 自然场景文本检测
前言最近准备极验3代,选字验证码的破解.之前用CNN实现端到端的字符型验证码破解已满足不了需求了,我以为破解选字验证码关键步骤有三:1.图片文本的识别:2.字符坐标的识别:3.字序的识别.设计的技术 ...

EAST 自然场景文本检测

EAST 自然场景文本检测相关推荐

最新文章

热门文章