自然场景文本检测是图像处理的核心模块,也是一直想要接触的一个方面。

刚好看到国内的旷视今年在CVPR2017的一篇文章:EAST: An Efficient and Accurate Scene Text Detector。而且有开放的代码,学习和测试了下。

题目说的是比较高效,它的高效主要体现在对一些过程的消除,其架构就是下图中对应的E部分,跟上面的比起来的确少了比较多的过程。这与去年经典的CTPN架构类似。不过CTPN只支持水平方向,而EAST在论文中指出是可以支持多方向文本的定位的。

对于长文本效果不好。

优势:

提供了方向信息,可以检测各个方向的文本

缺点:

对较长的文本检测效果不好,感受野不够长

整体网络结构分为3个部分

(1) 特征提取层:

使用的基础网络结构是PVANet,分别从stage1,stage2,stage3,stage4抽出特征,一种FPN(feature pyramid network)的思想。

(2) 特征融合层:

第一步抽出的特征层从后向前做上采样,然后concat

(3) 输出层:

输出一个score map和4个回归的框+1个角度信息,或者输出,一个scoremap和8个坐标信息。

由于程序实现使用的基础网络不是pvanet网络,而是resnet50-v1。

在caffe版本的resnet50实现中,只有第一个卷积后面的pooling和最后一层的gloabl pooling,详细结构见reference,网络通过卷积层的stride=2操作实现类似pooling的效果

而本程序使用的slim中带的resnet50包含了5个pooling。

Resnet50结构,最后一个featuremap本质上将输入图像缩小16倍(4个pooling),最后一个gloabl pooling,类似于vgg中的全连接。gloabl pooling是googlenet和Resnet的专利。

本文网络结构主要取了pool2,pool3,pool4,pool5,的featuremap引出,分别进行uppooling,concat,conv操作,得到最终的featuremap,然后进行卷积,分别输出channel=1的F_score

,channel=4的geo_map,channel=1的angle_map。

标签生成过程:

(a) 中黄色的为人工标注的框,绿色为对黄色框进行0.3倍边长的缩放后的框,这样做可以进一步去除人工标注的误差,拿到更准确的label信息。

(b) 为根据(a)中绿色框生成的label信息

(c) 中先生成一个(b)中白色区域的最小外接矩,然后算每一个(b)中白色的点到粉色最小外接矩的上下左右边的距离,即生成(d),然后生成粉色的矩形和水平方向的夹角,即生成角度信息(e),e中所有灰色部分的角度信息一样,都是同样的角度。

论文采用的架构如下:

后来,有大佬改进EAST针对长文本检测效果不好的缺陷,提出advancedEAST,结构如下:

开源源码:https://github.com/huoyijie/AdvancedEAST

转自: https://blog.csdn.net/sparkexpert/article/details/77987654
https://blog.csdn.net/qq_14845119/article/details/78986449

仅为学习记录,侵删,感谢作者。

转载于:https://www.cnblogs.com/Allen-rg/p/9729469.html

EAST 自然场景文本检测相关推荐

  1. opencv 文字识别_Python+opencv+EAST做自然场景文本检测!

    在本教程中,您将学习如何使用OpenCV通过EAST文本检测器检测自然场景图像中的文本. OpenCV的EAST文本检测器是一种深度学习模型,基于新颖的架构和训练模式.它的优势是 (1)可以以13 F ...

  2. 自然场景文本检测识别技术集合(转)

    本文及其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次. 书的购买链接 书的勘 ...

  3. 自然场景文本检测识别技术综述

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 番外青蛇 ...

  4. 论文翻译:自然场景文本检测与识别综述

    论文翻译:自然场景文本检测与识别综述 引言 介绍 文章回顾 文本检测 文本识别 实验结果 总结和未来工作展望 引言 自然图片的检测和识别是计算机视觉领域的两个主要的问题,在运动视频分析,自动驾驶,工业 ...

  5. 自然场景文本检测识别技术综述【转】

    转载自https://blog.csdn.net/SIGAI_CSDN/article/details/80858565 番外青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑 ...

  6. 【OCR技术系列之五】自然场景文本检测技术综述(CTPN, SegLink, EAST)

    文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别.今天我们首先来谈一下当今流行的文字检测技术有哪些. 文本检测不是一件简 ...

  7. 文字识别(五)--自然场景文本检测技术综述(CTPN, SegLink, EAST)

    转自:https://www.cnblogs.com/skyfsm/p/9776611.html 文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文 ...

  8. MSER — 自然场景文本检测

    MSER是最大稳定极值区域:是对一幅灰度图像(灰度值为0-255)取阈值进行二值化处理,阈值从0到255依次递增.阈值的递增类似于分水岭算法中的水面的上升,随着水面的上升,有一些较矮的丘陵会被淹没,如 ...

  9. 选字验证码破解思路:CTPN - 自然场景文本检测

    前言 最近准备极验3代,选字验证码的破解.之前用CNN实现端到端的字符型验证码破解已满足不了需求了,我以为破解选字验证码关键步骤有三:1.图片文本的识别:2.字符坐标的识别:3.字序的识别.设计的技术 ...

最新文章

  1. Python(四)字符串
  2. ssh实现基于密钥方式登录系统
  3. b/s模式下的即时通讯,使用ajax框架dwr实现
  4. 2017年软件工程第四次作业-3四则运算
  5. python: 爬取[博海拾贝]图片脚本
  6. python 字符串交集_Python序列--集合(set)
  7. 服务发现与负载均衡traefik ingress
  8. android 设备连接,Android安卓设备连接Mac的方法
  9. java学生通讯录_Java实现XML文件学生通讯录
  10. oracle 执行顺序 select查询优化
  11. css中的clip属性rect(top,right,bottom,left);
  12. 安装nltk,textacy库
  13. 通过PHP访问MYSQL外文书籍,通过PHP访问MySQL外文翻译(模版2)
  14. Python基础语法详解
  15. 用Maven构建 Fat JAR
  16. 【题解】AtCoder ARC128D - Neq Neq
  17. python数据分析案例简单实战项目(一)--供应链销售数据分析
  18. cass块参照怎么改颜色,CASS符号颜色自定义的诀窍,都在这里了!
  19. python处理Excel表格--读取Excel表格
  20. C++综合项目-boost搜索引擎

热门文章

  1. Android系统默认Home应用程序(Launcher)的启动过程源代码分析
  2. 在SQL Server 2000 和SQL Server 2005中导出表结构
  3. 未能从程序集 XX加载类型XXX的错误解决方法(借以提醒NHibernate使用者)
  4. linux 6.7 nfs安装yum,centos7下NFS使用与配置
  5. 织梦 html 优酷,让织梦CMS的后台编辑器支持优酷视频
  6. python处理pdf实例_Python实战-从菜鸟到大牛的进阶之路pdf_Python教程
  7. php端口转发源码,Python实现TCP/IP协议下的端口转发及重定向示例
  8. 最详细的----->一维数组实现杨辉三角
  9. nexus 4 linux,Nexus 4刷机Ubuntu Touch教程
  10. pip install可能遇到的一些问题