EAST 自然场景文本检测
刚好看到国内的旷视今年在CVPR2017的一篇文章:EAST: An Efficient and Accurate Scene Text Detector。而且有开放的代码,学习和测试了下。
题目说的是比较高效,它的高效主要体现在对一些过程的消除,其架构就是下图中对应的E部分,跟上面的比起来的确少了比较多的过程。这与去年经典的CTPN架构类似。不过CTPN只支持水平方向,而EAST在论文中指出是可以支持多方向文本的定位的。
对于长文本效果不好。
优势:
提供了方向信息,可以检测各个方向的文本
缺点:
对较长的文本检测效果不好,感受野不够长
整体网络结构分为3个部分
(1) 特征提取层:
使用的基础网络结构是PVANet,分别从stage1,stage2,stage3,stage4抽出特征,一种FPN(feature pyramid network)的思想。
(2) 特征融合层:
第一步抽出的特征层从后向前做上采样,然后concat
(3) 输出层:
输出一个score map和4个回归的框+1个角度信息,或者输出,一个scoremap和8个坐标信息。
由于程序实现使用的基础网络不是pvanet网络,而是resnet50-v1。
在caffe版本的resnet50实现中,只有第一个卷积后面的pooling和最后一层的gloabl pooling,详细结构见reference,网络通过卷积层的stride=2操作实现类似pooling的效果
而本程序使用的slim中带的resnet50包含了5个pooling。
Resnet50结构,最后一个featuremap本质上将输入图像缩小16倍(4个pooling),最后一个gloabl pooling,类似于vgg中的全连接。gloabl pooling是googlenet和Resnet的专利。
本文网络结构主要取了pool2,pool3,pool4,pool5,的featuremap引出,分别进行uppooling,concat,conv操作,得到最终的featuremap,然后进行卷积,分别输出channel=1的F_score
,channel=4的geo_map,channel=1的angle_map。
标签生成过程:
(a) 中黄色的为人工标注的框,绿色为对黄色框进行0.3倍边长的缩放后的框,这样做可以进一步去除人工标注的误差,拿到更准确的label信息。
(b) 为根据(a)中绿色框生成的label信息
(c) 中先生成一个(b)中白色区域的最小外接矩,然后算每一个(b)中白色的点到粉色最小外接矩的上下左右边的距离,即生成(d),然后生成粉色的矩形和水平方向的夹角,即生成角度信息(e),e中所有灰色部分的角度信息一样,都是同样的角度。
论文采用的架构如下:
后来,有大佬改进EAST针对长文本检测效果不好的缺陷,提出advancedEAST,结构如下:
开源源码:https://github.com/huoyijie/AdvancedEAST
仅为学习记录,侵删,感谢作者。
转载于:https://www.cnblogs.com/Allen-rg/p/9729469.html
EAST 自然场景文本检测相关推荐
- opencv 文字识别_Python+opencv+EAST做自然场景文本检测!
在本教程中,您将学习如何使用OpenCV通过EAST文本检测器检测自然场景图像中的文本. OpenCV的EAST文本检测器是一种深度学习模型,基于新颖的架构和训练模式.它的优势是 (1)可以以13 F ...
- 自然场景文本检测识别技术集合(转)
本文及其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次. 书的购买链接 书的勘 ...
- 自然场景文本检测识别技术综述
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 番外青蛇 ...
- 论文翻译:自然场景文本检测与识别综述
论文翻译:自然场景文本检测与识别综述 引言 介绍 文章回顾 文本检测 文本识别 实验结果 总结和未来工作展望 引言 自然图片的检测和识别是计算机视觉领域的两个主要的问题,在运动视频分析,自动驾驶,工业 ...
- 自然场景文本检测识别技术综述【转】
转载自https://blog.csdn.net/SIGAI_CSDN/article/details/80858565 番外青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑 ...
- 【OCR技术系列之五】自然场景文本检测技术综述(CTPN, SegLink, EAST)
文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别.今天我们首先来谈一下当今流行的文字检测技术有哪些. 文本检测不是一件简 ...
- 文字识别(五)--自然场景文本检测技术综述(CTPN, SegLink, EAST)
转自:https://www.cnblogs.com/skyfsm/p/9776611.html 文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文 ...
- MSER — 自然场景文本检测
MSER是最大稳定极值区域:是对一幅灰度图像(灰度值为0-255)取阈值进行二值化处理,阈值从0到255依次递增.阈值的递增类似于分水岭算法中的水面的上升,随着水面的上升,有一些较矮的丘陵会被淹没,如 ...
- 选字验证码破解思路:CTPN - 自然场景文本检测
前言 最近准备极验3代,选字验证码的破解.之前用CNN实现端到端的字符型验证码破解已满足不了需求了,我以为破解选字验证码关键步骤有三:1.图片文本的识别:2.字符坐标的识别:3.字序的识别.设计的技术 ...
最新文章
- Python(四)字符串
- ssh实现基于密钥方式登录系统
- b/s模式下的即时通讯,使用ajax框架dwr实现
- 2017年软件工程第四次作业-3四则运算
- python: 爬取[博海拾贝]图片脚本
- python 字符串交集_Python序列--集合(set)
- 服务发现与负载均衡traefik ingress
- android 设备连接,Android安卓设备连接Mac的方法
- java学生通讯录_Java实现XML文件学生通讯录
- oracle 执行顺序 select查询优化
- css中的clip属性rect(top,right,bottom,left);
- 安装nltk,textacy库
- 通过PHP访问MYSQL外文书籍,通过PHP访问MySQL外文翻译(模版2)
- Python基础语法详解
- 用Maven构建 Fat JAR
- 【题解】AtCoder ARC128D - Neq Neq
- python数据分析案例简单实战项目(一)--供应链销售数据分析
- cass块参照怎么改颜色,CASS符号颜色自定义的诀窍,都在这里了!
- python处理Excel表格--读取Excel表格
- C++综合项目-boost搜索引擎
热门文章
- Android系统默认Home应用程序(Launcher)的启动过程源代码分析
- 在SQL Server 2000 和SQL Server 2005中导出表结构
- 未能从程序集 XX加载类型XXX的错误解决方法(借以提醒NHibernate使用者)
- linux 6.7 nfs安装yum,centos7下NFS使用与配置
- 织梦 html 优酷,让织梦CMS的后台编辑器支持优酷视频
- python处理pdf实例_Python实战-从菜鸟到大牛的进阶之路pdf_Python教程
- php端口转发源码,Python实现TCP/IP协议下的端口转发及重定向示例
- 最详细的----->一维数组实现杨辉三角
- nexus 4 linux,Nexus 4刷机Ubuntu Touch教程
- pip install可能遇到的一些问题