1 CTPN的背景

CTPN是在ECCV 2016提出的一种文字检测算法。CTPN结合CNN与LSTM深度网络,能有效的检测出复杂场景下横向分布的文字。

2 CTPN的原理

2.1 网络结构

CTPN 用到了 CNN 和 双向LSTM 的网络结构:
(1) CNN使用了VGG16进行图像的特征提取。
(2)双向LSTM对序列各元素前后的联系进行学习。
(3)最后为一个全连接层输出要预测的参数

2.2 竖直Anchor定位文字位置

Faster RCNN用来检测文字时采用的是一个大框,未考虑文本长条型的特性。
而CTPN通过“分治法”的思想,采用了一组(10个) 等宽度的竖向Anchors,用于定位文字位置。
Anchor宽高为:
CTPN为全连接层feature map的每一个点都配备10个上述Anchors。
这样设置Anchors是为了:
(1)保证在水平方向上,Anchor覆盖原图每个点且不相互重叠。
(2)不同文本在竖直方向上高度差距很大,所以设置Anchors高度为11-283,用于覆盖不同高度的文本目标。

获得Anchor后,与Faster R-CNN类似,CTPN会做如下处理:
(1)Softmax判断Anchor中是否包含文本,即选出Softmax score大的正Anchor。
(2)Bounding box regression修正包含文本的Anchor的中心y坐标高度
注意,与Faster R-CNN不同的是,这里Bounding box regression不修正Anchor中心x坐标和宽度。具体回归方式如下:
其中, v = (vc, vh)是回归预测的坐标, v = (vc*, vh*)是Ground Truth,cya和 ha 是Anchor的中心y坐标和高度。
Anchor经过上述Softmax和y方向bounding box regeression处理后,会获得下图所示的一组竖直条状text proposal。后续只需要将这些text proposal用文本线构造算法连接在一起即可获得文本位置。
全连接层FC输出我们要预测的参数:2K个纵向坐标y,2k个分数,k个x的水平偏移量。
其中x为偏移量,用于精修文本框的左右边缘部分。

2.3 构造文本行

构造文本行的算法主要思想就是,每两个相近的anchor组成一个pair,然后合并不同的pair直到无法再合并,这就构成了一个文本区域。
判断两个anchor(不在同一列)组成pair的条件:
(1)两个anchor的中心点在水平方向上的距离小于50像素
(2)两个anchor在垂直方向上的重叠程度大于阈值0.7

2.4 损失函数

CTPN 的 loss 分为三部分:
(1)预测每个 anchor 是否包含文本区域的classification loss;
(2)文本区域中每个 anchor 的中心y坐标cy与高度h的regression loss;
(3)文本区域两侧 anchor 的中心x坐标cx 的regression loss。

3 CTPN的优缺点

3.1 优点

(1)采用一组竖直Anchor定位文字位置,将文本检测任务转换为一连串小尺度文本框的检测。
(2)采用CNN与双向LSTM想结合的方式,CNN用于提取图像特征,LSTM用于提取序列前后关系特征。
(3)Side-refinement(边界优化)提升文本框边界预测精准度。

3.2 缺点

对于非水平的文本的检测效果并不好。

02 文本检测(一)-CTPN相关推荐

  1. 深度解析文本检测网络CTPN

    不同于网上千篇一律讲解CTPN的文章,本文将使用大量可视化过程来帮助大家理解CTPN,完整重现CTPN所有细节. 先用一张动图过一遍CTPN全过程,接下来开始我们的讲解. 目录 文本检测概念初识 CT ...

  2. OCR文本检测算法-CTPN模型

    介绍: CTPN是在ECCV 2016提出的一种文字检测算法,是目前流传最广.影响最大的开源文本检测模型,可以检测水平或微斜的文本行.CTPN结合CNN与LSTM深度网络,能有效的检测出复杂场景的横向 ...

  3. 自然场景文本检测识别技术集合(转)

    本文及其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次. 书的购买链接 书的勘 ...

  4. 天然场景文本检测识别技术综述

    这篇文章主要向大家介绍天然场景文本检测识别技术综述,主要内容包括基础应用.实用技巧.原理机制等方面,希望对大家有所帮助. 标签:html前端gitgithub算法网络框架机器学习ide函数 本文及其它 ...

  5. 自然场景文本检测识别技术综述【转】

    转载自https://blog.csdn.net/SIGAI_CSDN/article/details/80858565 番外青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑 ...

  6. 自然场景文本检测识别技术综述

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 番外青蛇 ...

  7. CTPN文本检测与tensorflow实现

    1. 引言 近年来,随着人工智能的发展,文本检测在很多任务中都是一项基本任务,比如广告牌中文字识别.智能驾驶路牌的检测.身份证识别.快递地址识别等.这些任务中首先的一项就是文本检测,即检测出文本在图像 ...

  8. Python基于CRNN&CTPN的文本检测系统(源码&教程)

    1.背景 文本是人类最伟大和最具影响力的发明之一,是人类智慧的结晶,是人类文化.思想传承的一种基本的表达方式和不可或缺的载体.在21世纪,文本与日常生活密切相关.描述.理解万事万物,表达情感,与他人交 ...

  9. 根据大小分割大文本_场景文本检测—CTPN算法介绍

    SIGAI特约作者:沪东三哥 原创声明:本文为SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的. 其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算 ...

  10. 【OCR技术系列之五】自然场景文本检测技术综述(CTPN, SegLink, EAST)

    文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别.今天我们首先来谈一下当今流行的文字检测技术有哪些. 文本检测不是一件简 ...

最新文章

  1. Nervos Report (2018年12月)
  2. 注重网站用户体验优化就要避开前方弯道
  3. 计算机管理学科,计算机学院学科经费使用与管理细则(试行)
  4. 栅格矢量化_学会用栅格系统,普通LOGO秒变高大上
  5. HTML+CSS+JS实现 ❤️个人相册封面卡片❤️
  6. cocos2d-x-lua基础系列教程四(lua多继承)
  7. HDOJ 1896 Stones
  8. 面试准备每日五题:C++(二)——mallocnew、宏、volatile、constvolatile、(a)和(a)
  9. updateStateByKey算子入门案例
  10. cad字体安装_CAD字体安装方法
  11. EasyNVR调16分屏播放ws-flv内存溢出导致浏览器崩溃问题的解决
  12. java分页及返回数据封装实例
  13. oppor11点击Android,OPPO R11怎么网络共享?OPPO R11三种共享网络设置教程
  14. 计算机网络(谢希仁版)知识点汇总
  15. 3D建模就业前景如何?
  16. android 系统自带的软件可以删除列表--Defy
  17. Islands UVA - 1665
  18. Arcmap地理配准png
  19. 以太网(802.3)帧结构 (转)
  20. UE4实时渲染基础及深入探究

热门文章

  1. opencv模板匹配matchTemplate
  2. 虚拟机vm安装 黑群晖 DS3617xs 6.2
  3. 圣天诺Sentinel、超级狗superdog、阿拉丁HASP等加密狗复制方法!
  4. ARCore之路-平面检测
  5. Python文件去重代码
  6. kernel ramdump分析
  7. 对称密钥密码体制的主要特点
  8. 火车头文章标题伪原创插件(文章双标题插件)
  9. 三菱PLC、西门子PLC、欧姆龙PLC、松下PLC自定义协议RS485接线篇
  10. openCms安装技巧