论文《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes》

(1) 数据集

文章中提到了4个数据集:

1) Total-Text;(新开源曲线文本数据集)

2) SCUT-CTW1500; (新开源曲线文本数据集)

3) ICDAR 2015;(经典数据集)

4) MSRA-TD500.(经典数据集)

(2) 文本检测总体评述:

现有文本检测方法有一个共同的假设:

  1. 文本实例的形状大体上是线性的;因此采用相对简单的表征方法(轴对齐矩形、旋转矩形四边形);
  2. 处理不规则形状的文本实例时,依然会暴露问题;
  3. 对于带有透视变形(perspective distortion)的曲形文本(curved text)传统方法在精确估计的几何属性方面力不从心;
  4. 文本实例不同表征方法的对比,图a是轴对齐矩形,图b是旋转矩形,图c是四边形;图d是TextSnake。

TextSnake文章的贡献:

  1. 本文提出一种灵活而通用的表征,可用于任意形状的场景文本;
  2. 提出一种有效的场景文本检测方法;
  3. 该方法在包含若干个不同形式(水平,多方向,曲形)的文本实例数据集取得了最优效果。

(3) TextSnake方法

表征方法:

  1. TextSnake图示

  1. 说明:将一个文本区域(黄色表示)表征为一系列有序而重叠的圆盘(蓝色),其中每个圆盘都有一个中心线(绿色,即对称轴或骨架)贯穿,并带有可变的半径 和方向 ;
  2. 从数学公式上分析,包含若干个字符的文本实例t可以被看作是一个序列S(t), ,其中 表示第i个圆盘,n表示圆盘的数量,每个圆盘D带有一组几何属性,r被定义为t的局部宽度的一半,方向 是贯穿中心点c的中心线的正切;
  3. 注意:圆盘并非一一对应于文本实例的字符,但是圆盘序列的几何属性可以改正不规则形状的文本实例,并将其转化为对文本识别器更加友好的矩形等;

Pipeline

  1. 方法框架图
  2. 为检测任意形状的文本,借助FCN模型预测文本实例的几何属性。基于FCN的网络预测文本中心线(TCL),文本区域(TR)以及几何属性(包括r, , )的分值图;由于TCL是TR的一部分,通过TR而得到Masked TCL,假定TCL没有彼此重合,需要借助并查集(disjoint set)执行实例分割,Striding Algorithm用于提取中心轴点,并最终重建文本实例。

网络架构:

  1. 图例所示

  1. 在FPN和U-net的启发下,本文提出一个方案,可逐渐融合来自主干网络不同层级的特征;
  2. 主干网络可以是用于图像分类的卷积网络,比如VGG-16/19和ResNet,这些网络可以被分为5个卷积阶段和若干个额外的全连接层;
  3. 本文移除全连接层,并在每个阶段后将特征图馈送至特征融合网络。

预测

  1. 后处理算法图例:后处理算法框架。 法案(a)集中:将给定点重新定位到中心轴; 法案(b)跨越:对文本实例末尾的定向搜索; 动作(c)滑动:通过沿中心轴滑动圆形来重建;

  1. 馈送之后,网络输出TCL,TR以及几何图,对于TCL和TR,阈值分别设为T_tcl和T_tr,接着,TCL和TR的交叉点给出TCL最后的预测。通过并查集,可以有效把TCL像素分割进不同的文本实例。最后,StridingAlgorithm被设计以提取用来表示文本实例形状和进程(course)的有序点,同时重建文本实例区域;
  2. StridingAlgorithm的流程如上图所示。它主要包含3个部分:Act(a)Centralizing,Act(b)Striding和Act(c)Sliding。首先,本文随机选择一个像素作为起点,并将其中心化。接着,搜索过程分支为两个相反的方向——stridingcentralizing直到结束。这一过程将在两个相反方向上生成两个有序点,并可结合以生成最终的中心轴,它符合文本的进程,并精确描述形状。

?? TCL网络预测文本中心线,非常窄,这样做有什么好处?不会对文本检测出现边缘没有覆盖的问题么?

!!结果图示

TextSnake对于文本实例的进程及形状的精确描述具有预测的能力,而这一能力来自于对TCL进行预测,它比整个文本实例窄很多,这样做有两个优点:

  1. 纤细的 TCL 可以更好地描述进程和形状;
  2. TCL 彼此不会重叠,因此实例分割得以一种十分简单而直接的方式完成,由此简化 pipeline.

(4)实验结果

Total-Text

CTW1500

MSRA-TD500

ICDAR 2015

TextSnake文本检测相关推荐

  1. 背景宽高随文本变化_中科大提出ContourNet:更准确的任意形状场景文本检测新方法...

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:CSIG文档图像分析与识别专委会 本文简要介绍2020年被CVPR录用的论文&qu ...

  2. TextDetection文本检测数据集汇总

    字符识别和文本检测在实际生活中十分重要,从最简单的车牌检测到复杂的环境文本识别都需要这一技术的支持.目前这一领域最著名的会议是International Conference on Document ...

  3. 文本检测大满贯!自适应文本区域表示改进形状任意的文本检测

    点击我爱计算机视觉标星,更快获取CVML新技术 今天跟大家分享一篇CVPR 2019 文本检测的论文,其要解决的问题是任意形状的文本检测,难能可贵的是,该算法在多个文本检测数据集上达到了SOTA,非常 ...

  4. 文本检测算法新思路:基于区域重组的文本检测

    摘要:文本检测是文本读取识别的第一步,对后续的文本识别有着重大的影响.本文主要介绍基于区域重组的文本检测算法. 本文分享自华为云社区<技术综述十三:弯曲文本检测算法(一)>,作者: 我想静 ...

  5. 【计算机视觉】文本检测综述(含2019年)

    1 文本检测主流思路 到2019年中旬,目前的文本检测方案汇总如下:(看不清的可以点大图) 2 文本检测解决方案 含常用数据集上的检测结果 3 文本检测常用数据集介绍 Benchmark Datase ...

  6. 人工智能学习--文本检测初探

    一.相关概念和综述: 转自知乎热心网友 燕小花女士的内容,供学习使用,若侵权则删.貌似写于2018年12月,之后这几年的流行方法更新,自行搜索sci顶刊和会议论文. https://zhuanlan. ...

  7. 【论文翻译】Scene Text Detection and Recognition: The Deep Learning Era 场景文本检测和识别:深度学习时代

    原文地址:Scene Text Detection and Recognition: The Deep Learning Era 文章目录 摘要 1.引言 2.深度学习时代之前的方法 2.1概括 3. ...

  8. 【文本检测与识别白皮书-3.1】第一节:常用的文本检测与识别方法

    点击领取AI产品100元体验金:https://www.textin.com/coupon_redemption/index.htmlhttps://www.textin.com/coupon_red ...

  9. 基于深度学习的场景文本检测和识别(Scene Text Detection and Recognition)综述

    1. 引言 文字是人类最重要的创作之一,它使人们在时空上可以有效地.可靠的传播或获取信息. 场景中的文字的检测和识别对我们理解世界很有帮助,它应用在图像搜索.即时翻译.机器人导航.工业自动化等领域. ...

最新文章

  1. 人工智能进入新的发展阶段
  2. es6 工作中常用总结
  3. android 获取本机号码需要root吗?
  4. 重绘和回流----降低回流减少性能影响
  5. 自定义YUM软件仓库----FTP网络YUM源-----网络YUM源的配置
  6. HDU 4282 A very hard mathematic problem 二分题目
  7. Plugin org.apache.maven.plugins:maven-resources-plugin:2.6
  8. 【今日CV 视觉论文速览】 19 Nov 2018
  9. [C++] printf 打印 string 类型
  10. 独家对话 HybridOS 操作系统掌门人魏永明:“我们的目标是取代物联网中的安卓” | 人物志
  11. 李飞飞新动向:创建斯坦福“以人为本AI研究院”,担任共同院长
  12. L1-038 新世界 (5 分)—团体程序设计天梯赛
  13. php之获取ip(网站地址)
  14. 舒尔特表-遮罩层-计时排序点击 js
  15. 马尔可夫随机场 MRF
  16. 推导多元最小二乘法的计算方法
  17. 安装免费在线客服livezilla系统
  18. 中学生怎样才能合理使用计算机,浅析中学生计算机的使用
  19. win服务器系统无法切换输入法,Win8系统无法切换输入法如何解决?
  20. lzg_ad:如何构建最小尺寸的XPE镜像文件

热门文章

  1. 亚马逊新专利:Alexa可根据用户的语音识别疾病或抑郁
  2. hackbar 使用教程_hackbar简单安装使用教程
  3. cas5.3:CAS Server搭建
  4. java request 封装对象_java request请求参数直接封装model对象
  5. LeetCode 116/117 填充每个节点下一个右侧指针
  6. 我的开源项目:JPEG分析器
  7. php 无法识别oci8,php 连接oracle 无法 启用oci8 解决办法 (摘自oracle官网)
  8. Oracle如何使用PL/SQL调试存储过程
  9. Xftp报no matching outgoing encryption algorithm found
  10. 开放API 与 查询语言GraphQL