TextSnake文本检测
论文《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes》
(1) 数据集
文章中提到了4个数据集:
1) Total-Text;(新开源曲线文本数据集)
2) SCUT-CTW1500; (新开源曲线文本数据集)
3) ICDAR 2015;(经典数据集)
4) MSRA-TD500.(经典数据集)
(2) 文本检测总体评述:
现有文本检测方法有一个共同的假设:
- 文本实例的形状大体上是线性的;因此采用相对简单的表征方法(轴对齐矩形、旋转矩形四边形);
- 处理不规则形状的文本实例时,依然会暴露问题;
- 对于带有透视变形(perspective distortion)的曲形文本(curved text)传统方法在精确估计的几何属性方面力不从心;
- 文本实例不同表征方法的对比,图a是轴对齐矩形,图b是旋转矩形,图c是四边形;图d是TextSnake。
TextSnake文章的贡献:
- 本文提出一种灵活而通用的表征,可用于任意形状的场景文本;
- 提出一种有效的场景文本检测方法;
- 该方法在包含若干个不同形式(水平,多方向,曲形)的文本实例数据集取得了最优效果。
(3) TextSnake方法
表征方法:
- TextSnake图示
- 说明:将一个文本区域(黄色表示)表征为一系列有序而重叠的圆盘(蓝色),其中每个圆盘都有一个中心线(绿色,即对称轴或骨架)贯穿,并带有可变的半径 和方向 ;
- 从数学公式上分析,包含若干个字符的文本实例t可以被看作是一个序列S(t), ,其中 表示第i个圆盘,n表示圆盘的数量,每个圆盘D带有一组几何属性,r被定义为t的局部宽度的一半,方向 是贯穿中心点c的中心线的正切;
- 注意:圆盘并非一一对应于文本实例的字符,但是圆盘序列的几何属性可以改正不规则形状的文本实例,并将其转化为对文本识别器更加友好的矩形等;
Pipeline:
- 方法框架图
- 为检测任意形状的文本,借助FCN模型预测文本实例的几何属性。基于FCN的网络预测文本中心线(TCL),文本区域(TR)以及几何属性(包括r, , )的分值图;由于TCL是TR的一部分,通过TR而得到Masked TCL,假定TCL没有彼此重合,需要借助并查集(disjoint set)执行实例分割,Striding Algorithm用于提取中心轴点,并最终重建文本实例。
网络架构:
- 图例所示
- 在FPN和U-net的启发下,本文提出一个方案,可逐渐融合来自主干网络不同层级的特征;
- 主干网络可以是用于图像分类的卷积网络,比如VGG-16/19和ResNet,这些网络可以被分为5个卷积阶段和若干个额外的全连接层;
- 本文移除全连接层,并在每个阶段后将特征图馈送至特征融合网络。
预测
- 后处理算法图例:后处理算法框架。 法案(a)集中:将给定点重新定位到中心轴; 法案(b)跨越:对文本实例末尾的定向搜索; 动作(c)滑动:通过沿中心轴滑动圆形来重建;
- 馈送之后,网络输出TCL,TR以及几何图,对于TCL和TR,阈值分别设为T_tcl和T_tr,接着,TCL和TR的交叉点给出TCL最后的预测。通过并查集,可以有效把TCL像素分割进不同的文本实例。最后,StridingAlgorithm被设计以提取用来表示文本实例形状和进程(course)的有序点,同时重建文本实例区域;
- StridingAlgorithm的流程如上图所示。它主要包含3个部分:Act(a)Centralizing,Act(b)Striding和Act(c)Sliding。首先,本文随机选择一个像素作为起点,并将其中心化。接着,搜索过程分支为两个相反的方向——striding和centralizing直到结束。这一过程将在两个相反方向上生成两个有序点,并可结合以生成最终的中心轴,它符合文本的进程,并精确描述形状。
?? TCL网络预测文本中心线,非常窄,这样做有什么好处?不会对文本检测出现边缘没有覆盖的问题么?
!!结果图示
TextSnake对于文本实例的进程及形状的精确描述具有预测的能力,而这一能力来自于对TCL进行预测,它比整个文本实例窄很多,这样做有两个优点:
- 纤细的 TCL 可以更好地描述进程和形状;
- TCL 彼此不会重叠,因此实例分割得以一种十分简单而直接的方式完成,由此简化 pipeline.
(4)实验结果
Total-Text
CTW1500
MSRA-TD500
ICDAR 2015
TextSnake文本检测相关推荐
- 背景宽高随文本变化_中科大提出ContourNet:更准确的任意形状场景文本检测新方法...
点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:CSIG文档图像分析与识别专委会 本文简要介绍2020年被CVPR录用的论文&qu ...
- TextDetection文本检测数据集汇总
字符识别和文本检测在实际生活中十分重要,从最简单的车牌检测到复杂的环境文本识别都需要这一技术的支持.目前这一领域最著名的会议是International Conference on Document ...
- 文本检测大满贯!自适应文本区域表示改进形状任意的文本检测
点击我爱计算机视觉标星,更快获取CVML新技术 今天跟大家分享一篇CVPR 2019 文本检测的论文,其要解决的问题是任意形状的文本检测,难能可贵的是,该算法在多个文本检测数据集上达到了SOTA,非常 ...
- 文本检测算法新思路:基于区域重组的文本检测
摘要:文本检测是文本读取识别的第一步,对后续的文本识别有着重大的影响.本文主要介绍基于区域重组的文本检测算法. 本文分享自华为云社区<技术综述十三:弯曲文本检测算法(一)>,作者: 我想静 ...
- 【计算机视觉】文本检测综述(含2019年)
1 文本检测主流思路 到2019年中旬,目前的文本检测方案汇总如下:(看不清的可以点大图) 2 文本检测解决方案 含常用数据集上的检测结果 3 文本检测常用数据集介绍 Benchmark Datase ...
- 人工智能学习--文本检测初探
一.相关概念和综述: 转自知乎热心网友 燕小花女士的内容,供学习使用,若侵权则删.貌似写于2018年12月,之后这几年的流行方法更新,自行搜索sci顶刊和会议论文. https://zhuanlan. ...
- 【论文翻译】Scene Text Detection and Recognition: The Deep Learning Era 场景文本检测和识别:深度学习时代
原文地址:Scene Text Detection and Recognition: The Deep Learning Era 文章目录 摘要 1.引言 2.深度学习时代之前的方法 2.1概括 3. ...
- 【文本检测与识别白皮书-3.1】第一节:常用的文本检测与识别方法
点击领取AI产品100元体验金:https://www.textin.com/coupon_redemption/index.htmlhttps://www.textin.com/coupon_red ...
- 基于深度学习的场景文本检测和识别(Scene Text Detection and Recognition)综述
1. 引言 文字是人类最重要的创作之一,它使人们在时空上可以有效地.可靠的传播或获取信息. 场景中的文字的检测和识别对我们理解世界很有帮助,它应用在图像搜索.即时翻译.机器人导航.工业自动化等领域. ...
最新文章
- 人工智能进入新的发展阶段
- es6 工作中常用总结
- android 获取本机号码需要root吗?
- 重绘和回流----降低回流减少性能影响
- 自定义YUM软件仓库----FTP网络YUM源-----网络YUM源的配置
- HDU 4282 A very hard mathematic problem 二分题目
- Plugin org.apache.maven.plugins:maven-resources-plugin:2.6
- 【今日CV 视觉论文速览】 19 Nov 2018
- [C++] printf 打印 string 类型
- 独家对话 HybridOS 操作系统掌门人魏永明:“我们的目标是取代物联网中的安卓” | 人物志
- 李飞飞新动向:创建斯坦福“以人为本AI研究院”,担任共同院长
- L1-038 新世界 (5 分)—团体程序设计天梯赛
- php之获取ip(网站地址)
- 舒尔特表-遮罩层-计时排序点击 js
- 马尔可夫随机场 MRF
- 推导多元最小二乘法的计算方法
- 安装免费在线客服livezilla系统
- 中学生怎样才能合理使用计算机,浅析中学生计算机的使用
- win服务器系统无法切换输入法,Win8系统无法切换输入法如何解决?
- lzg_ad:如何构建最小尺寸的XPE镜像文件
热门文章
- 亚马逊新专利:Alexa可根据用户的语音识别疾病或抑郁
- hackbar 使用教程_hackbar简单安装使用教程
- cas5.3:CAS Server搭建
- java request 封装对象_java request请求参数直接封装model对象
- LeetCode 116/117 填充每个节点下一个右侧指针
- 我的开源项目:JPEG分析器
- php 无法识别oci8,php 连接oracle 无法 启用oci8 解决办法 (摘自oracle官网)
- Oracle如何使用PL/SQL调试存储过程
- Xftp报no matching outgoing encryption algorithm found
- 开放API 与 查询语言GraphQL