《Detecting Text in Natural Scenes with Stroke Width Transform》,这是微软公司的一篇发表于CVPR2010的文章,使用传统方法来检测自然场景中的文本。代码地址:https://github.com/aperrau/DetectText

因为算是一个比较经典的文章,所以看完记录一下。当然github还有其他版本的实现代码,上面的代码几乎和原文的原理一样,方便和文章一起阅读,因此放在这。

下面根据原文的结构和上述提供的代码详细的解读一下该算法

总的来说该算法分为四步:

  1. 利用canny算子检测图片的边界
  2. 笔画宽度变换-Stroke Width Transform(这一步输出的图像我们称为SWT图像)
  3. 通过SWT图像得到多个连通域
  4. 通过自定义的规则过滤一些连通域,得到候选连通域
  5. 将连通域合并得到文本行

一、利用canny算子检测图片的边界

这步不用多说,基础的图像处理知识,利用OpenCV 的Canny函数可以得到图片边缘检测的结果。

二、笔画宽度变换(Stroke Width Transform)

先要剧透一点,也是需要明确的一点,这一步输出图像和输入图像大小一样,只是输出图像像素为笔画的宽度,具体如下。

如上图所示,通过边缘检测得到上图a,假设现在从边缘上的点p开始,根据p点梯度的反方向找到边缘另一边的点q,如果p点的梯度与q点梯度的反方向夹角在±π/6\pm\pi/6±π/6之间,那么这两点间的距离为一个笔画宽度,那么p点和q点以及它们之间的像素在SWT输出图像中对应位置的值为p和q点的距离大小。

按照上述的计算方法会有两种情况需要考虑。如下图所示,
下图a表示一个笔画中的像素可能得到两个笔画宽度,这种情况下将红点出的笔画宽度设置为最小的那个值,下图b表示当一个笔画出现更为复杂情况,b图中的红点计算出的两个笔画宽度用两个红线表示,这两红线都无法真正表示笔画的宽度,这时候笔画宽度取这里面所有像素计算得到的笔画宽度的中值作为红点出的笔画宽度。

因为有文字比背景更亮和背景比文字更亮两种情况,这样会导致边缘的梯度方向相反,所以这一个步骤要执行两遍。这个步骤结束后得到一张SWT图像。

三、通过SWT图像得到多个连通域

在通过上述步骤得到SWT输出图像后,该图像大小与原图像大小一致,图像中的像素值为对应像素所在笔画的宽度(下面称为SWT值)。现将相邻像素SWT值比不超过3.0的归为一个连通域。这样就能得到多个连通域。

四、过滤连通域

上述步骤输出的多个连通域中,并不是所有的连通域都被认为是笔画候选区域,需要过滤一些噪声的影响,过滤的规则有:

  1. 如果某连通域的方差过大(方差大于连通域的一半为方差过大为过大),则认为该连通域不是有效的
  2. 如果某连通域过大(宽大于300)或者过小(宽小于10),则认为该连通域不是有效的(代码中只过滤了过大的连通域,连通域的长宽为连通域外接矩形的长宽)
  3. 如果某连通域的长宽比不在0.1-10的范围内,则认为该连通域不是有效的(连通域的长宽为连通域外接矩形的长宽)
  4. 如果某连通域的外接矩形包含其他两个连通域,则认为该连通域不是有效的(代码中判定,如果某个连通域的外接矩形包含两个或两个以上连通域外接矩形的中心时,认为其包含了两个连通域)

上述条件都满足的连通域,认为是笔画候选区域,用于输入给下一步操作。

五、将连通域合并得到文本行

文中认为,在自然场景中,一般不会只有单个字母出现,所有将连通域合并为文本有利于进一步将噪声排除。

当两个连通域满足下面条件时,认为这两个连通域是一对:

  1. 两个连通域中值的比小于2.0(连通域中值,指的是连通域中所有像素值的中值)
  2. 两个连通域高的比小于2.0(连通域的高,指其外界矩形的高)
  3. 两个连通域之间的距离小于较宽的连通域宽度的3倍(连通域之间的距离为连通域外界矩形中心点之间的距离)
  4. 两个连通域的颜色相似(代码用两个连通域对应于原图区域的像素均值代表该连通域的颜色)

得到两两连通域组成的多对连通域后,如果有两连通域有共享的连通域,共享的连通域都在连通域对的一端(即连通域的首端或者尾端),且方向相同(方向用一个连通域中心到另一个连通域中心的方向),就将这两对连通域合并为一个新的连通域组,依次进行,知道没有连通域对需要合并则合并结束。

最后将合并完的结果中滤除小于3的连通域的连通域组得到的最终结果,认为是一行文字。

到这里SWT的文字检测算法就介绍完了。

中文本定位与识别的评测方法

欢迎加入OCR交流群:785515057(此群已满)
欢迎加入OCR交流群2:826714963

参考
1.《Detecting Text in Natural Scenes with Stroke Width Transform》
2.https://sites.google.com/site/roboticssaurav/strokewidthnokia
3.https://github.com/aperrau/DetectText
4.https://www.cnblogs.com/dawnminghuang/p/3807678.html

SWT(Detecting Text in Natural Scenes with Stroke Width Transform)算法详解相关推荐

  1. SegLink(Detecting Oriented Text in Natural Images by Linking Segments)算法详解

    <Detecting Oriented Text in Natural Images by Linking Segments>是和EAST同年的一篇发表在CVPR2017的OCR论文.代码 ...

  2. detecting text in natural image with connectionist text proposal network

    场景文字检测-CTPN原理与实现 - 知乎对于复杂场景的文字识别,首先要定位文字的位置,即文字检测.这一直是一个研究热点. Detecting Text in Natural Image with C ...

  3. CTPN模型详解--Detecting Text in Natural Image with Connectionist Text Proposal Network

    文章目录 Abstract 1 Introduction 1.1 Contributions 2 Related Work 3 Connectionist Text Proposal Network ...

  4. vue build text html,Vue中v-text / v-HTML使用实例代码详解_放手_前端开发者

    废话少说,代码如下所述: /p> 显示123 /p> 补充:vuejs {{}},v-text 和 v-html的区别 {{message}} let app = new Vue({ el ...

  5. mysql 有ntext_深入char、varchar、text和nchar、nvarchar、ntext的区别详解

    很多开发者进行数据库设计的时候往往并没有太多的考虑char, varchar类型,有的是根本就没注意,因为存储价格变得越来越便宜了,忘记了最开始的一些基本设计理论和原则,这点让我想到了现在的年轻人,大 ...

  6. sqlserver数据库中char、varchar、text与nchar、nvarchar、ntext数据类型使用详解

    很多开发者进行数据库设计的时候往往并没有太多的考虑char, varchar类型,有的是根本就没注意,因为存储价格变得越来越便宜了,忘记了最开始的一些基本设计理论和原则,这点让我想到了现在的年轻人,大 ...

  7. Flutter Text详解

    示例 API Text,很常用的一个Widget:用于显示简单样式文本,它包含一些控制文本显示样式的一些属性 text构造方法源码: /// If the [style] argument is nu ...

  8. 论文阅读(XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments)...

    XiangBai--[CVPR2017]Detecting Oriented Text in Natural Images by link Segments 目录 作者和相关链接 方法概括 方法细节 ...

  9. 《MA‑CRNN: a multi‑scale attention CRNN for Chinese text line recognition in natural scenes》论文阅读

    参考博文: CRNN的一个变种,可以读一读,看看相对于CRNN来说有什么变化?以及为什么? 文章目录 make decision step1:读摘要 step2:读Introduction step3 ...

最新文章

  1. opencv meanStdDev
  2. 采样算法哪家强?一个针对主流采样算法的比较
  3. 实时数据处理插件开发flume+kafka+storm:flume
  4. AsciidocFX相关
  5. 一个基于运气的数据结构,你猜是啥?
  6. html中.inner样式,关于通过innerHTML插入样式的问题
  7. python地图图表和3d_Python地图可视化三大秘密武器
  8. windos10专业版激活(可用)
  9. MRI_Made_Easy翻译-磁共振成像原理(物理基础3)
  10. hp laserjet1010 win7 64打印慢问题
  11. C语言 #define ABS(X) (X >= 0) ? X : -X 遇到的逻辑错误
  12. jupyter代码字体大小_Jupyter Notebook 更改字体、字体大小、行高
  13. 人生的第一篇博客φ(>ω<*)
  14. C#日期格式参考小结
  15. bin文件怎么打开 linux,BIN 文件扩展名: 它是什么以及如何打开它?
  16. 苹果邮箱登录入口_LOL手游只有一种登录方式怎么办?只有拳头账号登录入口解决方法...
  17. 将uc/OS-III移植到stm32F103上并创建多任务
  18. 求生之路2rpg服务器账号跨服,求生之路2官方地图指令大全及地图文件夹位置说明...
  19. 在Ubuntu中添加和删除PPA的软件源
  20. Game Boy 模拟器!完美运行超级马里奥、口袋妖怪等游戏

热门文章

  1. 关于数独游戏的实现(一)
  2. 计算机视觉-CS231n-Lecture 1
  3. 如何解决路由器延迟问题
  4. 2022年将成为海外直播带货的发展元年?-跨境知道
  5. 使用 word2vec 工具对医学文献进行数据挖掘
  6. 今天专科明天海归之美国留学
  7. php explode用法,php中explode函数用法分析
  8. Deepin下在线安装和使用ClamAV
  9. solidity 基础讲解
  10. 百度Paddle免费课程——从零开始学视觉Transformer