SWT（Detecting Text in Natural Scenes with Stroke Width Transform）算法详解

《Detecting Text in Natural Scenes with Stroke Width Transform》，这是微软公司的一篇发表于CVPR2010的文章，使用传统方法来检测自然场景中的文本。代码地址：https://github.com/aperrau/DetectText

因为算是一个比较经典的文章，所以看完记录一下。当然github还有其他版本的实现代码，上面的代码几乎和原文的原理一样，方便和文章一起阅读，因此放在这。

下面根据原文的结构和上述提供的代码详细的解读一下该算法

总的来说该算法分为四步：

利用canny算子检测图片的边界
笔画宽度变换-Stroke Width Transform（这一步输出的图像我们称为SWT图像）
通过SWT图像得到多个连通域
通过自定义的规则过滤一些连通域，得到候选连通域
将连通域合并得到文本行

一、利用canny算子检测图片的边界

这步不用多说，基础的图像处理知识，利用OpenCV 的Canny函数可以得到图片边缘检测的结果。

二、笔画宽度变换（Stroke Width Transform）

先要剧透一点，也是需要明确的一点，这一步输出图像和输入图像大小一样，只是输出图像像素为笔画的宽度，具体如下。

如上图所示，通过边缘检测得到上图a，假设现在从边缘上的点p开始，根据p点梯度的反方向找到边缘另一边的点q，如果p点的梯度与q点梯度的反方向夹角在±π/6\pm\pi/6±π/6之间，那么这两点间的距离为一个笔画宽度，那么p点和q点以及它们之间的像素在SWT输出图像中对应位置的值为p和q点的距离大小。

按照上述的计算方法会有两种情况需要考虑。如下图所示，
下图a表示一个笔画中的像素可能得到两个笔画宽度，这种情况下将红点出的笔画宽度设置为最小的那个值，下图b表示当一个笔画出现更为复杂情况，b图中的红点计算出的两个笔画宽度用两个红线表示，这两红线都无法真正表示笔画的宽度，这时候笔画宽度取这里面所有像素计算得到的笔画宽度的中值作为红点出的笔画宽度。

因为有文字比背景更亮和背景比文字更亮两种情况，这样会导致边缘的梯度方向相反，所以这一个步骤要执行两遍。这个步骤结束后得到一张SWT图像。

三、通过SWT图像得到多个连通域

在通过上述步骤得到SWT输出图像后，该图像大小与原图像大小一致，图像中的像素值为对应像素所在笔画的宽度（下面称为SWT值）。现将相邻像素SWT值比不超过3.0的归为一个连通域。这样就能得到多个连通域。

四、过滤连通域

上述步骤输出的多个连通域中，并不是所有的连通域都被认为是笔画候选区域，需要过滤一些噪声的影响，过滤的规则有：

如果某连通域的方差过大（方差大于连通域的一半为方差过大为过大），则认为该连通域不是有效的
如果某连通域过大（宽大于300）或者过小（宽小于10），则认为该连通域不是有效的（代码中只过滤了过大的连通域，连通域的长宽为连通域外接矩形的长宽）
如果某连通域的长宽比不在0.1-10的范围内，则认为该连通域不是有效的（连通域的长宽为连通域外接矩形的长宽）
如果某连通域的外接矩形包含其他两个连通域，则认为该连通域不是有效的（代码中判定，如果某个连通域的外接矩形包含两个或两个以上连通域外接矩形的中心时，认为其包含了两个连通域）

上述条件都满足的连通域，认为是笔画候选区域，用于输入给下一步操作。

五、将连通域合并得到文本行

文中认为，在自然场景中，一般不会只有单个字母出现，所有将连通域合并为文本有利于进一步将噪声排除。

当两个连通域满足下面条件时，认为这两个连通域是一对：

两个连通域中值的比小于2.0（连通域中值，指的是连通域中所有像素值的中值）
两个连通域高的比小于2.0（连通域的高，指其外界矩形的高）
两个连通域之间的距离小于较宽的连通域宽度的3倍（连通域之间的距离为连通域外界矩形中心点之间的距离）
两个连通域的颜色相似（代码用两个连通域对应于原图区域的像素均值代表该连通域的颜色）

得到两两连通域组成的多对连通域后，如果有两对连通域有共享的连通域，共享的连通域都在连通域对的一端（即连通域的首端或者尾端），且方向相同（方向用一个连通域中心到另一个连通域中心的方向），就将这两对连通域合并为一个新的连通域组，依次进行，知道没有连通域对需要合并则合并结束。

最后将合并完的结果中滤除小于3的连通域的连通域组得到的最终结果，认为是一行文字。

到这里SWT的文字检测算法就介绍完了。

中文本定位与识别的评测方法

欢迎加入OCR交流群：785515057（此群已满）
欢迎加入OCR交流群2：826714963

参考
1.《Detecting Text in Natural Scenes with Stroke Width Transform》
2.https://sites.google.com/site/roboticssaurav/strokewidthnokia
3.https://github.com/aperrau/DetectText
4.https://www.cnblogs.com/dawnminghuang/p/3807678.html