OCR是一个古老的问题。这里我们考虑一类特殊的OCR问题,就是验证码的识别。传统做验证码的识别,需要经过如下步骤:

1. 二值化

2. 字符分割

3. 字符识别

这里最难的就是分割。如果字符之间有粘连,那分割起来就无比痛苦了。

最近研究深度学习,发现有人做端到端的OCR。于是准备尝试一下。一般来说目前做基于深度学习的OCR大概有如下套路:

1. 把OCR的问题当做一个多标签学习的问题。4个数字组成的验证码就相当于有4个标签的图片识别问题(这里的标签还是有序的),用CNN来解决。

2. 把OCR的问题当做一个语音识别的问题,语音识别是把连续的音频转化为文本,验证码识别就是把连续的图片转化为文本,用CNN+LSTM+CTC来解决。

目前第1种方法可以做到90%多的准确率(4个都猜对了才算对),第二种方法我目前的实验还只能到20%多,还在研究中。所以这篇文章先介绍第一种方法。

我们以python-captcha验证码的识别为例来做验证码识别。

下图是一些这个验证码的例子:

python-captcha

可以看到这里面有粘连,也有形变,噪音。所以我们可以看看用CNN识别这个验证码的效果。

首先,我们定义一个迭代器来输入数据,这里我们每次都直接调用python-captcha这个库来根据随机生成的label来生成相应的验证码图片。这样我们的训练集相当于是无穷大的。

class OCRIter(mx.io.DataIter):

def __init__(self, count, batch_size, num_label, height, width):

super(OCRIter, self).__init__()

self.captcha = ImageCaptcha(fonts=['./data/OpenSans-Regular.ttf'])

self.batch_size = batch_size

self.count = count

self.height = height

self.width = width

self.provide_data = [('data', (batch_size, 3, height, width))]

self.provide_label = [('softmax_label', (self.batch_size, num_label))]

def __iter__(self):

for k in range(self.count / self.batch_size):

data = []

label = []

for i in range(self.batch_size):

# 生成一个四位数字的随机字符串

num = gen_rand()

# 生成随机字符串对应的验证码图片

img = self.captcha.generate(num)

img = np.fromstring(img.getvalue(), dtype='uint8')

img = cv2.imdecode(img, cv2.IMREAD_COLOR)

img = cv2.resize(img, (self.width, self.height))

cv2.imwrite("./tmp" + str(i % 10) + ".png", img)

img = np.multiply(img, 1/255.0)

img = img.transpose(2, 0, 1)

data.append(img)

label.append(get_label(num))

data_all = [mx.nd.array(data)]

label_all = [mx.nd.array(label)]

data_names = ['data']

label_names = ['softmax_label']

data_batch = OCRBatch(data_names, data_all, label_names, label_all)

yield data_batch

def reset(self):

pass

然后我们用如下的网络来训练这个数据集:

def get_ocrnet():

data = mx.symbol.Variable('data')

label = mx.symbol.Variable('softmax_label')

conv1 = mx.symbol.Convolution(data=data, kernel=(5,5), num_filter=32)

pool1 = mx.symbol.Pooling(data=conv1, pool_type="max", kernel=(2,2), stride=(1, 1))

relu1 = mx.symbol.Activation(data=pool1, act_type="relu")

conv2 = mx.symbol.Convolution(data=relu1, kernel=(5,5), num_filter=32)

pool2 = mx.symbol.Pooling(data=conv2, pool_type="avg", kernel=(2,2), stride=(1, 1))

relu2 = mx.symbol.Activation(data=pool2, act_type="relu")

conv3 = mx.symbol.Convolution(data=relu2, kernel=(3,3), num_filter=32)

pool3 = mx.symbol.Pooling(data=conv3, pool_type="avg", kernel=(2,2), stride=(1, 1))

relu3 = mx.symbol.Activation(data=pool3, act_type="relu")

flatten = mx.symbol.Flatten(data = relu3)

fc1 = mx.symbol.FullyConnected(data = flatten, num_hidden = 512)

fc21 = mx.symbol.FullyConnected(data = fc1, num_hidden = 10)

fc22 = mx.symbol.FullyConnected(data = fc1, num_hidden = 10)

fc23 = mx.symbol.FullyConnected(data = fc1, num_hidden = 10)

fc24 = mx.symbol.FullyConnected(data = fc1, num_hidden = 10)

fc2 = mx.symbol.Concat(*[fc21, fc22, fc23, fc24], dim = 0)

label = mx.symbol.transpose(data = label)

label = mx.symbol.Reshape(data = label, target_shape = (0, ))

return mx.symbol.SoftmaxOutput(data = fc2, label = label, name = "softmax")

上面这个网络要稍微解释一下。因为这个问题是一个有顺序的多label的图片分类问题。我们在fc1的层上面接了4个Full Connect层(fc21,fc22,fc23,fc24),用来对应不同位置的4个数字label。然后将它们Concat在一起。然后同时学习这4个label。目前用上面的网络训练,4位数字全部预测正确的精度可以达到90%左右。

更新,经过比较长时间的训练,精度可以达到98%左右,最后几轮迭代的结果如下:

2016-05-22 21:58:34,859 Epoch[14] Batch [1250] Speed: 117.29 samples/sec Train-Accuracy=0.980800

2016-05-22 21:58:48,527 Epoch[14] Batch [1300] Speed: 117.06 samples/sec Train-Accuracy=0.982000

2016-05-22 21:59:02,174 Epoch[14] Batch [1350] Speed: 117.24 samples/sec Train-Accuracy=0.981200

2016-05-22 21:59:16,509 Epoch[14] Batch [1400] Speed: 111.62 samples/sec Train-Accuracy=0.976800

2016-05-22 21:59:31,031 Epoch[14] Batch [1450] Speed: 110.18 samples/sec Train-Accuracy=0.975600

2016-05-22 21:59:45,323 Epoch[14] Batch [1500] Speed: 111.95 samples/sec Train-Accuracy=0.975600

2016-05-22 21:59:59,634 Epoch[14] Batch [1550] Speed: 111.81 samples/sec Train-Accuracy=0.985600

2016-05-22 22:00:13,997 Epoch[14] Batch [1600] Speed: 111.39 samples/sec Train-Accuracy=0.978800

2016-05-22 22:00:28,270 Epoch[14] Batch [1650] Speed: 112.11 samples/sec Train-Accuracy=0.983200

2016-05-22 22:00:42,713 Epoch[14] Batch [1700] Speed: 110.78 samples/sec Train-Accuracy=0.985200

2016-05-22 22:00:56,668 Epoch[14] Batch [1750] Speed: 114.65 samples/sec Train-Accuracy=0.975600

2016-05-22 22:01:11,000 Epoch[14] Batch [1800] Speed: 111.64 samples/sec Train-Accuracy=0.981200

2016-05-22 22:01:25,450 Epoch[14] Batch [1850] Speed: 110.73 samples/sec Train-Accuracy=0.979600

2016-05-22 22:01:39,860 Epoch[14] Batch [1900] Speed: 111.03 samples/sec Train-Accuracy=0.978400

2016-05-22 22:01:54,272 Epoch[14] Batch [1950] Speed: 111.02 samples/sec Train-Accuracy=0.978800

2016-05-22 22:02:08,939 Epoch[14] Batch [2000] Speed: 109.09 samples/sec Train-Accuracy=0.981600

2016-05-22 22:02:08,939 Epoch[14] Resetting Data Iterator

2016-05-22 22:02:08,939 Epoch[14] Time cost=568.681

2016-05-22 22:02:14,124 Epoch[14] Validation-Accuracy=0.986000

另外这个Slide提供了关于深度学习进行验证码识别的详细描述。

c语言cnn实现ocr字符,端到端的OCR:基于CNN的实现相关推荐

  1. OCR论文综述(含文字识别、文本检测、端到端和数据集合)

    OCR综述概览 主要分为四个部分 文字识别.文本检测.端到端文字识别和数据集的介绍 1. 文字识别 指标为f1-score Conf. Net Title SVT IIIT5K ICDAR13 TPA ...

  2. c++ 图片验证码识别_基于tensorflow 实现端到端的OCR:二代身份证号识别

    最近在研究OCR识别相关的东西,最终目标是能识别身份证上的所有中文汉字+数字,不过本文先设定一个小目标,先识别定长为18的身份证号,当然本文的思路也是可以复用来识别定长的验证码识别的. 本文实现思路主 ...

  3. rhel 8.2不识别unicode_基于tensorflow 实现端到端的OCR:二代身份证号识别

    最近在研究OCR识别相关的东西,最终目标是能识别身份证上的所有中文汉字+数字,不过本文先设定一个小目标,先识别定长为18的身份证号,当然本文的思路也是可以复用来识别定长的验证码识别的.本文实现思路主要 ...

  4. python 调c++生成的dll 中识别char *_基于tensorflow 实现端到端的OCR:二代身份证号识别...

    最近在研究OCR识别相关的东西,最终目标是能识别身份证上的所有中文汉字+数字,不过本文先设定一个小目标,先识别定长为18的身份证号,当然本文的思路也是可以复用来识别定长的验证码识别的. 本文实现思路主 ...

  5. CRNN—(端到端)的OCR文本识别 paper

    文章目录 一.前言 二.改进之处 三.网络整体结构 一.前言 论文 Towards End-to-end Text Spotting with Convolutional Recurrent Neur ...

  6. OCR之端到端任意形状的场景文字识别 ICCV2019 End-to-End Text Spotting

    OCR之端到端任意形状的场景文字识别 ICCV2019 End-to-End Text Spotting 端到端文本识别(End-to-End Text Spotting)是将文本阅读问题看成一个整体 ...

  7. 深度学习的端到端文本OCR:使用EAST模型从自然场景图片中提取文本

    我们生活在这样一个时代:任何一个组织或公司要想扩大规模并保持相关性,就必须改变他们对技术的看法,并迅速适应不断变化的环境.我们已经知道谷歌是如何实现图书数字化的.或者Google earth是如何使用 ...

  8. tensorflow LSTM + CTC实现端到端OCR

    最近在做OCR相关的东西,关于OCR真的是有悠久了历史了,最开始用tesseract然而效果总是不理想,其中字符分割真的是个博大精深的问题,那么多年那么多算法,然而应用到实际总是有诸多问题.比如说非等 ...

  9. 怎样快速识别 英文地址中包含非英文字符_[论文笔记]端到端的场景文本识别算法--CRNN 论文笔记...

    本文大约 4000 字,阅读大约需要 10 分钟 论文地址:https://arxiv.org/abs/1507.05717 开源代码:https://github.com/bgshih/crnn 1 ...

最新文章

  1. TensorFlow高层次机器学习API (tf.contrib.learn)
  2. iOSTableview 禁止下拉,允许上拉
  3. catia中sew的用法_CATIA超级副本(PowerCopy)使用方法总结 | 坐倚北风
  4. 简单可行性报告模板_项目可行性报告模板分享!第三章主要内容
  5. js中的if与Java中的if_JS直接if参数的用法JS中!和!!区别
  6. 谷歌技术quot;三宝quot;之MapReduce
  7. Illustrator中文版教程,如何在 Illustrator 中为创建的图形添加颜色?
  8. android跑马灯源码,Android跑马灯的简单实现方式
  9. 计算机网络线路故障及排查方法,计算机网络常见故障排查
  10. Cloning into ‘vue-element-admin‘... fatal: unable to access ‘https://github.com/PanJiaChen/vue-eleme
  11. C语言 | 计算某日是该年的第几天
  12. 这才是图扑数字孪生污水处理厂该有的样子
  13. Java获取word表格中的数据
  14. Pycharm编译代码时出现“SyntaxError: Non-UTF-8 code starting with ‘\xca‘ in file ...“
  15. 新闻传播专业的本科毕业论文,有哪些比较好的选题?
  16. 6-4 学生成绩链表处理(20 分)
  17. python selenium 大众点评餐厅信息+用户评论 爬虫
  18. 关于计算机语言的知识正确的是,2019微软认证考试精选模拟题及答案(1.17)
  19. 实用干货|腾讯内部几近满分的项目管理方法(PPT)
  20. Matlab中使用符号工具箱求解变上限函数积分及其向量化运算

热门文章

  1. 拍卖源码java_Java并发的AQS原理详解
  2. linux 命令 单词,linux中常用的命令相对应的单词
  3. python分类算法报告_Python机器学习(1)——决策树分类算法
  4. 【数据结构-排序】4.图解归并排序和基数排序
  5. java实现支付宝支付完整过程(沙箱测试环境,下篇整合ssm)
  6. 蓝桥杯练习系统习题-算法训练1
  7. android 中TextView设置部分文字背景色和文字颜色
  8. Eclipse搭建android环境及Genymotion模拟器安装问题解决方法
  9. (JAVA学习笔记) static关键字详解
  10. 杭电oj1176,2084java实现