Tesseract-OCR识别学习（一）命令识别

1、Tesseract概述（来自网页）

Tesseract的OCR引擎最先由HP实验室于1985年开始研发，至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而，HP不久便决定放弃OCR业务，Tesseract也从此尘封。

数年以后，HP意识到，与其将Tesseract束之高阁，不如贡献给开源软件业，让其重焕新生－－2005年，Tesseract由美国内华达州信息技术研究所获得，并求诸于Google对Tesseract进行改进、消除Bug、优化工作。

Tesseract目前已作为开源项目发布在Google Project，其项目主页在查看，其最新版本3.0已经支持中文OCR，并提供了一个命令行工具。本次我们来测试一下Tesseract 3.0，由于命令行对最终用户不太友好，我用WPF简单封装了一下，就可以方便的进行中文OCR了。

1.1、首先到Tesseract项目主页下载命令行工具、源代码、中文语言包：

链接: http://pan.baidu.com/s/1bptAnsN 密码: hd2y 下载后解压到相应的文件下。文件如下：

Tesseract-OCR识别学习（一）命令识别
文件介绍：tif,jpg是要识别的图片。tessdata：识别时使用语言包的类型，

jTessBoxEditor：这个是要训练时候用的，运行里面的bat文件即可。

2.使用步骤

A：命令行进入到相应的文件下，直接使用：tesseract 3.jpg result -l eng 即可。

Tesseract-OCR识别学习（一）命令识别
会在当前目录下生成：result.txt文件。里面既识别的结果.

3.训练（机器不是所有的字符都可以识别）

A：先要目录下创建font_properties文件填写内容：

font 0 0 0 0 0

B：运行jTessBoxEditor工具，在点击菜单栏中Tools—>Merge TIFF。在弹出的对话框中选择样本图像（按Shift选择多张）

合并成num.font.exp0的tif图片文件。

注：Make Box File的命令格式为：

tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox

C：生成Box File文件

tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox

会生成一个num.font.exp0.box 文件

D：以此执行下面的命令

echo 1：Compute the Character Set…

unicharset_extractor.exe num.font.exp0.box

echo 2：生成tr文件

tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train

echo 3：

mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr

echo 4：Clustering…

cntraining.exe num.font.exp0.tr

echo 5：Rename Files… 重命名

rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable

echo 6：Create Tessdata… 生成自己的识别库 num.traineddata，拷贝到tessdata目录下即可

combine_tessdata.exe num.

训练参考来自：http://blog.csdn.net/firehood_/article/details/8433077

注：训练时候的图片必须是要大小相同的，这样识别的地方才一直。

Tesseract-OCR识别学习（一）命令识别相关推荐

Tesseract OCR+Tess4j实现图片中英文识别
文章目录 Tesseract 简介环境搭建下载语言库 tess4j 依赖 demo Tesseract 简介 Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经 ...
Tesseract OCR与文本智能识别
博主简介博主是一名大二学生,主攻人工智能研究.感谢让我们在CSDN相遇,博主致力于在这里分享关于人工智能,c++,Python,爬虫等方面知识的分享. 如果有需要的小伙伴可以关注博主,博主会继续更新 ...
android自动识别文字,Android文字识别tesseract ocr -训练样本库识别字库
目录安装tesseract ocr引擎和jTessBoxEditor 安装jTessBoxEditor 开始制作box 准备好训练的图片将图片转为tif格式的样本图片合并样本图片修改box文件 ...
关于Tesseract OCR 中文训练识别小试（java调用Tess4j）
2017.9.20日小结最近接到是关于消防系统协议解析仪器的项目,目的是从协议解析仪器获取有效数据,并解析数据(目的是不希望消防主机的数据信息再传给主机厂商而是最后能给自己收集调用).由于各个消防器 ...
用Tesseract OCR识别图片文字
用tesseract ocr识别图片中的文字准备 OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以 ...
Android百度文字识别bitmap,Android集成Tesseract OCR实现图片文字识别
最近项目需要做图片上的文字识别,在网上找了很久,这方面的知识挺多的,但是很杂.将最近学习到的东西整理一下,仅供参考. 1.Tesseract OCR 介绍我就不说了,自行百度,或者访问:https:/ ...
OCR技术系列之四】基于深度学习的文字识别（3755个汉字）（转）
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...
Tesseract Ocr文字识别实战（新版本，扩展手写文字识别）
目录 1.Tesseract Ocr文字识别 1.1 运行环境 1.2 python模块 1.3 配置tesseract运行文件 1.4 代码识别 2. 手写汉字识别 2.1 下载库 2.2 代码 1 ...
Ocr 图文识别技术——基于百度云OCR技术学习与总结
Ocr 图文识别技术--基于百度云OCR技术学习与总结 1.百度智能云控制台 ...
【OCR技术系列之四】基于深度学习的文字识别（3755个汉字）
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...

Tesseract-OCR识别学习（一）命令识别

Tesseract-OCR识别学习（一）命令识别相关推荐

最新文章

热门文章

Tesseract-OCR识别 学习（一）命令识别

Tesseract-OCR识别 学习（一）命令识别相关推荐

最新文章

热门文章

Tesseract-OCR识别学习（一）命令识别

Tesseract-OCR识别学习（一）命令识别相关推荐