Tesseract-OCR识别 学习(一)命令识别
1、Tesseract概述(来自网页)
Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。
数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。
Tesseract目前已作为开源项目发布在Google Project,其项目主页在查看,其最新版本3.0已经支持中文OCR,并提供了一个命令行工具。本次我们来测试一下Tesseract 3.0,由于命令行对最终用户不太友好,我用WPF简单封装了一下,就可以方便的进行中文OCR了。
1.1、首先到Tesseract项目主页下载命令行工具、源代码、中文语言包:
链接: http://pan.baidu.com/s/1bptAnsN 密码: hd2y 下载后解压到相应的文件下。文件如下:
Tesseract-OCR识别 学习(一)命令识别
文件介绍:tif,jpg是要识别的图片。tessdata:识别时使用语言包的类型,
jTessBoxEditor:这个是要训练时候用的,运行里面的bat文件即可。
2.使用步骤
A:命令行进入到相应的文件下,直接使用:tesseract 3.jpg result -l eng 即可。
Tesseract-OCR识别 学习(一)命令识别
会在当前目录下生成:result.txt文件。里面既识别的结果.
3.训练(机器不是所有的字符都可以识别)
A:先要目录下创建font_properties文件 填写内容:
font 0 0 0 0 0
B:运行jTessBoxEditor工具,在点击菜单栏中Tools—>Merge TIFF。在弹出的对话框中选择样本图像(按Shift选择多张)
合并成num.font.exp0的tif图片文件。
注:Make Box File的命令格式为:
tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox
C:生成Box File文件
tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox
会生成一个num.font.exp0.box 文件
D:以此执行下面的命令
echo 1:Compute the Character Set…
unicharset_extractor.exe num.font.exp0.box
echo 2:生成tr文件
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train
echo 3:
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr
echo 4:Clustering…
cntraining.exe num.font.exp0.tr
echo 5:Rename Files… 重命名
rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable
echo 6:Create Tessdata… 生成自己的识别库 num.traineddata,拷贝到tessdata目录下即可
combine_tessdata.exe num.
训练参考来自 :http://blog.csdn.net/firehood_/article/details/8433077
注:训练时候的图片必须是要大小相同的,这样识别的地方才一直。
Tesseract-OCR识别 学习(一)命令识别相关推荐
- Tesseract OCR+Tess4j实现图片中英文识别
文章目录 Tesseract 简介 环境搭建 下载语言库 tess4j 依赖 demo Tesseract 简介 Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经 ...
- Tesseract OCR与文本智能识别
博主简介 博主是一名大二学生,主攻人工智能研究.感谢让我们在CSDN相遇,博主致力于在这里分享关于人工智能,c++,Python,爬虫等方面知识的分享. 如果有需要的小伙伴可以关注博主,博主会继续更新 ...
- android自动识别文字,Android文字识别tesseract ocr -训练样本库 识别字库
目录 安装tesseract ocr引擎和jTessBoxEditor 安装jTessBoxEditor 开始制作box 准备好训练的图片 将图片转为tif格式的样本图片 合并样本图片 修改box文件 ...
- 关于Tesseract OCR 中文训练识别小试(java调用Tess4j)
2017.9.20日小结 最近接到是关于消防系统协议解析仪器的项目,目的是从协议解析仪器获取有效数据,并解析数据(目的是不希望消防主机的数据信息再传给主机厂商而是最后能给自己收集调用).由于各个消防器 ...
- 用Tesseract OCR识别图片文字
用tesseract ocr识别图片中的文字 准备 OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以 ...
- Android百度文字识别bitmap,Android集成Tesseract OCR实现图片文字识别
最近项目需要做图片上的文字识别,在网上找了很久,这方面的知识挺多的,但是很杂.将最近学习到的东西整理一下,仅供参考. 1.Tesseract OCR 介绍我就不说了,自行百度,或者访问:https:/ ...
- OCR技术系列之四】基于深度学习的文字识别(3755个汉字)(转)
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...
- Tesseract Ocr文字识别实战(新版本,扩展手写文字识别)
目录 1.Tesseract Ocr文字识别 1.1 运行环境 1.2 python模块 1.3 配置tesseract运行文件 1.4 代码识别 2. 手写汉字识别 2.1 下载库 2.2 代码 1 ...
- Ocr 图文识别技术——基于百度云OCR技术学习与总结
Ocr 图文识别技术--基于百度云OCR技术学习与总结 1.百度智能云 控制台 ...
- 【OCR技术系列之四】基于深度学习的文字识别(3755个汉字)
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...
最新文章
- 贴现率 vs 折现率
- narray删除列 python_Python数据分析入门教程(四):数值操作
- luogu cover
- 安装TensorFlow时出现ERROR: Cannot uninstall ‘wrapt‘问题的解决方案
- 吴恩达专访 Yann LeCun:是的我们曾经历黑暗时刻,但我始终抱有信念
- delphi self 的使用
- Java 洛谷 P1014 Cantor表
- android 把assets 里面的图片文件输出到SD卡
- OpenCV均值漂移meanshift algorithm算法的实例(附完整代码)
- lua虚拟机字节码修改_Java虚拟机(JVM)面试题大集合
- 视觉SLAM笔记(58) 字典
- 下载知网Hownet中文信息结构数据
- 在ASP.net中的UpdatePanel,弹窗失败解决办法
- idea 非法字符 \ufeff
- 供应链业务架构设计概览
- 关于Matlab插值的问题,这些应该够用了吧
- MATLAB之fprintf
- 深入分析Java中的length和length()
- android code修改border颜色,BorderColor没有在Android上选择linearGradient颜色
- pythonweb数据可视化_基于Python实现交互式数据可视化的工具(用于Web)