利用jTessBoxEditor工具进行Tesseract3.02.02样本训练
参考自:
- 官方:https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02#bootstrapping-a-new-character-set
- http://blog.csdn.net/why200981317/article/details/48265621
- http://www.cnblogs.com/cnlian/p/5765871.html
- http://www.cnblogs.com/zhongtang/p/5555950.html?utm_source=tuicool&utm_medium=referral
- jTessBoxEditor下载地址:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
这个工具是基于java虚拟机运行的,所以我们还要下载并安装一个java虚拟机 - tesseract可以去我的资源页下载:http://download.csdn.net/detail/ss_s1gn/9810646
1.生成tif文件
将图片用 画图 打开,保存为tif格式。
注意:保存的文件名为:
2.生成box文件(需要安装tesseract)
在命令行进入存放tif文件的目录,输入:
tesseract lang.sign.img.tif lang.sign.img batch.nochop makebox
3.打开下载好的jTessBoxEditor,点击
4.点击Box Editor –>>open 打开以tif为扩展名的文件
5.用jTessBoxEditor打开前面的tiff=文件lang.sign.img1.tif,工具会自动加载对应的box文件。
需要删除点击delete
需要新增点击insert
需要切割点击split
如图,可对对应的字符进行修正,输入正确的字符,enter确定
最后不要忘了点击save保存(注意:我使用的时候,如果只是修改数据,save按钮不可点击,可以新增一条无用数据,再删除就可以保存了)
6.生成font_properties
在命令行输入:
echo sign 0 0 0 0 0 >font_properties
7.生成训练文件
在命令行输入:
tesseract lang.sign.img.tif lang.sign.img nobatch box.train
8.生成字符集文件
在命令行输入:
unicharset_extractor lang.sign.img.box
如果有多个,就在后面依次添加
eg:
unicharset_extractor lang.sign.img.box lang.sign.img1.box lang.sign.img2.box
9.生成shape文件
在命令行输入:
shapeclustering -F font_properties -U unicharset lang.sign.img.tr
注意:lang.unicharset 对应你的语言名称
如果有多个,就在后面依次添加
eg:
shapeclustering -F font_properties -U unicharset lang.sign.img.tr lang.sign.img1.tr lang.sign.img2.tr
10.生成聚集字符特征文件
mftraining -F font_properties -U unicharset -O lang.unicharset lang.sign.img.tr
注意:lang.unicharset 与上一部的lang.unicharset 对应
如果有多个,就在后面依次添加
eg:
mftraining -F font_properties -U unicharset -O lang.unicharset lang.sign.img.tr lang.sign.img1.tr lang.sign.img2.tr
11.生成字符正常化特征文件
在命令行输入:
cntraining lang.sign.img.tr
如果有多个,就在后面依次添加
eg:
cntraining lang.sign.img.tr lang.sign.img1.tr lang.sign.img2.tr
12.更名
rename normproto lang.normproto
rename inttemp lang.inttemp
rename pffmtable lang.pffmtable
rename unicharset lang.unicharset
rename shapetable lang.shapetable
13.合并训练文件
执行命令,生成lang.traineddata文件
combine_tessdata lang.
注意:命令行最后必须带一个点。
14.最后将lang.trainddata复制到Tesseract-OCR中tessdata文件夹即可
tesseract test.png output -l lang
lang就是根据我们生成的lang.traineddata去识别
也可以用google的eng.traineddata或其它库识别
在生成的output.txt查看扫描的结果
利用jTessBoxEditor工具进行Tesseract3.02.02样本训练相关推荐
- jTessBoxEditor工具进行Tesseract3.02.02样本训练
1.背景 前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率. 本文将针对某个网站的验证码进行样本训练,形成自己的语 ...
- OpenCV3.2+VS2013+Tesseract3.02.02配置
分享一下Tesseract3.02.02版本在Windows下的配置.我的环境VS2013+win8 64bit+OpenCV3.2. 需要下载:tesseract-orc-setup-3.02.02 ...
- 02.机器学习样本评估与选择
02.机器学习样本评估与选择 经验误差与过拟合 精度=1-错误率=1-错误样本数/总样本数 学习器的实际预测输出与样本的真实输出之间的差异称为"误差"(error),学习器在训练集 ...
- ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动特征生成)
ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征.利用featuretools工具实现自动特征生成) 目录 基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征 ...
- ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动构造特征/特征衍生)
ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征.利用featuretools工具实现自动构造特征/特征衍生) 目录 基于自定义数据集(银行客户信息贷款和赔偿)对 ...
- 利用python实现深度学习生成对抗样本模型,为任一图片加扰动并恢复原像素的全流程记录
利用python实现深度学习生成对抗样本,为任一图片加扰动并恢复原像素 一.前言 (一)什么是深度学习 (二)什么是样本模型 (三)什么是对抗样本 1.对抗的目的 2.谁来对抗? 3.对抗的敌人是谁? ...
- [02.02]主题之家精美主题每日更新【雪豹】
[02.02]主题之家精美主题每日更新[雪豹] 温馨提示: 1:此更新合集由雪豹整理,由于主题之家采用防盗链设计,直接点击会出现盗链接的提示,请下载时点击直接下载或用下载工具下载. 2:以下所有软件均 ...
- 利用VisualEsxtop工具图形化查看esxtop参数
怎样使用VisualEsxtop工具 众多VMware的工程师都知道esxtop/rextop在进行故障排查.性能检测的场景中的重要性:一般而言我们都可以通过各种shell工具连接到ESXI主机,默认 ...
- 利用VSTS工具自动测试
一.选择开发工具 由于小组成员平时写代码都是用C语言或C++,所以我们选择visual stdio 2017作为小组的开发工具. 在产品中选择适用于学生.开放源代码和个体开发人员的免费.全功能型 ID ...
最新文章
- android编译.a文件,Android 7.1源码编译导入AS完整教程
- 命令行调用springboot服务_Spring Boot命令行界面的使用
- android适配器持有者模式
- 辗转相除法 求最大公约数和最小公倍数
- zephyr_Facebook,IBM,Yahoo和更多新闻发布的物联网Zephyr项目
- 数据中心网络vs云网络vs容器网络
- 15.QT中qchart绘制图表注意事项
- 阿里确认研发车载小程序 这些功能太方便了!
- java 多项式拟合最多的项数_python实现2019nCoV确诊数据拟合与预测
- AngularJs的UI组件ui-Bootstrap分享(七)——Buttons和Dropdown
- 从零开始实现 AlphaGo(一)
- SQL Server 日期函数
- CentOS 安装SVN客户端
- EtherCAT xml 解析(不定时更新)
- python开源项目之五子棋
- MAC系统中快速切换输入法的方法
- python音频 降噪_python - 使用pyaudio对音频播放进行降噪 - 堆栈内存溢出
- JavaScript内容回顾第十天
- 如何通过修改注册表改变系统的默认文件夹
- java毕设项目燕理快递中转站系统设计与实现(附源码)
热门文章
- 百度之星2018资格赛游记
- C/C++二维数组顺时针翻转90度
- 大数分解Pollard_rho模板
- 台式计算机有乱码如何解决,电脑出现乱码怎么修复 电脑字体乱码解决方法
- 区块链软件技术公司区块链能否彻底改变轿车职业?
- SSH密钥登录系统报错Permissions 0644 for ‘xxx‘ re too open
- php srs api,srs 身份认证
- C/C++音视频高级开发-开源流媒体服务器SRS环境搭建
- 服务器电源显示灯图标,服务器主机指示灯图标含义
- Firefly 常用命令