参考自:

  • 官方:https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02#bootstrapping-a-new-character-set
  • http://blog.csdn.net/why200981317/article/details/48265621
  • http://www.cnblogs.com/cnlian/p/5765871.html
  • http://www.cnblogs.com/zhongtang/p/5555950.html?utm_source=tuicool&utm_medium=referral
  • jTessBoxEditor下载地址:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
    这个工具是基于java虚拟机运行的,所以我们还要下载并安装一个java虚拟机
  • tesseract可以去我的资源页下载:http://download.csdn.net/detail/ss_s1gn/9810646

1.生成tif文件

将图片用 画图 打开,保存为tif格式。
注意:保存的文件名为:

2.生成box文件(需要安装tesseract)

在命令行进入存放tif文件的目录,输入:

tesseract lang.sign.img.tif lang.sign.img batch.nochop makebox

3.打开下载好的jTessBoxEditor,点击

4.点击Box Editor –>>open 打开以tif为扩展名的文件

5.用jTessBoxEditor打开前面的tiff=文件lang.sign.img1.tif,工具会自动加载对应的box文件。


需要删除点击delete
需要新增点击insert
需要切割点击split
如图,可对对应的字符进行修正,输入正确的字符,enter确定
最后不要忘了点击save保存(注意:我使用的时候,如果只是修改数据,save按钮不可点击,可以新增一条无用数据,再删除就可以保存了)

6.生成font_properties

在命令行输入:

echo sign 0 0 0 0 0 >font_properties

7.生成训练文件

在命令行输入:

tesseract lang.sign.img.tif lang.sign.img nobatch box.train

8.生成字符集文件

在命令行输入:

unicharset_extractor lang.sign.img.box 

如果有多个,就在后面依次添加
eg:

unicharset_extractor lang.sign.img.box lang.sign.img1.box lang.sign.img2.box

9.生成shape文件

在命令行输入:

shapeclustering -F font_properties -U unicharset lang.sign.img.tr

注意:lang.unicharset 对应你的语言名称
如果有多个,就在后面依次添加
eg:

shapeclustering -F font_properties -U unicharset lang.sign.img.tr lang.sign.img1.tr lang.sign.img2.tr

10.生成聚集字符特征文件

mftraining -F font_properties -U unicharset -O lang.unicharset lang.sign.img.tr

注意:lang.unicharset 与上一部的lang.unicharset 对应
如果有多个,就在后面依次添加
eg:

mftraining -F font_properties -U unicharset -O lang.unicharset lang.sign.img.tr lang.sign.img1.tr lang.sign.img2.tr

11.生成字符正常化特征文件

在命令行输入:

cntraining lang.sign.img.tr

如果有多个,就在后面依次添加
eg:

cntraining lang.sign.img.tr lang.sign.img1.tr lang.sign.img2.tr

12.更名

rename normproto lang.normproto
rename inttemp lang.inttemp
rename pffmtable lang.pffmtable
rename unicharset lang.unicharset
rename shapetable lang.shapetable

13.合并训练文件

执行命令,生成lang.traineddata文件

combine_tessdata lang.

注意:命令行最后必须带一个点。

14.最后将lang.trainddata复制到Tesseract-OCR中tessdata文件夹即可

tesseract test.png output -l lang

lang就是根据我们生成的lang.traineddata去识别
也可以用google的eng.traineddata或其它库识别
在生成的output.txt查看扫描的结果

利用jTessBoxEditor工具进行Tesseract3.02.02样本训练相关推荐

  1. jTessBoxEditor工具进行Tesseract3.02.02样本训练

    1.背景 前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率. 本文将针对某个网站的验证码进行样本训练,形成自己的语 ...

  2. OpenCV3.2+VS2013+Tesseract3.02.02配置

    分享一下Tesseract3.02.02版本在Windows下的配置.我的环境VS2013+win8 64bit+OpenCV3.2. 需要下载:tesseract-orc-setup-3.02.02 ...

  3. 02.机器学习样本评估与选择

    02.机器学习样本评估与选择 经验误差与过拟合 精度=1-错误率=1-错误样本数/总样本数 学习器的实际预测输出与样本的真实输出之间的差异称为"误差"(error),学习器在训练集 ...

  4. ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动特征生成)

    ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征.利用featuretools工具实现自动特征生成) 目录 基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征 ...

  5. ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动构造特征/特征衍生)

    ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征.利用featuretools工具实现自动构造特征/特征衍生) 目录 基于自定义数据集(银行客户信息贷款和赔偿)对 ...

  6. 利用python实现深度学习生成对抗样本模型,为任一图片加扰动并恢复原像素的全流程记录

    利用python实现深度学习生成对抗样本,为任一图片加扰动并恢复原像素 一.前言 (一)什么是深度学习 (二)什么是样本模型 (三)什么是对抗样本 1.对抗的目的 2.谁来对抗? 3.对抗的敌人是谁? ...

  7. [02.02]主题之家精美主题每日更新【雪豹】

    [02.02]主题之家精美主题每日更新[雪豹] 温馨提示: 1:此更新合集由雪豹整理,由于主题之家采用防盗链设计,直接点击会出现盗链接的提示,请下载时点击直接下载或用下载工具下载. 2:以下所有软件均 ...

  8. 利用VisualEsxtop工具图形化查看esxtop参数

    怎样使用VisualEsxtop工具 众多VMware的工程师都知道esxtop/rextop在进行故障排查.性能检测的场景中的重要性:一般而言我们都可以通过各种shell工具连接到ESXI主机,默认 ...

  9. 利用VSTS工具自动测试

    一.选择开发工具 由于小组成员平时写代码都是用C语言或C++,所以我们选择visual stdio 2017作为小组的开发工具. 在产品中选择适用于学生.开放源代码和个体开发人员的免费.全功能型 ID ...

最新文章

  1. android编译.a文件,Android 7.1源码编译导入AS完整教程
  2. 命令行调用springboot服务_Spring Boot命令行界面的使用
  3. android适配器持有者模式
  4. 辗转相除法 求最大公约数和最小公倍数
  5. zephyr_Facebook,IBM,Yahoo和更多新闻发布的物联网Zephyr项目
  6. 数据中心网络vs云网络vs容器网络
  7. 15.QT中qchart绘制图表注意事项
  8. 阿里确认研发车载小程序 这些功能太方便了!
  9. java 多项式拟合最多的项数_python实现2019nCoV确诊数据拟合与预测
  10. AngularJs的UI组件ui-Bootstrap分享(七)——Buttons和Dropdown
  11. 从零开始实现 AlphaGo(一)
  12. SQL Server 日期函数
  13. CentOS 安装SVN客户端
  14. EtherCAT xml 解析(不定时更新)
  15. python开源项目之五子棋
  16. MAC系统中快速切换输入法的方法
  17. python音频 降噪_python - 使用pyaudio对音频播放进行降噪 - 堆栈内存溢出
  18. JavaScript内容回顾第十天
  19. 如何通过修改注册表改变系统的默认文件夹
  20. java毕设项目燕理快递中转站系统设计与实现(附源码)

热门文章

  1. 百度之星2018资格赛游记
  2. C/C++二维数组顺时针翻转90度
  3. 大数分解Pollard_rho模板
  4. 台式计算机有乱码如何解决,电脑出现乱码怎么修复 电脑字体乱码解决方法
  5. 区块链软件技术公司区块链能否彻底改变轿车职业?
  6. SSH密钥登录系统报错Permissions 0644 for ‘xxx‘ re too open
  7. php srs api,srs 身份认证
  8. C/C++音视频高级开发-开源流媒体服务器SRS环境搭建
  9. 服务器电源显示灯图标,服务器主机指示灯图标含义
  10. Firefly 常用命令