这里要安装两个工具:
1.VietOCR
这个工具是用来整理图片,将一个个图片整理成一个tif文件
2.jTessBoxEditorFX
这个工具是用来标注文字的

首先要安装java8的环境,这里选择的是jdk-8u191-win64.

1.整理图片

2. 生成box文件

tesseract test.tif test -l chi_sim batch.nochop makebox

3.进行校对

注意tif文件名称要和box文件名称相同,而且二者要位于同一个文件夹下面。这时用jtess打开tif文件即可。

4.训练

字符特征文件(*.tr)

tesseract test.tif test nobatch box.train

计算字符集(unicharset)

unicharset_extractor test.box

定义字体特征文件并聚集字符特征

新建font_properties文件,并输入
test 0 0 0 0 0
test 必须与训练名中的名称保持一致,填入下面内容 ,这里全取值为0,表示字体不是粗体、斜体等等

mftraining -F font_properties -U unicharset test.tr

cntraining test.tr

把unicharset, inttemp, normproto, pffmtable,shapetable文件加上前缀“test.”。然后 合并训练文件,生成traineddata

combine_tessdata test.

查看新的语言包
将test.traineddata放到tesseract的traindata文件夹下。
tesseract --list-langs

至此就完成了训练。

5.测试训练结果

文章资源下载:
tesseract:https://download.csdn.net/download/claroja/10711353
java环境:https://download.csdn.net/download/claroja/10711344
java11好像不能用,这里用java8

参考文献:
https://www.jianshu.com/p/5c8c6b170f6f
http://vietocr.sourceforge.net/

tesseract win 训练相关推荐

  1. Tesseract OCR 训练字库

    Tesseract OCR是一款由HP实验室开发由Google维护的开源OCR引擎,在字符识别领域发挥着举足轻重的作用.除了使用软件自带的中英文识别库,我们可以使用Tesseract OCR训练属于自 ...

  2. OCR开源库Tesseract汉字识别训练

    用python OCR库pytesseract 写的一个OCR识别身份证程序:https://github.com/iChenwin/pytesseractID 先用中文做个示例: 拿到一张chi.p ...

  3. magenta在win训练Melody RNN模型教程

    写在前面 训练的模型是Melody RNN,详情查看官方GitHub页面. 参考资料:教练我想写日式流行歌!--黑科技magenta残差网络训练教程 准备 首先安装python.tensorflow. ...

  4. tesseract linux 训练

    参考文献: https://ivanzz1001.github.io/records/post/ocr/2017/09/18/tesseract-training https://blog.csdn. ...

  5. Python机器学习:训练Tesseract

    训练Tesseract 大多数其他的验证码都是比较简单的.例如,流行的 PHP 内容管理系统 Drupal 有一个著 名的验证码模块(https://www.drupal.org/project/ca ...

  6. 训练Tesseract

    训练Tesseract 大多数其他的验证码都是比较简单的.例如,流行的 PHP 内容管理系统 Drupal 有一个著 名的验证码模块(https://www.drupal.org/project/ca ...

  7. python爬虫学习笔记 3.9 (了解参考:训练Tesseract)

    python爬虫学习笔记 3.9 (了解参考:训练Tesseract) 参考阅读:训练Tesseract 要使用 Tesseract 的功能,比如后面的示例中训练程序识别字母,要先在系统中设置一 个新 ...

  8. Tesseract训练中文字体识别(转)

    原文地址:http://www.jianshu.com/p/31afd7fc5813 前言 网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大 ...

  9. Tesseract训练新字体

    最近工作需要,要对特定字体准确识别,用官方下载的eng识别库,错误率比较高,不能满足要求,所以就踏上了训练字库的征程,我说下我寻找的几种训练方法 注意: Tesseract-OCR 和 Tessera ...

最新文章

  1. 我所理解的OOP——UML六种关系
  2. oculus ios学习资料整理
  3. spring的多个.xml配置文件要保证在同一个容器中
  4. 如何在ABAP workbench里创建新的repository对象
  5. 【CF 736C】Ostap and Tree,树形DP
  6. 用C语言实现猜数游戏
  7. python绘制函数x^2+y^2的3D图像
  8. 使用MobileTerminal修改越狱后的root密码
  9. html5 input step,HTML5 Data Input 元素介绍
  10. Arduino UNO步进电机控制
  11. 压力表校验及压力变送器标定实验
  12. linux 磁盘碎片整理,Linux上没有磁盘碎片清理功能如何整理磁盘碎片
  13. PTA L1-003 个位数统计(详解)
  14. 【Hive+MySQL+Python】淘宝用户购物行为数据分析项目
  15. 大数据入门及各类技术介绍
  16. 【4745】Two Rabbits
  17. 会议OA项目(六)--- (待开会议、历史会议、所有会议)
  18. 3c认证是什么,3C认证的6个步骤详解
  19. 大华大屏显示高清服务器4u,大华DAHUA国内大华视频综合平台增强型主机DH-M70-4U-E-I产品中心_DAV数字音视工程网...
  20. 如何用css实现带√三角形

热门文章

  1. Python使用傅里叶变换调整音频文件音量
  2. Python根据字符分组数量判断密码安全强度
  3. Python使用Manager对象实现不同机器上的进程跨网络传输数据
  4. python遍历链表_四种常见链表的实现及时间复杂度分析(Python3版)
  5. linux安装gtk命令,Ubuntu 下安装 GTK2.0
  6. php 分支排序,php – 基于类别和分支的Mysql排名
  7. mysql drop user 并删除_MySQL删除用户( DROP USER)
  8. c语言gotoxy函数dev,写了个小程序,一直会闪屏,用的gotoxy函数,求大神教
  9. C++STL笔记(一):STL综述
  10. C语言之预处理探究(三):头文件包含