tesseract win 训练
这里要安装两个工具:
1.VietOCR
这个工具是用来整理图片,将一个个图片整理成一个tif文件
2.jTessBoxEditorFX
这个工具是用来标注文字的
首先要安装java8的环境,这里选择的是jdk-8u191-win64.
1.整理图片
2. 生成box文件
tesseract test.tif test -l chi_sim batch.nochop makebox
3.进行校对
注意tif文件名称要和box文件名称相同,而且二者要位于同一个文件夹下面。这时用jtess打开tif文件即可。
4.训练
字符特征文件(*.tr)
tesseract test.tif test nobatch box.train
计算字符集(unicharset)
unicharset_extractor test.box
定义字体特征文件并聚集字符特征
新建font_properties文件,并输入
test 0 0 0 0 0
test 必须与训练名中的名称保持一致,填入下面内容 ,这里全取值为0,表示字体不是粗体、斜体等等
mftraining -F font_properties -U unicharset test.tr
cntraining test.tr
把unicharset, inttemp, normproto, pffmtable,shapetable文件加上前缀“test.”。然后 合并训练文件,生成traineddata
combine_tessdata test.
查看新的语言包
将test.traineddata放到tesseract的traindata文件夹下。
tesseract --list-langs
至此就完成了训练。
5.测试训练结果
文章资源下载:
tesseract:https://download.csdn.net/download/claroja/10711353
java环境:https://download.csdn.net/download/claroja/10711344
java11好像不能用,这里用java8
参考文献:
https://www.jianshu.com/p/5c8c6b170f6f
http://vietocr.sourceforge.net/
tesseract win 训练相关推荐
- Tesseract OCR 训练字库
Tesseract OCR是一款由HP实验室开发由Google维护的开源OCR引擎,在字符识别领域发挥着举足轻重的作用.除了使用软件自带的中英文识别库,我们可以使用Tesseract OCR训练属于自 ...
- OCR开源库Tesseract汉字识别训练
用python OCR库pytesseract 写的一个OCR识别身份证程序:https://github.com/iChenwin/pytesseractID 先用中文做个示例: 拿到一张chi.p ...
- magenta在win训练Melody RNN模型教程
写在前面 训练的模型是Melody RNN,详情查看官方GitHub页面. 参考资料:教练我想写日式流行歌!--黑科技magenta残差网络训练教程 准备 首先安装python.tensorflow. ...
- tesseract linux 训练
参考文献: https://ivanzz1001.github.io/records/post/ocr/2017/09/18/tesseract-training https://blog.csdn. ...
- Python机器学习:训练Tesseract
训练Tesseract 大多数其他的验证码都是比较简单的.例如,流行的 PHP 内容管理系统 Drupal 有一个著 名的验证码模块(https://www.drupal.org/project/ca ...
- 训练Tesseract
训练Tesseract 大多数其他的验证码都是比较简单的.例如,流行的 PHP 内容管理系统 Drupal 有一个著 名的验证码模块(https://www.drupal.org/project/ca ...
- python爬虫学习笔记 3.9 (了解参考:训练Tesseract)
python爬虫学习笔记 3.9 (了解参考:训练Tesseract) 参考阅读:训练Tesseract 要使用 Tesseract 的功能,比如后面的示例中训练程序识别字母,要先在系统中设置一 个新 ...
- Tesseract训练中文字体识别(转)
原文地址:http://www.jianshu.com/p/31afd7fc5813 前言 网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大 ...
- Tesseract训练新字体
最近工作需要,要对特定字体准确识别,用官方下载的eng识别库,错误率比较高,不能满足要求,所以就踏上了训练字库的征程,我说下我寻找的几种训练方法 注意: Tesseract-OCR 和 Tessera ...
最新文章
- 我所理解的OOP——UML六种关系
- oculus ios学习资料整理
- spring的多个.xml配置文件要保证在同一个容器中
- 如何在ABAP workbench里创建新的repository对象
- 【CF 736C】Ostap and Tree,树形DP
- 用C语言实现猜数游戏
- python绘制函数x^2+y^2的3D图像
- 使用MobileTerminal修改越狱后的root密码
- html5 input step,HTML5 Data Input 元素介绍
- Arduino UNO步进电机控制
- 压力表校验及压力变送器标定实验
- linux 磁盘碎片整理,Linux上没有磁盘碎片清理功能如何整理磁盘碎片
- PTA L1-003 个位数统计(详解)
- 【Hive+MySQL+Python】淘宝用户购物行为数据分析项目
- 大数据入门及各类技术介绍
- 【4745】Two Rabbits
- 会议OA项目(六)--- (待开会议、历史会议、所有会议)
- 3c认证是什么,3C认证的6个步骤详解
- 大华大屏显示高清服务器4u,大华DAHUA国内大华视频综合平台增强型主机DH-M70-4U-E-I产品中心_DAV数字音视工程网...
- 如何用css实现带√三角形
热门文章
- Python使用傅里叶变换调整音频文件音量
- Python根据字符分组数量判断密码安全强度
- Python使用Manager对象实现不同机器上的进程跨网络传输数据
- python遍历链表_四种常见链表的实现及时间复杂度分析(Python3版)
- linux安装gtk命令,Ubuntu 下安装 GTK2.0
- php 分支排序,php – 基于类别和分支的Mysql排名
- mysql drop user 并删除_MySQL删除用户( DROP USER)
- c语言gotoxy函数dev,写了个小程序,一直会闪屏,用的gotoxy函数,求大神教
- C++STL笔记(一):STL综述
- C语言之预处理探究(三):头文件包含