jTessBoxEditor训练3500常用汉字
先接到需求要做字符识别,故百度查询资料后,决定通过Tesseract-OCR来实现!虽然Tesseract-OCR也可以通过网上下载中文字库进行识别!但是由于识别效果不是很理想,所以决定根据所需要的识别的内容训练字库!网上说字库的训练最好在Tesseract-OCR的安装目录下进行,本人Tesseract-OCR的安装目录位于D:\Program Files\Tesseract-OCR。先将步骤整理如下:
1.运行cmd,进入d盘 d:
2.进入Tesseract-OCR文件夹的安装目录 cdProgram Files\Tesseract-OCR
3.通过jTessBoxEditor软件 生成tif格式的文件(Tools -> Merge TIFF->选择要合并的图片->保存为.tif图片文件)
4.生成BOX文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 batch.nochop makebox
4.1生成chi.myself.exp0.box文件后,需要使用jTessBoxEditor软件对其进行识别纠正!这部分很重要,等有时间再进行补充.......
4.2如果已经有中文字库,那么在makebox的时候可以使用中文字库,那样得到的.box文件就会有大部分是可以识别出来的,只需添加一个参数:tesseract.exe chi.myself.exp0.tif chi.myself.exp0 -l chi_sim batch.nochop makebox
5.生成.tr文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 nobatch box.train
6.生成unicharset文件 unicharset_extractor chi.myself.exp0.box
7.新建font_properties文件 内容 myself 0 0 0 0 0
8.shapeclustering.exe -F font_properties.txt -U unicharset chi.myself.exp0.tr
9.mftraining.exe -F font_properties.txt -U unicharset -O unicharset chi.myself.exp0.tr
10.cntraining.exe chi.myself.exp0.tr
11.重命名把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上myself.
12.combine_tessdata myself.
13.现在即可将生成的字库拷贝到tessdata文件夹中使用!
注:
A.tesseract-ocr版本为3.02.02 + VS2013
软件安装包:E:\jTessBoxEditor-1.7.3程序安装包
俩个重要网址:训练步骤:
网址1:http://blog.csdn.net/gx_489587482/article/details/52686156
网址2:https://www.cnblogs.com/zhongtang/p/5555950.html
jTessBoxEditor训练3500常用汉字相关推荐
- 整理的3500个常用汉字的调用字典
3500个常用汉字的调用字典 下载地址:https://download.csdn.net/download/hj960511/85034461 资源说明: 总数目: 目录截图 实际字典情况: 调用方 ...
- [日语]基于日语常用汉字表的音读到汉字的映射表
音读 汉字 ア 亜 アイ 哀挨愛曖 アク 悪握 アツ 圧 アン 安案暗行 イ 以衣位囲医依委威為畏胃尉異移萎偉椅彙意違維慰遺緯易唯 イキ 域 イク 育 イチ 一壱 イツ 一逸 イン 引印因咽姻員院淫陰 ...
- 常用汉字的UNICODE和对应的繁体字
常用汉字的UNICODE和对应的繁体字 UNICODE是简体字对应的 后面的繁体字是我用GOOGLE自动翻译的 UNICODE 简体字 繁体字 21834 啊 啊 38463 阿 ...
- 分享:常用汉字的unicode 编码
分享:常用汉字的unicode 编码 常用汉字的unicode 编码 http://my.oschina.net/Boston/blog/92273 posted on 2012-11-28 01:1 ...
- paip 一千 常用汉字 高频汉字 覆盖率90
分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! paip ...
- Windows下在darknet框架下训练yolov3常用指令汇总
Windows下在darknet框架下训练yolov3常用指令汇总 训练指令 darknet.exe detector train .\build\darknet\x64\data\obj.data ...
- 3500个常用汉字表_小学常用560个汉字笔画笔顺表,打印下来,小学六年慢慢练...
温馨提示 公众号改版后 很多孩子及家长朋友找不到我们了 为了方便大家更快地找到我们 获取更多学习工具和资料 您可以按照下面的方式 星标或置顶我们 ☟ ☟ ☟ 小学阶段,字写得好很重要,笔顺写对了也很 ...
- 常用3500个汉字(转收藏)
啊阿埃挨哎唉哀皑癌蔼矮艾碍爱隘鞍氨安俺按暗岸胺案肮昂盎凹敖熬翱袄傲奥懊澳芭捌扒叭吧笆八疤巴拔跋靶把耙坝霸罢爸白柏百摆佰败拜稗斑班搬扳般颁板版扮拌伴瓣半办绊邦帮梆榜膀绑棒磅蚌镑傍谤苞胞包褒剥薄雹保堡饱宝 ...
- 常用汉字的unicode 编码
包含汉字: 的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之 都好看起发当没成只如事把还用第样道想作种开美总从无情己面最女但现前些所 ...
- 一个简单的拼音输入法,实现常用汉字的输入
/* 这是一个简单的拼音输入法,只有常用的汉字,输入拼音后, 再输入数字,选择所需要的拼音 */ #include <string.h> #include <stdio.h> ...
最新文章
- 【Python小游戏】扫雷游戏竟有世界排行榜,中国90后00后霸占半壁江山?
- c++计算eigen随笔(3)-求逆
- MysqlDataTruncation Mysql 数据插入错误
- PyTorch 实现 Mask-RCNN
- 工作339:pc父组件通过props传值给子组件,如何避免子组件改变props的属性值报错问题
- 面试--Linux命令总结
- MiniFrameworkPHP开源框架
- 排序算法----桶排序(数组)
- ssh连接虚拟机的linux_openstack系列之运维排障:虚拟机SSH连接失败
- 吴恩达神经网络和深度学习-学习笔记-20-训练/开发/测试集划分
- [USACO13MAR]Farm Painting【枚举】
- OSPF建立邻居、邻接关系 学习笔记
- 博图导入的程序用step7读出_博图软件TIA STEP7 V16 上载程序方法
- MATLAB图例设置为透明
- vmware虚拟机C盘扩容
- PRi——自行车码表
- U-net网络框架 学习笔记
- Google 微数据,快速指引。
- SNP(单核苷酸多态性)准确性的验证,你造吗?
- NYOJ239 月老的难题 二分图最大匹配(前向星)