【Tesseract-OCR】Tesseract训练中文字体识别

字体训练

我准备了一份含汉语7000字和大小写英文字母和数字的文档.如果你需要训练所有中文的话，请将所有docx文件内所有字改成你要训练的字体。然后转化成tif格式的图片。先转PDF,再用工具转tif各式。

步骤（转自tesseract的github）

1、Prepare training text.
准备你的训练文本

2、Render text to image + box file. (Or create hand-made box files for existing image data.)

将文本转为image+box文件.(如果你已经有image文件的话，只需要手动生成box文件)

3、Make unicharset file.
生成unicharset文件

4、Optionally make dictionary data.
有选择性的生成字典数据

5、Run tesseract to process image + box file to make training data set.
运行tesseract来处理之前的image+box文件生成一个训练数据集合

6、Run training on training data set.
在训练数据集合的基础上进行训练

7、Combine data files.
合并数据文件

如果是其他图片格式，将其转为tif格式。附上一个在线地址
http://cn.office-converter.com/Convert-to-TIF

使用之前安装jTessBoxEditor工具将多张图片合并为一张（菜单栏 Tools → Merge TIFF）。并按照格式 [lang].[fontname].exp[num] 重命名合并后的文件，这里我命名为 chi.fangzheng.exp0.tif。

PDF转jpg地址：
http://www.pdfdo.com/pdf-to-image.aspx

http://app.xunjiepdf.com/pdf2jpg

jpg再转tif

参考链接：http://www.jianshu.com/p/31afd7fc5813

http://www.cnblogs.com/samlin/p/Tesseract-OCR.html

批处理程序rem.bat：

echo Run Tesseract for Training..
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train  echo Compute the Character Set..
unicharset_extractor.exe num.font.exp0.box
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr  echo Clustering..
cntraining.exe num.font.exp0.tr  echo Rename Files..
rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable   echo Create Tessdata..
combine_tessdata.exe num.

【Tesseract-OCR】Tesseract训练中文字体识别相关推荐

Tesseract训练中文字体识别（转）
原文地址:http://www.jianshu.com/p/31afd7fc5813 前言网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大 ...
java tessdata训练_Tesseract训练中文字体识别
注:目前仅说明windows下的情况前言网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大部分只是就英文的训练进行探索,很少针对中文的训练 ...
卷积神经网络案例：中文字体识别——隶书和行楷
一.AlexNet网络结构 1.1 AlexNet介绍: ImageNet竞赛冠军获得者Hinton和他的学生Krizhevsky Alex于2012年设计. ImageNet竞赛中第一个使用卷积神经 ...
六、AlexNet实现中文字体识别——隶书和行楷
文章目录前文中文字体识别--隶书和行楷数据生成器图像显示 AlexNet模型构建 AlexNet模型编译与拟合注意: GitHub下载地址: 前文一.Windows系统下安装Tensorf ...
Tesseract OCR图片提取中文并转换为Excel的示例（附Python代码）
1.背景描述: 日常工作会遇到这样的问题,工作群中收到以截图方式转发的表格或文字信息,需要将其中大量的数据.文字等信息从图片中摘取下来,并以Excel表格的方式进行存储和统计处理. 2.流程简述: 识 ...
Tesseract OCR+Tess4j实现图片中英文识别
文章目录 Tesseract 简介环境搭建下载语言库 tess4j 依赖 demo Tesseract 简介 Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经 ...
中文字体识别——隶属和行楷
导入所需要的包 (略) 解压加载进来的数据集 !unzip -qo data/data115112/ChineseStyle.zip -d data label = paddle.to_tensor( ...
基于Tesseract训练的数字识别研究
征地档案数字识别研究与应用 1 永州市自然资源与规划勘测事务中心湖南永州425000 摘要:针对征地档案数据整理建库工作中界址点坐标电子数据缺失现象,当前主要通过人工识别档案资料并且将坐标数据抄录 ...
Tesseract OCR手写数字的样本训练
Tesseract OCR样本训练除需要安装Tesseract OCR软件外,还需要下载Tesseract OCR样本训练工具jTessBoxEditorFX,下载地址: http://dl.pcon ...

【Tesseract-OCR】Tesseract训练中文字体识别

【Tesseract-OCR】Tesseract训练中文字体识别相关推荐

最新文章

热门文章