字体训练

我准备了一份含汉语7000字和大小写英文字母和数字的文档.如果你需要训练所有中文的话,请将所有docx文件内所有字改成你要训练的字体。然后转化成tif格式的图片。先转PDF,再用工具转tif各式。

步骤(转自tesseract的github)

1、Prepare training text.
准备你的训练文本

2、Render text to image + box file. (Or create hand-made box files for existing image data.)

将文本转为image+box文件.(如果你已经有image文件的话,只需要手动生成box文件)

3、Make unicharset file.
生成unicharset文件

4、Optionally make dictionary data.
有选择性的生成字典数据

5、Run tesseract to process image + box file to make training data set.
运行tesseract来处理之前的image+box文件生成一个训练数据集合

6、Run training on training data set.
在训练数据集合的基础上进行训练

7、Combine data files.
合并数据文件

如果是其他图片格式,将其转为tif格式。附上一个在线地址
http://cn.office-converter.com/Convert-to-TIF

使用之前安装jTessBoxEditor工具将多张图片合并为一张(菜单栏 Tools → Merge TIFF)。并按照格式 [lang].[fontname].exp[num] 重命名合并后的文件,这里我命名为 chi.fangzheng.exp0.tif。

PDF转jpg地址:
http://www.pdfdo.com/pdf-to-image.aspx

http://app.xunjiepdf.com/pdf2jpg

jpg再转tif

参考链接:http://www.jianshu.com/p/31afd7fc5813

http://www.cnblogs.com/samlin/p/Tesseract-OCR.html

批处理程序rem.bat:

echo Run Tesseract for Training..
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train  echo Compute the Character Set..
unicharset_extractor.exe num.font.exp0.box
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr  echo Clustering..
cntraining.exe num.font.exp0.tr  echo Rename Files..
rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable   echo Create Tessdata..
combine_tessdata.exe num.  

【Tesseract-OCR】Tesseract训练中文字体识别相关推荐

  1. Tesseract训练中文字体识别(转)

    原文地址:http://www.jianshu.com/p/31afd7fc5813 前言 网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大 ...

  2. java tessdata训练_Tesseract训练中文字体识别

    注:目前仅说明windows下的情况 前言 网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大部分只是就英文的训练进行探索,很少针对中文的训练 ...

  3. 卷积神经网络案例:中文字体识别——隶书和行楷

    一.AlexNet网络结构 1.1 AlexNet介绍: ImageNet竞赛冠军获得者Hinton和他的学生Krizhevsky Alex于2012年设计. ImageNet竞赛中第一个使用卷积神经 ...

  4. 六、AlexNet实现中文字体识别——隶书和行楷

    文章目录 前文 中文字体识别--隶书和行楷 数据生成器 图像显示 AlexNet模型构建 AlexNet模型编译与拟合 注意: GitHub下载地址: 前文 一.Windows系统下安装Tensorf ...

  5. Tesseract OCR图片提取中文并转换为Excel的示例(附Python代码)

    1.背景描述: 日常工作会遇到这样的问题,工作群中收到以截图方式转发的表格或文字信息,需要将其中大量的数据.文字等信息从图片中摘取下来,并以Excel表格的方式进行存储和统计处理. 2.流程简述: 识 ...

  6. Tesseract OCR+Tess4j实现图片中英文识别

    文章目录 Tesseract 简介 环境搭建 下载语言库 tess4j 依赖 demo Tesseract 简介 Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经 ...

  7. 中文字体识别——隶属和行楷

    导入所需要的包 (略) 解压加载进来的数据集 !unzip -qo data/data115112/ChineseStyle.zip -d data label = paddle.to_tensor( ...

  8. 基于Tesseract训练的数字识别研究

    征地档案数字识别研究与应用 1 永州市自然资源与规划勘测事务中心 湖南 永州425000 摘要:针对征地档案数据整理建库工作中界址点坐标电子数据缺失现象,当前主要通过人工识别档案资料并且将坐标数据抄录 ...

  9. Tesseract OCR手写数字的样本训练

    Tesseract OCR样本训练除需要安装Tesseract OCR软件外,还需要下载Tesseract OCR样本训练工具jTessBoxEditorFX,下载地址: http://dl.pcon ...

最新文章

  1. 新的C库Bionic的介绍
  2. python 使用文本注解绘制树节点_实用篇 | 34 个最火的 Python 开源框架
  3. SAP CRM Collection wrapper的publish_current用法
  4. 936焊台(恒温电烙铁)温度不可调的维修 (Z)
  5. map的专项知识点总结
  6. python3 isalnum
  7. FME数据转换教程——MapGIS .WL/WP 转ArcGIS .Shp
  8. 刚买的win8.1电脑 求常用的软件推荐?
  9. 计算机一级大学生一定要考吗,关于大学大学生要考计算机一级吗
  10. SpringBoot31 整合SpringJDBC、整合MyBatis、利用AOP实现多数据源
  11. DarkComet RAT简介
  12. 用Wireshark+小度WIFI抓手机app包
  13. Nicholas C. Zakas:最佳职业生涯建议
  14. Metasploitable2虚拟机镜像下载地址
  15. 速度最快的数据库---MEMSQL的安装与部署
  16. MAC 删除自带 ABC 输入法的方法
  17. OpenGL深入探索——像素缓冲区对象 (PBO)
  18. 鸿蒙之境全关卡,神都夜行录鸿蒙之境攻略
  19. Redisson实现分布式锁(3)—项目落地实现
  20. oracle clob表怎么查询,oracle clob类型字段查询方法

热门文章

  1. HTML的audio与video
  2. vue接入腾讯位置服务(二)【标注定位实战】
  3. web前端文件整理分类,环境软件配置
  4. 基于 74LS164 的 LED 温度显示 设计
  5. LBS定位技术之GPS(一)
  6. 北工大计算机学院博导,北工大计算机学院计算机科学与技术导师介绍:李玉鉴...
  7. 51单片机:proteus仿真1602LCD的显示
  8. Jasperreports+jaspersoft studio+springboot 制作报表
  9. java正则匹配括号_java正则表达式方括号匹配的认识
  10. 三维图像处理_医学图像处理案例(六)——生成血管三维模型