【Tesseract-OCR】Tesseract训练中文字体识别
字体训练
我准备了一份含汉语7000字和大小写英文字母和数字的文档.如果你需要训练所有中文的话,请将所有docx文件内所有字改成你要训练的字体。然后转化成tif格式的图片。先转PDF,再用工具转tif各式。
步骤(转自tesseract的github)
1、Prepare training text.
准备你的训练文本
2、Render text to image + box file. (Or create hand-made box files for existing image data.)
将文本转为image+box文件.(如果你已经有image文件的话,只需要手动生成box文件)
3、Make unicharset file.
生成unicharset文件
4、Optionally make dictionary data.
有选择性的生成字典数据
5、Run tesseract to process image + box file to make training data set.
运行tesseract来处理之前的image+box文件生成一个训练数据集合
6、Run training on training data set.
在训练数据集合的基础上进行训练
7、Combine data files.
合并数据文件
如果是其他图片格式,将其转为tif格式。附上一个在线地址
http://cn.office-converter.com/Convert-to-TIF
使用之前安装jTessBoxEditor工具将多张图片合并为一张(菜单栏 Tools → Merge TIFF)。并按照格式 [lang].[fontname].exp[num] 重命名合并后的文件,这里我命名为 chi.fangzheng.exp0.tif。
PDF转jpg地址:
http://www.pdfdo.com/pdf-to-image.aspx
http://app.xunjiepdf.com/pdf2jpg
jpg再转tif
参考链接:http://www.jianshu.com/p/31afd7fc5813
http://www.cnblogs.com/samlin/p/Tesseract-OCR.html
批处理程序rem.bat:
echo Run Tesseract for Training..
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train echo Compute the Character Set..
unicharset_extractor.exe num.font.exp0.box
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr echo Clustering..
cntraining.exe num.font.exp0.tr echo Rename Files..
rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable echo Create Tessdata..
combine_tessdata.exe num.
【Tesseract-OCR】Tesseract训练中文字体识别相关推荐
- Tesseract训练中文字体识别(转)
原文地址:http://www.jianshu.com/p/31afd7fc5813 前言 网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大 ...
- java tessdata训练_Tesseract训练中文字体识别
注:目前仅说明windows下的情况 前言 网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大部分只是就英文的训练进行探索,很少针对中文的训练 ...
- 卷积神经网络案例:中文字体识别——隶书和行楷
一.AlexNet网络结构 1.1 AlexNet介绍: ImageNet竞赛冠军获得者Hinton和他的学生Krizhevsky Alex于2012年设计. ImageNet竞赛中第一个使用卷积神经 ...
- 六、AlexNet实现中文字体识别——隶书和行楷
文章目录 前文 中文字体识别--隶书和行楷 数据生成器 图像显示 AlexNet模型构建 AlexNet模型编译与拟合 注意: GitHub下载地址: 前文 一.Windows系统下安装Tensorf ...
- Tesseract OCR图片提取中文并转换为Excel的示例(附Python代码)
1.背景描述: 日常工作会遇到这样的问题,工作群中收到以截图方式转发的表格或文字信息,需要将其中大量的数据.文字等信息从图片中摘取下来,并以Excel表格的方式进行存储和统计处理. 2.流程简述: 识 ...
- Tesseract OCR+Tess4j实现图片中英文识别
文章目录 Tesseract 简介 环境搭建 下载语言库 tess4j 依赖 demo Tesseract 简介 Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经 ...
- 中文字体识别——隶属和行楷
导入所需要的包 (略) 解压加载进来的数据集 !unzip -qo data/data115112/ChineseStyle.zip -d data label = paddle.to_tensor( ...
- 基于Tesseract训练的数字识别研究
征地档案数字识别研究与应用 1 永州市自然资源与规划勘测事务中心 湖南 永州425000 摘要:针对征地档案数据整理建库工作中界址点坐标电子数据缺失现象,当前主要通过人工识别档案资料并且将坐标数据抄录 ...
- Tesseract OCR手写数字的样本训练
Tesseract OCR样本训练除需要安装Tesseract OCR软件外,还需要下载Tesseract OCR样本训练工具jTessBoxEditorFX,下载地址: http://dl.pcon ...
最新文章
- 新的C库Bionic的介绍
- python 使用文本注解绘制树节点_实用篇 | 34 个最火的 Python 开源框架
- SAP CRM Collection wrapper的publish_current用法
- 936焊台(恒温电烙铁)温度不可调的维修 (Z)
- map的专项知识点总结
- python3 isalnum
- FME数据转换教程——MapGIS .WL/WP 转ArcGIS .Shp
- 刚买的win8.1电脑 求常用的软件推荐?
- 计算机一级大学生一定要考吗,关于大学大学生要考计算机一级吗
- SpringBoot31 整合SpringJDBC、整合MyBatis、利用AOP实现多数据源
- DarkComet RAT简介
- 用Wireshark+小度WIFI抓手机app包
- Nicholas C. Zakas:最佳职业生涯建议
- Metasploitable2虚拟机镜像下载地址
- 速度最快的数据库---MEMSQL的安装与部署
- MAC 删除自带 ABC 输入法的方法
- OpenGL深入探索——像素缓冲区对象 (PBO)
- 鸿蒙之境全关卡,神都夜行录鸿蒙之境攻略
- Redisson实现分布式锁(3)—项目落地实现
- oracle clob表怎么查询,oracle clob类型字段查询方法
热门文章
- HTML的audio与video
- vue接入腾讯位置服务(二)【标注定位实战】
- web前端文件整理分类,环境软件配置
- 基于 74LS164 的 LED 温度显示 设计
- LBS定位技术之GPS(一)
- 北工大计算机学院博导,北工大计算机学院计算机科学与技术导师介绍:李玉鉴...
- 51单片机:proteus仿真1602LCD的显示
- Jasperreports+jaspersoft studio+springboot 制作报表
- java正则匹配括号_java正则表达式方括号匹配的认识
- 三维图像处理_医学图像处理案例(六)——生成血管三维模型