软件:
jTessBoxEditor Version 0.9 (30 April 2013)
Tesseract-OCR win32 v3.02 with Leptonica
训练步骤:
1.使用jTessBoxEditor,tools->merge_tif,产生tif文件
2.产生box文件
tesseract.exe eng.arial.01.tif eng.arial.01 batch.nochop makebox
3.使用jTessBoxEditor打开,Insert或Delete,添加删除字符,并通过xywh调整对应的坐票
4.训练(如果遇到不可识别的字符,couldn t find a matching blob,尝试换位置或调坐标)
tesseract.exe eng.arial.01.tif eng.arial.01 nobatch box.train
5.字体预处理
unicharset_extractor.exe eng.arial.01.box
6.创建font_properties.txt,内容为:arial 0 0 0 0 0
7.字体处理
mftraining.exe -F font_properties.txt -U unicharset eng.arial.01.tr
8.cntraining.exe eng.arial.01.tr
9.把unicharset, inttemp, normproto, pffmtable这四个文件加上前缀“eng.arial.01.”
10.combine_tessdata.exe eng.arial.01.
显示:
Combining tessdata files
TessdataManager combined tesseract data files.
Offset for type 0 is -1
Offset for type 1 is 108
Offset for type 2 is -1
Offset for type 3 is 1660
Offset for type 4 is 327545
Offset for type 5 is 327781
Offset for type 6 is -1
Offset for type 7 is -1
Offset for type 8 is -1
Offset for type 9 is -1
Offset for type 10 is -1
Offset for type 11 is -1
Offset for type 12 is –1
必须确定的是第2、4、5、6行的数据不是-1,那么一个新的字典就算生成了。
11.此时目录下“eng.arial.01.traineddata”的文件拷贝到tesseract程序目录下的“tessdata”目录
12.
#tesseract.exe test.jpg result -l eng.arial.01
#tesseract.exe a.bmp result2 -l eng.arial.01
指定布局识别方式
tesseract.exe 42.png result2 -l eng.arial.01 -psm 7
布局参数描述:
-psm N
Set Tesseract to only run a subset of layout analysis and assume a certain form of image. The options for N are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR.
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.

Tesseract-OCR 训练过程 V3.02相关推荐

  1. Tesseract OCR 训练字库

    Tesseract OCR是一款由HP实验室开发由Google维护的开源OCR引擎,在字符识别领域发挥着举足轻重的作用.除了使用软件自带的中英文识别库,我们可以使用Tesseract OCR训练属于自 ...

  2. 关于Tesseract OCR 中文训练识别小试(java调用Tess4j)

    2017.9.20日小结 最近接到是关于消防系统协议解析仪器的项目,目的是从协议解析仪器获取有效数据,并解析数据(目的是不希望消防主机的数据信息再传给主机厂商而是最后能给自己收集调用).由于各个消防器 ...

  3. OCR开源库Tesseract汉字识别训练

    用python OCR库pytesseract 写的一个OCR识别身份证程序:https://github.com/iChenwin/pytesseractID 先用中文做个示例: 拿到一张chi.p ...

  4. Tesseract OCR手写数字的样本训练

    Tesseract OCR样本训练除需要安装Tesseract OCR软件外,还需要下载Tesseract OCR样本训练工具jTessBoxEditorFX,下载地址: http://dl.pcon ...

  5. Tesseract OCR简介(三)--安装及参数使用

    参考:AI-Tesseract-OCR简介_花熊的博客-CSDN博客_tesseract坐标 一.windows 1.1 Tesseract安装 适用于Tesseract 3.05和Tesseract ...

  6. Tesseract OCR简介(一)

    简介 Tesseract(/'tesərækt/) 这个词的意思是"超立方体",指的是几何学里的四维标准方体,又称"正八胞体".右图是一个正八胞体绕着两个四维空 ...

  7. Tesseract OCR——Windows 10 + CMake-GUI + Visual Studio 2019下编译和使用解决方案

    基本概念 Tesseract OCR:Tesseract-OCR 引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一.然而,HP不久便决定放弃OCR业务 ...

  8. An Overview of the Tesseract OCR Engine译文

    An Overview of the Tesseract OCR Engine译文 Abstract Tesseract OCR引擎以及UNLV OCR精度第四次年度测试中的HP Research P ...

  9. Tesseract OCR 引擎概述

    原文: https://github.com/tesseract-ocr/docs/blob/master/tesseracticdar2007.pdf Ray Smith 摘要 Tesseract ...

最新文章

  1. java关于异常的面试程序题_java异常相关面试题
  2. mysql数据库优化课程---16、mysql慢查询和优化表空间
  3. TensorFlow学习笔记(一)--windows系统安装配置
  4. java Socket Tcp 浏览器和服务器(一)
  5. 有关缅甸语学习的一些网站
  6. jaxb int convert to integer
  7. pagefile.sys巨型文件在windows10下的尺寸调整
  8. 三包围结构的字是什么样的_一年级语文重点(字、字母、字词、词语、句子)知识点汇总!...
  9. 计算机视觉目标检测算法总结2——基于深度学习
  10. this.FileUpload1.PostedFile.File…
  11. 十分钟利用windows7漏洞破解开机密码
  12. Android Studio 单独启动安卓模拟器教程
  13. 海伯利安发布首个区块链红包RP
  14. bzoj 4987 Tree
  15. 海洋cms index.php被修改,海洋CMS(SEACMS)新版本V6.55补丁仍可被绕过执行任意代码...
  16. 银行资管智能化转型迫在眉睫 金融壹账通赋能两大核心能力
  17. 编码通信与魔术初步(一)——通信浅谈
  18. unpacking of archive failed: cpio: lstat failed - Not a directory
  19. 【使用java swing制作简易贪吃蛇游戏】软件实习项目二
  20. P1135 奇怪的电梯题解

热门文章

  1. WinForm中Combobox绑定值问题
  2. 关于使浏览器崩溃的代码尝试
  3. WMframework成长日记(一)——框架介绍
  4. SSAS : 使用.NET为SSAS编写自定义程序集
  5. OpenGL之glMatrixMode函数的用法
  6. 机器人雅可比矩阵的求法_构造法
  7. python-virtualenv虚拟环境的使用
  8. 石家庄地铁线路查询系统
  9. [ webpack4 ] 配置属于自己的打包系统教程(最终篇)—— 环境配置篇
  10. 然并卵:BF 科普 BF 解释器的 JS 实现