• 安装使用:

Tesseract下载地址

https://code.google.com/p/tesseract-ocr/

目前最新版本为3.02

windows版下载解压后,使用命令行,进入解压后目录运行

命令格式:

Usage:tesseract.exe imagename outputbase [-l lang] [-psm pagesegmode]
e...]pagesegmode values are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
-l lang and/or -psm pagesegmode must occur before anyconfigfile.Single options:-v --version: version info--list-langs: list available languages for tesseract engine

命令举例:

F:\Tesseract-OCR>tesseract.exe 2013-09-05_154628.jpg eng -l eng -psm 6

相关命令列表:

功能 命令
  ambiguous_words.exe
  classifier_tester.exe
  cntraining.exe
整合训练文件 combine_tessdata.exe
  dawg2wordlist.exe
  mftraining.exe
  shapeclustering.exe
识别程序 tesseract.exe
  unicharset_extractor.exe
  wordlist2dawg.exe
  • 字库训练

需要的字库文件参考代码:

tesseract-ocr\ccutil\tessdatamanager.h

对字库相关的配置文件的格式要求:

ASCII or UTF-8 encoding without BOM

Unix end-of-line marker ('\n')

The last character must be an end of line marker ('\n'). Some text editors will show this as an empty line at the end of file. If you omit this you will got error message containing "last_char == '\n':Error:Assert failed..."

步骤:

1.生成训练图片

几个原则:

保证每个字符出现的频率一般10次,常用字20次,不常用字5次;

不能把特殊字符都放在一起,应该用更加接近实际使用的组合;

非常重要:在字符和行之间保持一定的间隔,否则可能导致失败。(可能在3.0之后的版本修复)

训练的数据需要以font分组,相同font的文字需要放在同一个tiff文件中,(支持多页page)

除非字体太小(高度小于15px),没有必要做不同尺寸的训练;

绝对不可以在同一个image文件中混杂多种字体

(可以参考下载页中的boxtiff文件样例)

Next print and scan (or use some electronic rendering method) to create an image of your training page. Upto 32 training files can be used (of multiple pages). It is best to create a mix of fonts and styles (but in separate files), including italic and bold.

生成tiff文件

2.制作box文件

生成box文件命令:

tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox

例:

tesseract eng.timesitalic.exp0.tif eng.timesitalic.exp0 batch.nochop makebox

3.得到一个新的字符集

  • 其他

参考文档:

解压后doc目录中有API说明

--end--

转载于:https://www.cnblogs.com/rakuhin/p/3303720.html

Tesseract 3.02 OCR文字识别调查记录相关推荐

  1. Windows下使用Tesseract进行OCR文字识别

    Windows下使用Tesseract进行OCR文字识别 Tesseract最初由惠普实验室支持,用于电子版文字识别,1996年被移植到Windows上,1998年进行了C++化,在2005年Tess ...

  2. Tesseract Ocr文字识别实战(新版本,扩展手写文字识别)

    目录 1.Tesseract Ocr文字识别 1.1 运行环境 1.2 python模块 1.3 配置tesseract运行文件 1.4 代码识别 2. 手写汉字识别 2.1 下载库 2.2 代码 1 ...

  3. OCR文字识别笔记总结

    OCR的全称是Optical Character Recognition,光学字符识别技术.目前应用于各个领域方向,甚至这些应用就在我们的身边,比如身份证的识别,交通路牌的识别,车牌的自动识别等等.本 ...

  4. opencv学习笔记五--文件扫描+OCR文字识别

    opencv学习笔记五--文件扫描+OCR文字识别 文件扫描 定义函数 边缘检测 获取轮廓 变换 OCR文字识别 环境配置 代码 文件扫描 # 导入工具包 import numpy as np imp ...

  5. 通用印刷体文字识别_五个超级实用的OCR文字识别小程序,完全免费、值得收藏!...

    平常大家做ppt时可能经常会遇到一些无法复制的文字(图片中的文字)或者看书时遇到一些不错的句子想要保存下来,这时,你就需要一个OCR文字识别工具帮你快速提取文字,而这些文字识别工具现在有很多,有付费的 ...

  6. GitHub开源:支持100多种语言的OCR文字识别

    之前为给位朋友分享过:GitHub开源:17M超轻量级中文OCR模型.支持NCNN推理,该项目仅仅支持中文OCR识别,本篇博文将分享支持100多种语言的OCR文字识别项目:Tesseract OCR. ...

  7. ocr文字识别技术有什么意义

    OCR(Optical Character Recognition,光学字符识别)是一种将印刷体或手写字转换成电子文本的技术.OCR文字识别技术有以下意义: 提高工作效率:OCR文字识别技术可以将印刷 ...

  8. 如何精准实现OCR文字识别?

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由云计算基础发表于云+社区专栏 前言 2018年3月27日腾讯云云+社区联合腾讯云智能图像团队共同在客户群举办了腾讯云OCR文字识别-- ...

  9. 完全免费的OCR文字识别软件

    今天我要分享给大家的是两款完全免费的OCR文字识别软件,而且这两款软件都是本地版无需联网就能使用,而且没有使用次数的限制. 软件准备好了: 链接: 百度网盘 请输入提取码 提取码: 6666 01软件 ...

最新文章

  1. Refresh your Java skills–面对Java学习过程中的一些迷茫
  2. MoeCTF 2021Re部分------time2go
  3. ❤️拿到offer的成长之路与经验感悟分享❤️
  4. jQuery的ajax提交表单
  5. db2 mysql oracle,五大主流数据库比较 DB2 Oracle MySQL SyBase SQLServer)
  6. mysql int类型为null_MySQL INT类型可以为非零NULL吗?
  7. 如何拥有一个有意义的人生
  8. 3h精通OpenCV(六)-图像堆叠
  9. 【Git/Github学习笔记】Git常用命令(版本回退)
  10. 三、第四节 创建https服务
  11. 使用layer 弹出对话框 子父页面相互参数传递 父页面获取子页面参数实例
  12. mysql中dint,请教一下Dint和Real型变量在使用过程中出现的问题
  13. 玩游戏计算机虚拟内存怎么设置,多少虚拟内存设置适合玩游戏(多少虚拟内存设置适合)...
  14. ctf逆向解题——re1
  15. Swift代码库之中文简体与繁体转换
  16. linux文件读写 c语言,Linux 下 C语言大文件读写(大于4G)
  17. 华三HCL免费下载体验
  18. mac 和 windows excel 格内换行
  19. VMware的更新怎么这么恶心
  20. 中国第三代半导体行业运行现状及十四五规划研究分析报告2022-2028年版

热门文章

  1. QT 5.9.8在ubuntu16.04下安装配置
  2. QT各种版本第三方下载地址
  3. 【VS Code】更改默认的单击打开文档模式
  4. [YTU]_2570 指针练习——变量交换
  5. React Hook基本使用踩坑指南
  6. 深层神经网络中的前向传播
  7. 第一篇T语言实例开发(版本5.3),带错误检测的加减乘除运算器
  8. 2019-05-23 IRIS嗅探器;用IRIS嗅探数据;
  9. js如何通过变量调用函数,函数名在变量里面
  10. 老王学java之This()的用法