图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

简介：

tesseract-ocr可以对图像文字进行识别，为图文转换的工作时省去了大量时间。我们还可以通过不断的训练字库，使图像转换文本的能力不断增强，也可以调试模型使图像文字进行程序的识别率更高，

一.tesseract4.0的安装与配置环境变量：

1、安装包地址： http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

2、下载完之后，直接执行.exe文件进行安装，安装步骤：

（1）选择语言包：

除了默认已经打钩的，再钩上数字公式常用包和简体中文包。

（2）选择安装路径：（需要记住自己的安装路径，后面配置需要用到）

我的安装路径是：D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR

（3）目录结构：

（4）配置环境变量：

第一步：在环境变量界面的系统变量中找到Path，点击编辑，新建一个D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR（你的安装目录），然后确定。

第二步：在系统变量下面新建一个变量，然后确定。

变量名：TESSDATA_PREFIX

变量值：D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR\tessdata(安装目录下的tessdata文件夹)

（5）检验环境变量是否配置成功：打开cmd命令行，在任意路径，输入“tesseract”，出现下面信息则表示配置成功。

二、初步使用tesseract4.0进行简单的图片文字识别：

1、先准备一张图片素材（图片命名是wenzi.png），内容如下图：

2、打开cmd命令行，进入素材图片所在的目录，输入以下命令，就会生成一个test.txt文档，该文档的内容为图片识别后的文字：

tesseract wenzi.png test -l chi_sim+equ+eng

其中，wenzi.png是素材的名字，test是识别后生成的文档的名字，-l是指定使用包(注意：是小写英文字母l，不是阿拉伯数字1)，chi_sim是中文识别包，equ是数字公式包，eng是英文包。

识别后的test.txt的文字内容：

3、至此，使用tesseract4.0进行简单的文字识别就完成，虽然识别的成功不高，但是我们可以通过训练字库的方法提高tesseract的识别率，训练tesseract字库的方法在下篇博客再写。

图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别相关推荐

python深度文字识别_【OCR技术系列之四】基于深度学习的文字识别（3755个汉字）...
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...
android自动识别文字,Android文字识别tesseract ocr -训练样本库识别字库
目录安装tesseract ocr引擎和jTessBoxEditor 安装jTessBoxEditor 开始制作box 准备好训练的图片将图片转为tif格式的样本图片合并样本图片修改box文件 ...
Tesseract OCR简介(一)
简介 Tesseract(/'tesərækt/) 这个词的意思是"超立方体",指的是几何学里的四维标准方体,又称"正八胞体".右图是一个正八胞体绕着两个四维空 ...
安卓手机拍照识别车牌号OCR sdk
关键词:车牌识别车牌ocr识别新能源车牌识别安卓车牌识别 ios车牌识别车牌识别已经成为每个城市的车辆管理重点工作之一,有效.准确.及时的车牌识别可以方便警务人员的交通执法.停车场车辆管理等工 ...
用Tesseract OCR识别图片文字
用tesseract ocr识别图片中的文字准备 OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以 ...
Android百度文字识别bitmap,Android集成Tesseract OCR实现图片文字识别
最近项目需要做图片上的文字识别,在网上找了很久,这方面的知识挺多的,但是很杂.将最近学习到的东西整理一下,仅供参考. 1.Tesseract OCR 介绍我就不说了,自行百度,或者访问:https:/ ...
python图像识别系统_Python图像处理之图片文字识别功能（OCR)
OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...
python文字识别时、当文字不清晰时怎么处理_Python图像处理之图片文字识别功能（OCR)...
OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...
Tesseract Ocr文字识别实战（新版本，扩展手写文字识别）
目录 1.Tesseract Ocr文字识别 1.1 运行环境 1.2 python模块 1.3 配置tesseract运行文件 1.4 代码识别 2. 手写汉字识别 2.1 下载库 2.2 代码 1 ...

图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别相关推荐

最新文章

热门文章