tesseract的安装使用及配置问题解决
tesseract的安装使用及配置问题解决
- 一、安装tesseract
- 二、配置环境变量
- 三、cmd方式中出现的问题及解决方法
- 四、 pycharm方式中出现的问题及解决办法
- 五、验证结果
一、安装tesseract
- 1 OCR,即Optical Character Recognition:光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。
- 2 tesseract下载地址:
https://digi.bib.uni-mannheim.de/tesseract/
- 3 如下图所示,将下载之后的.exe文件进行安装。.
- 4 在安装的过程中,安装的路径一般是:
C:\Program Files (x86)\Tesseract-OCR,可以不用修改。 - 5 然后一直点击next,直到下面下面这张图。此时可以勾选**Additional language data(download)**选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言,比如可以选择math,英文,中文等。然后一路点击Next按钮即可。
二、配置环境变量
1 为了在全局使用方便,比如安装路径为:
C:\Program Files (x86)\Tesseract-OCR,将该路径添加到环境变量的path中。2 路径:高级系统设置——>环境变量——>系统变量中path路径——>将C:\Program Files (x86)\Tesseract-OCR添加进去。
3 配置完成后在cmd中输入tesseract -v,如果出现如下图所示,说明环境变量配置成功。
三、cmd方式中出现的问题及解决方法
- 1 下面,将在cmd中使用tesseract来进行文字的识别。
- 2 从网上随便找了一张英语图片,如下图所示。
- 3 将该图片命名为image1.jpg,然后放在G盘里面。然后使用cmd先到G盘,然后使用tesseract命令进行测试。
tesseract image1.jpg result
这里我们调用了tesseract命令,其中第一个参数为图片名称,第二个参数result 为结果保存的目标文件名称。
- 4 输入上述代码回车后,出现了以下的报错提示。
Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
- 5 报错是意思是缺少环境变量TESSDATA_PREFIX,导致无法加载任何语言,就不能初始化tesseract。解决的方法也很简单,在环境变量——>系统变量中添加TESSDATA_PREFIX,如下图:
注(地址复制时是右斜杠 “\”,但是需要改成 左斜杠"/" 符号,如下图划红线处)
- 6 配置完成后,重新打开cmd,即可正常使用。
- 7 验证结果:
如下图所示,使用cmd进行验证。
四、 pycharm方式中出现的问题及解决办法
- 1 为了在pycharm代码中使用tesseract功能,使用pip安装pytesseract:在pycharm中pip下面语句。
pip install pytesseract
- 2将图片放入pycharm所建的工程文件夹下
- 3 利用代码来测试,在pycharm中运行如下代码,这里就需要借助于pytesseract库了,测试代码如下:
from PIL import Image
import pytesseracttext = pytesseract.image_to_string(Image.open("image1.jpg"))
print(text)
首先利用Image读取了图片文件,然后调用了pytesseract的image_to_string()方法,再将其识别结果输出。
- 4 但是却出现了以下类似的错误。
Traceback (most recent call last):File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 170, in run_tesseractproc = subprocess.Popen(cmd_args, **subprocess_args())File "D:\Python36\lib\subprocess.py", line 709, in __init__restore_signals, start_new_session)File "D:\Python36\lib\subprocess.py", line 997, in _execute_childstartupinfo)
FileNotFoundError: [WinError 2] 系统找不到指定的文件。During handling of the above exception, another exception occurred:Traceback (most recent call last):File "D:/python/20180911.py", line 4, in <module>text = pytesseract.image_to_string(Image.open(r'D:\chromeDownload\image.png'))File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 294, in image_to_stringreturn run_and_get_output(*args)File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 202, in run_and_get_outputrun_tesseract(**kwargs)File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 172, in run_tesseractraise TesseractNotFoundError()
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
- 5 解决方法:
pytesseract安装后,在python的Lib目录下site-packges下会生成一个pytesseract文件夹,在文件夹中找到pytesseract.py,使用记事本之类软件打开pytesseract.py,找到如下:
tesseract_cmd = 'tesseract'
- 6 将tesseract_cmd = 'tesseract’修改为:
tesseract_cmd = ‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe’
(注意左斜杠和右斜杠)
表示tesseract_cmd配置的是你安装tesseract的绝对路径,这样就能找到tesseract了。修改后保存,再去运行python代码,就可以成功了。 - 7 验证结果:
五、验证结果
- 1,在验证的过程中,发现英文字母的识别率比较高,中文的会有些问题。
- 2,注意配置完成后,关机重启,或者关闭cmd重新打开试试。
- 3,每个人的电脑都或多或少的不一样,可能按照这种方式进行修改之后依旧不能运行。我在配置自己电脑的时候,也看了很多帖子,配置了好几遍,总是感觉很玄学,多多尝试。
tesseract的安装使用及配置问题解决相关推荐
- tesseract库安装与配置环境变量(识别字幕)
一.准备 1.首先,需要安装对应版本的tesseract-ocr应用 Windows的下载地址https://digi.bib.uni-mannheim.de/tesseract 在D盘建立文件夹Te ...
- linux上升级tesseract,linux 安装Tesseract-OCR
linux 安装Tesseract-OCR 准备工作: 一.编译环境: 1. gcc gcc-c++ make(这个环境一般机器都具备,可以忽略) yum install gcc gcc-c++ ma ...
- wamp2 php配置,wamp安装后自定义配置的方法
WampServer是目前应用非常广泛的PHP集成开发环境,本文就来讲述Wamp安装后自定义配置的方法.供大家参考借鉴.具体如下: wamp2.5安装完毕后,自己手动重新设置了apache的默认根目录 ...
- PCL安装和环境配置
目录 1. VS2017下载安装 2. PCL下载安装 3. 环境配置 附上链接库列表 4. 测试 5.问题解决 1. VS2017下载安装 微软官网下载链接:https://visualstudio ...
- tesseract的安装
目录 tesseract的安装 1.1下载tesseract 1.2安装tesseract 1.3配置环境变量 1.4测试 tesseract的安装 1.1下载tesseract 在https://d ...
- 浅谈Ubuntu 18.04.1 LTS x86_64安装,美化配置及常用软件安装配置的历程
浅谈Ubuntu 18.04.1 LTS x86_64安装,美化及常用软件安装配置的历程 这几天入坑Ubuntu,本着双系统来的却不小心把Windows玩崩了.期间各种问题各种坑,查阅了很多文章来解决 ...
- 超级账本Fabric 2.x 详细安装步骤及可能问题解决方式
超级账本Fabric 2.x 详细安装步骤及可能问题解决方式 使用系统版本:Ubuntu 18.04 提示1:任何命令错误都可以试试加sudo提升权限!!! 提示2:如果Ubuntu系统没有换源可以参 ...
- Windows 10安装Docker以及配置镜像加速
Windows 10安装Docker以及配置镜像加速 一 环境检查 1.1 检查是否开启虚拟化 1.2 开启Hyper-V服务 二 下载安装Docker 2.1 安装前配置安装目录 2.2 进入阿里云 ...
- win10安装MySQL步骤与问题解决方法
win10安装MySQL步骤与问题解决方法 1 官网下载:https://downloads.mysql.com/archives/community/ 选择下载版本 2解压(以mysql_5_7_3 ...
最新文章
- 404页面设计技巧性分享不容错过!
- Limesurvey-2.55 (Ubuntu 16.04)
- Java 的Comparator比较器用法
- html js坐标图,javascript – HTML5 Canvas沿着带坐标的路径拖动图像
- jenkins 插件目录_三十二张图告诉你如何用Jenkins构建SpringBoot
- 获取字段为List类型中的泛型类型
- 相机成像原理_【科研进展】动态虚拟相机:探索三维视觉成像新方法
- bootstrap 小点
- java中String类和StringBuffer类实例详解
- 计算机网络入门知乎,网络工程师论文发表范文简述计算机网络基础教学
- 好程序员Java教程分享使用HttpClient抓取页面内容
- Oracle 之 AIO (异步io)
- 高斯过程回归预测Matlab简单实现
- 【Dll调试】DLL调试方法
- 揭秘:全球第一张云安全国际认证金牌得主
- 有没有一款桌面便签软件,可以手机电脑都能使用的?
- MyCP.java蓝墨云班课
- java计算机毕业设计培训学校教学管理平台源码+程序+lw文档+mysql数据库
- Word字体的字号与像素对应关系
- 2008服务器怎么导入备份数据库文件,内江市审计局 *.dmp文件导入Sql Server 2008 R2的方法...