tesseract的安装使用及配置问题解决

  • 一、安装tesseract
  • 二、配置环境变量
  • 三、cmd方式中出现的问题及解决方法
  • 四、 pycharm方式中出现的问题及解决办法
  • 五、验证结果

一、安装tesseract

  • 1 OCR,即Optical Character Recognition:光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。
  • 2 tesseract下载地址
https://digi.bib.uni-mannheim.de/tesseract/
  • 3 如下图所示,将下载之后的.exe文件进行安装。.
  • 4 在安装的过程中,安装的路径一般是:
    C:\Program Files (x86)\Tesseract-OCR,可以不用修改。
  • 5 然后一直点击next,直到下面下面这张图。此时可以勾选**Additional language data(download)**选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言,比如可以选择math,英文,中文等。然后一路点击Next按钮即可。

二、配置环境变量

  • 1 为了在全局使用方便,比如安装路径为:
    C:\Program Files (x86)\Tesseract-OCR,将该路径添加到环境变量的path中。

  • 2 路径:高级系统设置——>环境变量——>系统变量中path路径——>将C:\Program Files (x86)\Tesseract-OCR添加进去。



  • 3 配置完成后在cmd中输入tesseract -v,如果出现如下图所示,说明环境变量配置成功。

三、cmd方式中出现的问题及解决方法

  • 1 下面,将在cmd中使用tesseract来进行文字的识别。
  • 2 从网上随便找了一张英语图片,如下图所示。
  • 3 将该图片命名为image1.jpg,然后放在G盘里面。然后使用cmd先到G盘,然后使用tesseract命令进行测试。
tesseract image1.jpg result

这里我们调用了tesseract命令,其中第一个参数为图片名称,第二个参数result 为结果保存的目标文件名称。

  • 4 输入上述代码回车后,出现了以下的报错提示。
Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
  • 5 报错是意思是缺少环境变量TESSDATA_PREFIX,导致无法加载任何语言,就不能初始化tesseract。解决的方法也很简单,在环境变量——>系统变量中添加TESSDATA_PREFIX,如下图:
    注(地址复制时是右斜杠 “\”,但是需要改成 左斜杠"/" 符号,如下图划红线处)
  • 6 配置完成后,重新打开cmd,即可正常使用。
  • 7 验证结果:
    如下图所示,使用cmd进行验证。

四、 pycharm方式中出现的问题及解决办法

  • 1 为了在pycharm代码中使用tesseract功能,使用pip安装pytesseract:在pycharm中pip下面语句。
pip install pytesseract
  • 2将图片放入pycharm所建的工程文件夹下
  • 3 利用代码来测试,在pycharm中运行如下代码,这里就需要借助于pytesseract库了,测试代码如下:
from PIL import Image
import pytesseracttext = pytesseract.image_to_string(Image.open("image1.jpg"))
print(text)

首先利用Image读取了图片文件,然后调用了pytesseract的image_to_string()方法,再将其识别结果输出。

  • 4 但是却出现了以下类似的错误。
Traceback (most recent call last):File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 170, in run_tesseractproc = subprocess.Popen(cmd_args, **subprocess_args())File "D:\Python36\lib\subprocess.py", line 709, in __init__restore_signals, start_new_session)File "D:\Python36\lib\subprocess.py", line 997, in _execute_childstartupinfo)
FileNotFoundError: [WinError 2] 系统找不到指定的文件。During handling of the above exception, another exception occurred:Traceback (most recent call last):File "D:/python/20180911.py", line 4, in <module>text = pytesseract.image_to_string(Image.open(r'D:\chromeDownload\image.png'))File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 294, in image_to_stringreturn run_and_get_output(*args)File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 202, in run_and_get_outputrun_tesseract(**kwargs)File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 172, in run_tesseractraise TesseractNotFoundError()
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
  • 5 解决方法:
    pytesseract安装后,在python的Lib目录下site-packges下会生成一个pytesseract文件夹,在文件夹中找到pytesseract.py,使用记事本之类软件打开pytesseract.py,找到如下:
tesseract_cmd = 'tesseract'
  • 6 将tesseract_cmd = 'tesseract’修改为:
    tesseract_cmd = ‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe’
    (注意左斜杠和右斜杠)

    表示tesseract_cmd配置的是你安装tesseract的绝对路径,这样就能找到tesseract了。修改后保存,再去运行python代码,就可以成功了。
  • 7 验证结果:

五、验证结果

  • 1,在验证的过程中,发现英文字母的识别率比较高,中文的会有些问题。
  • 2,注意配置完成后,关机重启,或者关闭cmd重新打开试试。
  • 3,每个人的电脑都或多或少的不一样,可能按照这种方式进行修改之后依旧不能运行。我在配置自己电脑的时候,也看了很多帖子,配置了好几遍,总是感觉很玄学,多多尝试。

tesseract的安装使用及配置问题解决相关推荐

  1. tesseract库安装与配置环境变量(识别字幕)

    一.准备 1.首先,需要安装对应版本的tesseract-ocr应用 Windows的下载地址https://digi.bib.uni-mannheim.de/tesseract 在D盘建立文件夹Te ...

  2. linux上升级tesseract,linux 安装Tesseract-OCR

    linux 安装Tesseract-OCR 准备工作: 一.编译环境: 1. gcc gcc-c++ make(这个环境一般机器都具备,可以忽略) yum install gcc gcc-c++ ma ...

  3. wamp2 php配置,wamp安装后自定义配置的方法

    WampServer是目前应用非常广泛的PHP集成开发环境,本文就来讲述Wamp安装后自定义配置的方法.供大家参考借鉴.具体如下: wamp2.5安装完毕后,自己手动重新设置了apache的默认根目录 ...

  4. PCL安装和环境配置

    目录 1. VS2017下载安装 2. PCL下载安装 3. 环境配置 附上链接库列表 4. 测试 5.问题解决 1. VS2017下载安装 微软官网下载链接:https://visualstudio ...

  5. tesseract的安装

    目录 tesseract的安装 1.1下载tesseract 1.2安装tesseract 1.3配置环境变量 1.4测试 tesseract的安装 1.1下载tesseract 在https://d ...

  6. 浅谈Ubuntu 18.04.1 LTS x86_64安装,美化配置及常用软件安装配置的历程

    浅谈Ubuntu 18.04.1 LTS x86_64安装,美化及常用软件安装配置的历程 这几天入坑Ubuntu,本着双系统来的却不小心把Windows玩崩了.期间各种问题各种坑,查阅了很多文章来解决 ...

  7. 超级账本Fabric 2.x 详细安装步骤及可能问题解决方式

    超级账本Fabric 2.x 详细安装步骤及可能问题解决方式 使用系统版本:Ubuntu 18.04 提示1:任何命令错误都可以试试加sudo提升权限!!! 提示2:如果Ubuntu系统没有换源可以参 ...

  8. Windows 10安装Docker以及配置镜像加速

    Windows 10安装Docker以及配置镜像加速 一 环境检查 1.1 检查是否开启虚拟化 1.2 开启Hyper-V服务 二 下载安装Docker 2.1 安装前配置安装目录 2.2 进入阿里云 ...

  9. win10安装MySQL步骤与问题解决方法

    win10安装MySQL步骤与问题解决方法 1 官网下载:https://downloads.mysql.com/archives/community/ 选择下载版本 2解压(以mysql_5_7_3 ...

最新文章

  1. 404页面设计技巧性分享不容错过!
  2. Limesurvey-2.55 (Ubuntu 16.04)
  3. Java 的Comparator比较器用法
  4. html js坐标图,javascript – HTML5 Canvas沿着带坐标的路径拖动图像
  5. jenkins 插件目录_三十二张图告诉你如何用Jenkins构建SpringBoot
  6. 获取字段为List类型中的泛型类型
  7. 相机成像原理_【科研进展】动态虚拟相机:探索三维视觉成像新方法
  8. bootstrap 小点
  9. java中String类和StringBuffer类实例详解
  10. 计算机网络入门知乎,网络工程师论文发表范文简述计算机网络基础教学
  11. 好程序员Java教程分享使用HttpClient抓取页面内容
  12. Oracle 之 AIO (异步io)
  13. 高斯过程回归预测Matlab简单实现
  14. 【Dll调试】DLL调试方法
  15. 揭秘:全球第一张云安全国际认证金牌得主
  16. 有没有一款桌面便签软件,可以手机电脑都能使用的?
  17. MyCP.java蓝墨云班课
  18. java计算机毕业设计培训学校教学管理平台源码+程序+lw文档+mysql数据库
  19. Word字体的字号与像素对应关系
  20. 2008服务器怎么导入备份数据库文件,内江市审计局 *.dmp文件导入Sql Server 2008 R2的方法...

热门文章

  1. IDEA连接数据库,以及报错问题
  2. SQL Server 常见数据类型
  3. 美通社日历 | 会展信息、企业财报发布,节假日备忘(2月15日—2月21日)
  4. Vue3商店后台管理系统设计文稿篇(五)
  5. path/filepath 基本使用
  6. 如何通过对广告条的优化,提升广告条的点击率
  7. 如何将IDEA开发的java web项目移植到腾讯云服务器
  8. linux vim 复制一个单词,Vim复制粘贴与寄存器
  9. Android工具类— 分享到QQ(QQ空间)、微信(朋友圈)
  10. 【相似度计算】详解文本相似度计算(介绍、公式)