Tesseract介绍和Python的搭配使用

  • 一、Tesseract介绍、下载指南
    • 1、了解Tesseract工具
    • 2、下载地址
    • 3、请注意!!!
  • 二 、环境搭建
    • 2.1 版本3.05安装
    • 2.2 最新版本安装
    • 2.3 环境搭建
    • 2.4 举个栗子
  • 三、Python中的环境搭建
    • 3.1 安装pytesseract
    • 3.2 修改配置文件
    • 3.3 在python中验证
  • 四、持续学习

今天之所以写这篇文章,算是对pyautogui工具使用的补充,pyautogui只能通过图片像素来判断图片是否存在,如果我们想要自动化的识别图片并将它转换为文字呢?我们应该怎么做?此时tesseract可以帮助我们解决这个问题。下面我就来介绍它的环境搭建和安装方式。

一、Tesseract介绍、下载指南

1、了解Tesseract工具

Tesseract是一个 由HP实验室开发 由Google维护的开源的光学字符识别(OCR)引擎,可以在 Apache 2.0 许可下获得。它可以直接使用,或者(对于程序员)使用 API​​ 从图像中提取输入,包括手写的或打印的文本。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练语言,提高图像转换文本的能力。

2、下载地址

tesseract官方下载地址
tesseract语言包下载
注意在语言包下载语言包时页面会崩溃,大家想用中文包的,可以进入我下面的网盘链接,想要下载其他语言包的同学,建议将链接复制到迅雷进行下载,下载速度还挺快的。

3、请注意!!!

为了更好的体验,建议下载稳定版,即如下版本,
64位电脑下载:

32位电脑下载:

由于官方的网站速度比较慢,在此贴上我的百度网盘链接,包含中文语言包、tesseract软件、jTessBoxEditor训练软件以及使用该软件的教程指导(jdk包)。链接如下:
百度网盘提取码:rhp6

二 、环境搭建

好了,相信聪明的你们已经下载好了吧,下面我们开始进行安装了。

2.1 版本3.05安装

3.05版本:这个注意不要勾选Additional language,勾选了无法下载会报错,建议在官网找语言包链接,通过迅雷下载。后面都是无脑操作,选择好路径就行。

2.2 最新版本安装

最新版5.2.0版本:这个多了个组件,里面可以勾选你想要的组件(建议下载),在这里都选择中文

Additional script勾选中文包如下:

安装,这时会下载组件,就是速度很慢。

Additional language:在这里我选择不勾选,下的很慢。语言包也可以到网站获取链接通过迅雷下载。

2.3 环境搭建

接下来我们开始进行环境变量配置①在path中添加你的安装路径:D:\Program Files\Tesseract-OCR
②:变量名:TESSDATA_PREFIX,变量值:D:\Program Files\Tesseract-OCR\tessdata,这两个路径都需要配置到环境变量里面去。如下:


分别保存,打开cmd验证,输入tesseract -v验证,出现如下说明你配置好了

语言包配置:将下载好的语言包放入:D:\Program Files\Tesseract-OCR\tessdata

验证方式,在cmd输入tesseract --list-langs 运行如下说明成功:

到这里基本上配置好了。

2.4 举个栗子

在cmd中输入:**tesseract/? 可以查看帮助,在这里我们使用命令来进行简单的图片识别并提取文字: tesseract imagename outputbase [options…] [configfile…]
即:tesseract 输入文件名 输出文件 配置选项

在这里我们使用如图的图片eng.PNG来验证:
进入图片的路径,在路径栏输入cmd, 或者自己先进入cmd慢慢cd过去;输入命令:
tesseract eng.PNG eng -l eng,其中(eng是语言,可以换成其他语言)回车后在路径会生成一个txt文件,打开显示:
“There are two reasons why
people don’t talk about things;
either it doesn’t mean anything
to them, or it means everything.”


到这里则所有验证通过,恭喜你一次性到位,安装成功!

三、Python中的环境搭建

3.1 安装pytesseract

由于这个软件可以和python结合起来使用,因此这里我们需要在cmd中安装包:

①python版本:3.7.9
②这里我用的是pycharm工作台,不会安装的自己百度
③安装命令:pip install pytesseract

3.2 修改配置文件

进入python安装包的路径:D:\Program Files\Python37\Lib\site-packages\pytesseract
编辑文件:pytesseract.py
修改tesseract_cmd = ‘D:\Program Files\Tesseract-OCR/tesseract.exe’,修改后在python中运行就不会报错了。

3.3 在python中验证

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @time     :2022/8/28 12:11
# @Author   :root
# @FileName :example
import pytesseractimg_path = "../chi.PNG"
result = pytesseract.image_to_string(image=img_path,lang="chi_sim",config="--psm 1")   #路径;语言;配置
print(result)

识别的图片为:
识别效果,对于汉字还是有点问题,但是对于英文识别度很高,所以我们对于识别度不高的可以自己训练,哈哈哈。

tesseract 的 安 英 使 用 及 配 置 问 题 解 火
一 、 安 装 tesseract
二 、 配 置 环 境 变 量 “
三 、cmd “ 方 式 中 出 现 的 问 题 及 解 决 方 法
四 、 pycharm 方 式 中 出 现 的 闰 题 及 解 决 办 法
五 、 验 证 结 果

四、持续学习

今天的分享就到这里了,我后面还会分享opencv处理图片的学习。后面我也会讲tesseract在python中的基本用法,如何生成自己的验证码、二值化,模糊处理,有兴趣的同学们点个赞吧!!!

图片识别工具Tesseract介绍和python搭配使用相关推荐

  1. 图片识别工具怎么用?这几个识别图片方法你要知道

    图片识别工具在现代社会中发挥着越来越重要的作用.在日常生活中,我们常常需要将纸质文件或图片转换为电子文件,以方便传输和处理.那么,小伙伴们知道图片识别工具怎么用吗?如果你还不是特别清楚的话,相信看完这 ...

  2. python图片识别验证码软件_基于python图片识别工具(图片识别,车牌,PDF,验证码)...

    先上图  不多说. 对于一般的用户来说识别率还是能达到百分之90以上. 已经打包成exe文件.windows用户可以直接使用.要软件的加我QQ python代码: # -*- coding: UTF- ...

  3. Python批量图片识别并翻译——我用python给女朋友翻译化妆品标签

    周末福利:文末赠书活动 最近小编遇到一个生存问题,女朋友让我给她翻译英文化妆品标签.美其名曰:"程序猿每天英语开发,英文一定很好吧,来帮我翻译翻译化妆品成分","来,帮我 ...

  4. Python的一个图片识别工具-PyTesseract(Win10)

    PyTesseract是Python的一个第三方库,可以识别图片中文字. 前提 已经安装了Python.我安装的Python版本是3.10.4. 已经安装了tesseract-ocr,安装目录为&qu ...

  5. python图片识别之tesseract

    经过两个下午的尝试,终于搞出来了:特记录下来备忘: 首先来看python代码识别图片,这一段较为简单: from PIL import Image # import tesserocr # 完全可以不 ...

  6. linux系统下的ocr软件,【工具类】Linux安装OCR识别工具tesseract

    1 安装依赖 yum install -y libpng-devel libjpeg-devel libtiff-devel 2 安装leptonica tar -xzvf leptonica-1.7 ...

  7. 几个比较好的微信图文编辑器和二维码图片生成工具网站介绍给你!

    小小我收藏了一些非常实用但是排名不是太靠前的网站,不过毕竟好东西不能独享,这次小小就把这些多年珍藏的"宝贝"公之于众,大家以后用到的时候别忘了小小哦(*^ワ^*) 一·让你的微信公 ...

  8. python图片分类管理系统_图片分类工具MyQcloudImage免费版下载(图片管理系统) V1.0 绿色版_数码资源网...

    需要智能人脸识别图片管理软件?MyQcloudImage免费版肯定是您需要的哦!图片分类工具这里有最新的最强大的图片数据分类和图片识别功能可以了解哦!MyQcloudImage免费版最好用的图片管理系 ...

  9. Jmeter验证码图片识别注册接口压力测试实战

    写在前面 前段时间写了一篇博文<Jmeter验证码注册接口压力测试实战>,前两天又登录对应的网站看了一下.发现原来滑动验证的方式改成了图片验证码的方式,防止用户多次发送手机验证码. 看到这 ...

最新文章

  1. 第一个spring程序
  2. JavaScript中使用console调试程序的坑
  3. 如何给Centos添加静态地址
  4. 你知道你的模型可以为公司赚多少钱吗
  5. OSPF协议概述(一)
  6. LeetCode 5235. 找出输掉零场或一场比赛的玩家(计数)
  7. 高效能人士的七个习惯_有史以来最具影响力管理类书籍 高效能人士的七个习惯 让你成为一名成功高效的人士...
  8. deepin开机未登录自动连接wifi
  9. linux镜像文件太大不好下载_Linux系统挂接命令的使用方法
  10. utf8在mysql占几个字符_utf-8的中文,一个字符占几个字节
  11. 2020年408真题_2020年港澳台联考真题——化学!
  12. 微服务网关分发请求至子服务的两种方式
  13. 作为一个程序员,如何高效的管理时间?
  14. 【自然语言处理】【向量检索】面向开放域稠密检索的多视角文档表示学习
  15. WBSC 世界棒垒球总会·亚洲
  16. linux搭建Kafka集群
  17. 锁相环(PLL),倍频器、分频器原理
  18. 荣耀30s升级鸿蒙os2.0,鸿蒙OS要来了,荣耀“老花粉”有福了,这四款可以升级...
  19. 如何用一行代码实现网页变灰效果?
  20. IIS 6.0安全管理配置规范

热门文章

  1. HTTP cookies 详解
  2. 密码学(第二讲)---凯撒密码破译和简单替换密码
  3. 机器学习算法——集成方法(Ensemble)之Stacking
  4. java-三元表达式详解
  5. java的三项表达式_Java三元表达式中的陷阱
  6. 【SAP-CO】成本中心会计之分配/分摊循环操作
  7. Nginx官网版本说明
  8. PerformanceCounter 基本介绍
  9. 读书笔记——《借我一生》摘录
  10. js如何创建可迭代对象