Tesseract

简介

Tesseract(/'tesərækt/) 这个词的意思是"超立方体",指的是几何学里的四维标准方体,又称"正八胞体"。不过这里要讲的,是一款以其命名的开源 OCR(Optical Character Recognition, 光学字符识别) 软件。

所谓 OCR 是图像识别领域中的一个子领域,该领域专注于对图片中的文字信息进行识别并转换成能被常规文本编辑器编辑的文本。

在 1995 年 Tesseract 曾是世界前三的 OCR 引擎,而且在现在的免费 OCR 引擎中,其识别精度也仍然是出类拔萃的。因为其免费与较好的效果,许多的个人开发者以及一些较小的团队在使用着 Tesseract ,诸如验证码识别、车牌号识别等应用中,不难见到 Tesseract 的身影。

程序安装

安装PIL

 pip install Pillow

安装Tesseract

pip install tesseract

安装pytesseract

pip install pytesseract

编写程序

import pytesseract
from PIL import Imageimage = Image.open('code1.png')vcode = pytesseract.image_to_string(image)
print(vcode)

图片

运行程序报如下错误

pytesseract.pytesseract.TesseractError

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file /usr/local/Cellar/tesseract/3.05.01/share/tessdata/chi_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')

处理办法如下:

安装tesseract-ocr

分别下载

tesseract-ocr  和  tesseract-ocr语言包

下载解压后放到 site-packages/tesseract/即可

如下图

添加环境变量

如下图

再次执行程序如下

中文识别遇到如下错误

需要添加语言包chi_sim

如上图,注意我这里是3.0.1的,所以要添加比这个版本小的文件,添加了3.0.4或5的都不行。

转载于:https://www.cnblogs.com/BlueSkyyj/p/9481178.html

Mac python Tesseract 验证码识别相关推荐

  1. 关于利用python进行验证码识别的一些想法

    关于利用python进行验证码识别的一些想法 - 小五义 - 博客园 关于利用python进行验证码识别的一些想法 转载请注明:@小五义http://www.cnblogs.com/xiaowuyi ...

  2. python 实现验证码识别

    python 实现验证码识别 环境安装 1.1 python安装(此处不详细介绍,自行百度) 1.2 安装Tesseract-OCR 第一步:依赖安装 第二步:下载安装Leptonica 第三步: 下 ...

  3. 基于Python的验证码识别技术

    基于Python的验证码识别技术 作者:强哥 概述 前言 准备工作 识别原理 图像处理 切割图像 人工标注 训练数据 检测结果 搞笑一刻 福利一刻 推荐阅读 前言 很多网站登录都需要输入验证码,如果要 ...

  4. 基于python的验证码识别

    基于python的验证码识别 在利用python对一些网站进行批量操作的时候,验证码是个绕不过去的东西,虽然现在网上有很多图像识别的api,但是可能不适用于你的项目,我为了批量爬取班上同学的学分绩点写 ...

  5. 毕业设计 - 题目:基于python的验证码识别 - 机器视觉 验证码识别

    文章目录 0 前言 1 项目简介 2 验证码识别步骤 2.1 灰度处理&二值化 2.2 去除边框 2.3 图像降噪 2.4 字符切割 2.5 识别 3 基于tensorflow的验证码识别 3 ...

  6. python图像验证码识别_python 简单图像识别--验证码

    python  简单图像识别--验证码 记录下,准备工作安装过程很是麻烦. 首先库:pytesseract,image,tesseract,PIL windows安装PIL,直接exe进行安装更方便( ...

  7. python验证码 识别代码不准_谈谈Python进行验证码识别的一些想法

    用python加"验证码"为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章.我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后利用字库特征匹配的方法,一类 ...

  8. 中文验证码识别 java_opencv Tesseract 验证码识别 文字识别

    环境搭建 安装Tesseract 下载64位 安装时可以选择语言包一路next 加入path环境变量后,查看是否成功,pycharm需要重新启动,否则找不到 C:\Program Files (x86 ...

  9. python 图片验证码识别

    采用pytesseract解决,属于 Python 当中比较简单的OCR识别库. 使用pytesseract之前,你需要通过 pip 安装一下对应的模块 pip install pytesseract ...

最新文章

  1. 写文件 —— 将内容按照指定格式写入配置文件(fwrite()函数-》》向指定的文件中写入若干数据块)
  2. arm linux下编译库System.Net.Primitives.dll和System.Xml.XmlSerializer.dll
  3. 汇编伪指令EVEN(数据对齐的伪指令,使得下一个变量的起始地址是偶数字节的)
  4. 工控服务器性能指标,PLC的7大性能指标
  5. Ubuntu 软件包管理详解
  6. 不需要登陆的灵感笔记私人版正式上线,迭代优化中。
  7. Julia: 引用、copy与数组
  8. Java实验报告(基础练习、选择循环、数组、字符串及类和对象)
  9. 配置JAVA_HOME环境变量
  10. mysql分页查询如何优化_mysql分页查询优化
  11. 购物车一个Adaper,可以删除,全选反选,数量加减
  12. 定时跑视图往另外一张表添加数据_聊一聊数据库中的锁
  13. 五大学科竞赛(三)-o2 -lm编译选项
  14. 最详细的VI编辑器指南
  15. 无人值守u盘安装linux,U盘无人值守安装Linux操作系统
  16. Tensorflow-Keras教程
  17. 让终端支持播放mp3,移植mp3解码库libmad和madplay到嵌入式linux
  18. 内网渗透思路10之SPN拿下域控
  19. 浅谈BCrypt密码加解密的使用
  20. shell trim函数

热门文章

  1. 第一单元总结:基于基础语言、继承和接口的简单OOP
  2. mysql 中 and和or 一起使用和之间的优先级
  3. 04_传智播客iOS视频教程_类是以Class对象存储在代码段
  4. 封装js千分位加逗号和删除逗号
  5. PHP中,json汉字编码
  6. VS2008调试总结
  7. html三元运算符 模板,AngularJS模板中的三元运算符
  8. 可执行程序加载到内存的过程
  9. 喷喷计算机语言掌握的程度
  10. 如何将二维数组作为函数的参数传递