Mac python Tesseract 验证码识别
Tesseract
简介
Tesseract(/'tesərækt/) 这个词的意思是"超立方体",指的是几何学里的四维标准方体,又称"正八胞体"。不过这里要讲的,是一款以其命名的开源 OCR(Optical Character Recognition, 光学字符识别) 软件。
所谓 OCR 是图像识别领域中的一个子领域,该领域专注于对图片中的文字信息进行识别并转换成能被常规文本编辑器编辑的文本。
在 1995 年 Tesseract 曾是世界前三的 OCR 引擎,而且在现在的免费 OCR 引擎中,其识别精度也仍然是出类拔萃的。因为其免费与较好的效果,许多的个人开发者以及一些较小的团队在使用着 Tesseract ,诸如验证码识别、车牌号识别等应用中,不难见到 Tesseract 的身影。
程序安装
安装PIL
pip install Pillow
安装Tesseract
pip install tesseract
安装pytesseract
pip install pytesseract
编写程序
import pytesseract from PIL import Imageimage = Image.open('code1.png')vcode = pytesseract.image_to_string(image) print(vcode)
图片
运行程序报如下错误
pytesseract.pytesseract.TesseractError
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file /usr/local/Cellar/tesseract/3.05.01/share/tessdata/chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory. Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')
处理办法如下:
安装tesseract-ocr
分别下载
tesseract-ocr 和 tesseract-ocr语言包
下载解压后放到 site-packages/tesseract/即可
如下图
添加环境变量
如下图
再次执行程序如下
中文识别遇到如下错误
需要添加语言包chi_sim
如上图,注意我这里是3.0.1的,所以要添加比这个版本小的文件,添加了3.0.4或5的都不行。
转载于:https://www.cnblogs.com/BlueSkyyj/p/9481178.html
Mac python Tesseract 验证码识别相关推荐
- 关于利用python进行验证码识别的一些想法
关于利用python进行验证码识别的一些想法 - 小五义 - 博客园 关于利用python进行验证码识别的一些想法 转载请注明:@小五义http://www.cnblogs.com/xiaowuyi ...
- python 实现验证码识别
python 实现验证码识别 环境安装 1.1 python安装(此处不详细介绍,自行百度) 1.2 安装Tesseract-OCR 第一步:依赖安装 第二步:下载安装Leptonica 第三步: 下 ...
- 基于Python的验证码识别技术
基于Python的验证码识别技术 作者:强哥 概述 前言 准备工作 识别原理 图像处理 切割图像 人工标注 训练数据 检测结果 搞笑一刻 福利一刻 推荐阅读 前言 很多网站登录都需要输入验证码,如果要 ...
- 基于python的验证码识别
基于python的验证码识别 在利用python对一些网站进行批量操作的时候,验证码是个绕不过去的东西,虽然现在网上有很多图像识别的api,但是可能不适用于你的项目,我为了批量爬取班上同学的学分绩点写 ...
- 毕业设计 - 题目:基于python的验证码识别 - 机器视觉 验证码识别
文章目录 0 前言 1 项目简介 2 验证码识别步骤 2.1 灰度处理&二值化 2.2 去除边框 2.3 图像降噪 2.4 字符切割 2.5 识别 3 基于tensorflow的验证码识别 3 ...
- python图像验证码识别_python 简单图像识别--验证码
python 简单图像识别--验证码 记录下,准备工作安装过程很是麻烦. 首先库:pytesseract,image,tesseract,PIL windows安装PIL,直接exe进行安装更方便( ...
- python验证码 识别代码不准_谈谈Python进行验证码识别的一些想法
用python加"验证码"为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章.我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后利用字库特征匹配的方法,一类 ...
- 中文验证码识别 java_opencv Tesseract 验证码识别 文字识别
环境搭建 安装Tesseract 下载64位 安装时可以选择语言包一路next 加入path环境变量后,查看是否成功,pycharm需要重新启动,否则找不到 C:\Program Files (x86 ...
- python 图片验证码识别
采用pytesseract解决,属于 Python 当中比较简单的OCR识别库. 使用pytesseract之前,你需要通过 pip 安装一下对应的模块 pip install pytesseract ...
最新文章
- 写文件 —— 将内容按照指定格式写入配置文件(fwrite()函数-》》向指定的文件中写入若干数据块)
- arm linux下编译库System.Net.Primitives.dll和System.Xml.XmlSerializer.dll
- 汇编伪指令EVEN(数据对齐的伪指令,使得下一个变量的起始地址是偶数字节的)
- 工控服务器性能指标,PLC的7大性能指标
- Ubuntu 软件包管理详解
- 不需要登陆的灵感笔记私人版正式上线,迭代优化中。
- Julia: 引用、copy与数组
- Java实验报告(基础练习、选择循环、数组、字符串及类和对象)
- 配置JAVA_HOME环境变量
- mysql分页查询如何优化_mysql分页查询优化
- 购物车一个Adaper,可以删除,全选反选,数量加减
- 定时跑视图往另外一张表添加数据_聊一聊数据库中的锁
- 五大学科竞赛(三)-o2 -lm编译选项
- 最详细的VI编辑器指南
- 无人值守u盘安装linux,U盘无人值守安装Linux操作系统
- Tensorflow-Keras教程
- 让终端支持播放mp3,移植mp3解码库libmad和madplay到嵌入式linux
- 内网渗透思路10之SPN拿下域控
- 浅谈BCrypt密码加解密的使用
- shell trim函数