1.Tesseract-OCR简介

一个Google支持的开源的OCR图文识别开源项目。支持多种语言(我使用的是3.02 版本,支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。

2.Tesseract安装

下载windows版本的tesseract安装包,我下载的版本是是http://3.onj.me/tesseract/网站所维护的,安装后有个doc文件夹,里面有英文的使用文档。为了在全局使用方便,比如安装路径为D:\Application\tesseract,将D:\Application\tesseract添加到环境变量的path中。
注:
tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。如果想能识别其他语言,可以到https://github.com/tesseract-ocr/tessdata下载对应的语言的字库文件。 下载完成后将该文件剪切到tessdata目录下去就可以了。

新增环境变量TESSDATA_PREFIX,值为D:\Application\tesseract

3.Tesseract 使用

a. tesseract C:'User\ppzc\1.jpg result  默认英文
b. tesseract C:'User\ppzc\2.jpg result  -l chi_sim  指定中文
4.简单使用
a.使用中文
import pytesseract
from PIL import Imagepytesseract.pytesseract.tesseract_cmd=r"D:\tesseract\tesseract.exe"
imgs=Image.open("1.png")
text1=pytesseract.image_to_string(imgs,lang="chi_sim")
print(text1)

b.使用默认英文

import pytesseract
from PIL import Imagepytesseract.pytesseract.tesseract_cmd=r"D:\tesseract\tesseract.exe"
imgs=Image.open("2.jpg")
text1=pytesseract.image_to_string(imgs)
print(text1)

5.案例

import pytesseract
from urllib import request
from PIL import Image
import timedef main():pytesseract.pytesseract.tesseract_cmd=r'D:\tesseract\tesseract.exe'url="https://passport.lagou.com/vcode/create?from=register&refresh=1513082291955"while True:request.urlretrieve(url,"1.png")image=Image.open("1.png")text=pytesseract.image_to_string(image)print(text)time.sleep(2)if __name__=="__main__":main()

6.

转载于:https://www.cnblogs.com/hbxZJ/p/9585142.html

10.tesseract相关推荐

  1. H3CNE最新版官网考试模拟题库

    以下工作于OSI 参考模型数据链路层的设备是__A____.(选择一项或多项) A. 广域网交换机 B. 路由器 C. 中继器 D. 集线器 A 数据链路层传输的是帧,交换机是基于帧转发的:B 路由器 ...

  2. Tesseract OCR——Windows 10 + CMake-GUI + Visual Studio 2019下编译和使用解决方案

    基本概念 Tesseract OCR:Tesseract-OCR 引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一.然而,HP不久便决定放弃OCR业务 ...

  3. 12306验证码识别初尝试(3)——tesseract的长处与短处,使用百度文字识别与百度图片自动识别验证码并自动抢票,识别成功率10%

    12306验证码识别是我人生中"抢购"这一重大环节的第一步,所以我一定会把此环节写好,现在12306已经小小成功,接下来,我打算使用keras来深度学习解决12306抢票的问题,当 ...

  4. 10、python图像识别库tesseract下载及配置

    ''' 1.官网下载:https://github.com/tesseract-ocr/tessdata/tree/3.04.00,网上有相应的exe文件下载安装,安装完成后把安装目录加到环境变量中, ...

  5. Tesseract 3 语言数据的训练方法

    OCR,光学字符识别 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业 ...

  6. 10行 python 代码做出哪些酷炫的事情?

    来源 | Python小二 Python凭借其简洁的代码,赢得了许多开发者的喜爱.因此也就促使了更多开发者用Python开发新的模块,从而形成良性循环,Python可以凭借更加简短的代码实现许多有趣的 ...

  7. Windows下使用Tesseract进行OCR文字识别

    Windows下使用Tesseract进行OCR文字识别 Tesseract最初由惠普实验室支持,用于电子版文字识别,1996年被移植到Windows上,1998年进行了C++化,在2005年Tess ...

  8. 10个必备的机器学习开源工具

    机器学习十大开源工具 机器学习是未来.但机器会灭绝人类吗? 这应该是一个牵强附会的想法. 作为机器学习开发人员,您一定希望成功实现目标.这就是用于机器学习的开源工具的用武之地. 机器学习开源社区是活跃 ...

  9. Google开源OCR项目Tesseract训练(自己训练的记录,未成功)

    图像处理开发需求.图像处理接私活挣零花钱,请加微信/QQ 2487872782 图像处理开发资料.图像处理技术交流请加QQ群,群号 271891601 本文训练Tesseract用的方法主要参考文章  ...

最新文章

  1. Redis 集群方案
  2. pandas使用fillna函数将dataframe中缺失值替换为空字符串(replace missing value with blank string in dataframe)
  3. 面向对象程序设计上机练习一(函数重载)
  4. professor xi‘s story
  5. 回调、匿名函数、闭包
  6. Bash(Shell)基础知识
  7. Android学习笔记进阶20之得到图片的缩略图
  8. 在 Visual Studio .NET 中使用 SQL Server 2000 创建数据库应用程序(1)
  9. 《软件需求十步走》阅读笔记5
  10. 第二次力扣周赛:排名149 / 2046;在完赛边缘打转(总结了5点,实力还不够)
  11. 微信小程序 data中数据值的更改与储存
  12. Ubuntu 20.04部署minikube配置不上阿里云的minikube镜像
  13. distri.lua的web运维工具
  14. 6.Prometheus 监控技术与实践 --- 告警处理
  15. ai文件图片连接丢失怎么处理_未来美学丨点亮你的AI技能点(一)
  16. python数据可视化之疫情地图爬虫(含完整代码以及具体报告)
  17. scroll案例:带有动画的返回顶部
  18. Zemax学习笔记——序列模式点光源与平行光设置
  19. Echarts Map地图类型使用
  20. 小笑话一则,但是却引人深思,谁能讲出它更深成的意义

热门文章

  1. 报告 | 斯坦福2019 AI年度报告出炉!700亿美元投入AI,自动驾驶融资最多
  2. Python解决print()不换行问题
  3. java 画多边形_javascript绘制一个多边形
  4. 计算机视觉实习面经【微软/阿里/腾讯】
  5. 深度学习(六十一)NNPACK 移植与实验
  6. Mac安装nmap及常用命令【亲测有用】
  7. 信安教程第二版-第21章网络设备安全
  8. MongoDB模糊查询-查询某月的数据
  9. jQuery ajax模板及各参数介绍
  10. sublime text3 3176激活