前言

Tesseract是一个开源的ocr引擎,可以开箱即用,项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。

官网宣传目前支持100多种语言的识别,根据我的测试,目前感觉其对机器打印的比较规整的英语,或者阿拉伯数字的识别准确率还是挺高的,但是对手写的任何东西,效果都非常一般,不过这已经相当不错了。

环境介绍

基础软件介绍:

windows 10
anaconda 4.5.4
python 3.6.5
opencv 3.4.1 (非必须)
pycharm 2018 (非必须,可以用自己爱好的ide)

注意这里我直接装的anaconda4.x(一个python的科学管理软件与java的maven比较类似)的版本,它已经内置支持python的各种版本,省去了一些兼容问题,同时在anaconda的cmd窗口中,如果不想使用自身的conda命令安装软件,我们还可以用pip命令安装,这一点是不冲突的,关于anaconda的安装请参考我前面的文章。

Tesseract的安装

Tesseract的github地址:https://github.com/tesseract-ocr/tesseract

Tesseract的安装:

(1)Tesseract本身没有windows的安装包,不过它指定了一个第三方的封装的windows安装包,在其wiki上有说明,大家可直接到这个地址进行下载: https://digi.bib.uni-mannheim.de/tesseract/

下载后就是一个exe安装包,直接右击安装即可,安装完成之后,配置一下环境变量,编辑 系统变量里面 path,添加下面的安装路径:

C:\Program Files (x86)\Tesseract-OCR

安装完成之后,直接cmd输入:

命令:
tesseract -v
输出如下,即代表成功:
tesseract 4.0.0-beta.1-108-gf291leptonica-1.76.0libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.2.0

注意,这一步在windows上是必须安装的,否则运行程序时,会抛出异常:

[WinError 2] 系统找不到指定的文件

(2)安装python的封装接口:

pip install pillow  #一个python的图像处理库,pytesseract依赖
pip install pytesseract

注意第一步必须安装成功,同时配置好环境变量,否则第二步必会报错,因为第二步是接口,运行时候会调用第一步的原C++写的类库。

Tesseract的使用

测试图1,纯数字:

结果:

140378

测试图2,英文:

结果:

As you can see in this screenshot, the thresholded image is very clear and the background
has been removed. Our script correctly prints the contents of the image to the console.

测试图3,手写数字:

结果:

ar oe

python代码如下:

from  PIL import  Image
import pytesseract
import  cv2 as cvimg_path='F:/fb/xxx.jpg'# img_path='orgin.jpg'# img_path='F:/fb/hpop.jpg'# 依赖opencv
img=cv.imread(img_path)
text=pytesseract.image_to_string(Image.fromarray(img))# 不依赖opencv写法
# text=pytesseract.image_to_string(Image.open(img_path))print(text)

前面说过,对于机器打印的比较规则的字符,Tesseract识别起来还是比较给力的,至于手写的字符,识别效果比较差,可以看到上面的手写数字识别出来的都是错误的,当然这里也有调优的余地,比如给图片做灰度,模糊,去燥,二值化等等,可能结果会稍微好一点。

总结

本篇文章介绍了Tesseract在windows环境下的安装配置,同时介绍了如何在python中集成使用,感兴趣的朋友可以尝试一下。

windows 10环境下安装Tesseract-OCR与python集成相关推荐

  1. 在windows 10环境下安装 mujoco

    陆陆续续,花了一个星期,把各个模块翻了一遍,踩了无数坑.为了弄清楚中间的调用关系,连_msvccompiler.py,core.py这些都被我改过.最后,回归简单,按照正确的思路和方案安装,就没问题. ...

  2. 【Linux】在Windows 10环境下安装适用于 Linux 的子系统 (WSL安装指南)

    更多教程:https://docs.microsoft.com/zh-cn/windows/wsl/install-win10 安装适用于 Linux 的 Windows 子系统 (WSL) 时有两个 ...

  3. SOLO在windows 10环境下安装

    文章目录 1. 总体环境要求 2. 安装步骤 2.1 基础软件安装 2.1.1 安装vs2017 2.1.2 安装显卡驱动(windows系统如自带,则不必安装) 2.1.3 安装cuda10 2.1 ...

  4. tensor搭建--windows 10 64bit下安装Tensorflow+Keras+VS2015+CUDA8.0 GPU加速

    windows 10 64bit下安装Tensorflow+Keras+VS2015+CUDA8.0 GPU加速 原文见于:http://www.jianshu.com/p/c245d46d43f0 ...

  5. Windows 10系统下安装MATLAB出现Error 1935的应对措施

    Windows 10系统下安装MATLAB出现Error 1935的应对措施 出现该错误的原因是安装过程默认安装的时C++ 2005而不是2008,因此绕开C++ 2005来安装.具体步骤如下: 1. ...

  6. Windows 10环境中安装Snort+Barnyard2+MySQL

    一.背景 Snort是一款著名的开源入侵检测系统,有着悠久的历史和众多用户.我们通过部署Snort系统来监测异常网络活动并发出报警.Snort的跨平台性能很好,它支持的各种Linux/Unix和Win ...

  7. windows 10 64bit下安装Tensorflow+Keras+VS2015+CUDA8.0 GPU加速

    https://www.jianshu.com/p/c245d46d43f0 写在前面的话 2016年11月29日,Google Brain 工程师团队宣布在 TensorFlow 0.12 中加入初 ...

  8. 目标检测第3步:如何在Windows 10系统下安装CUDA(更新时间2022.03.22)

    (请先看置顶博文)本博打开方式!!!请详读!!!请详读!!!请详读!!!_Cat-CSDN博客 目录 一.自检 1.查看PC是否有NVIDIA的独立显卡 2.查看自己NVIDIA独立显卡是否支持CUD ...

  9. Windows 10环境下TensorFlow(gpu版本)配置教程——[图解] [详细版][零基础]

    Tensorflow环境下的深度学习框架的配置主要包含以下几步: 0.前言 1.PyCharm的安装步骤: 2.Python的安装步骤: 3.AnaConda的安装步骤: 4.CUDA的安装步骤: 5 ...

最新文章

  1. 机器学习流程,以及实践应用
  2. 505天,240,000字,我总结了Spring Security 的学习曲线,免费送给大家
  3. 真正拉开人与人之间的差距是什么?
  4. 2020“家”经济时代开启——中国到家服务行业研究报告
  5. 今天的我坐下来的蜡笔小新
  6. 分别描述TCP的3次握手和四次挥手的定义、目的和过程
  7. Python自定义类支持with关键字
  8. 经典最优滤波器(概述)
  9. Python数据类型解析(基础篇)
  10. 编程程序_PLC编程代码PLC程序设计公司
  11. 虚拟现实(VR)技术的升级应用|时空克隆 三维视频融合 投影融合 点卯 魔镜系列
  12. Python3开发 语法(四)
  13. 架构漫谈专栏系列文章
  14. Sky Walking 介绍 及 8.7.0 源码学习环境搭建
  15. 巴西柔术第一课:骑乘式上位技术
  16. 【网络安全系列】之新型勒索病毒WannaRen疑在国内大规模传播,威力不亚于新冠
  17. element 配置全局样式 例如:为项目中所有el-dialog弹窗添加分割线
  18. oracle连接读本机DNS,oracle 11gR2 修改 DNS 方式 SCAN IP
  19. 隐含马尔可夫模型——Hidden Markov models (HMM)
  20. 2018-11-21 枷锁

热门文章

  1. DB9串及交叉与直通线
  2. 虚拟化服务器制作视频教程,VMware服务器虚拟化视频教程套餐【32课高清完整版】...
  3. 工作室门户网站项目总结
  4. 编译ColmapForSat遇到的问题
  5. 速看!成为黑k必看13个网站,简称网站大全!
  6. 2023年五一法定节假日是几天?如何提醒自己放假时间?
  7. c++游戏设计五:打飞机
  8. win7命名计算机无法下一步,MacBookAir装win7无法下一步解决办法 (2)
  9. private访问权限java_Java中的访问权限控制
  10. Oracle 12CR2查询转换之谓词推送