1. windons下安装

1.1 安装 Pillow 和 pytesseract

安装都很简单,在cmd命令行里直接pip3 install xxxxx就行

1.2 安装 tesseract-ocr

安装完库还不行,还要安装 tesseract 的软件,这样系统才能识别引擎成功读取文字。

可从github下载 tesseract-ocr-setup-4.00.00dev

https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows
也可以直接搜索 Tesseract-OCR下载即可

安装的时候要注意,tesseract的安装并不默认安装什么语言,如果自己需要简体中文的语言包,那么就不能一直点next点到finish。如下图,我安装了MATH和简体中文包。

1.3 中文语言包

如果安装 tesseract-ocr 时没有设置安装中文,如果不是做英文的图文识别,还需要下载其他语言的识别包–语言包地址 其他语言各版本的识别包下载 ,如简体字识别包对应的是chi_sim.traineddata ,繁体字识别包对应的是chi_tra.traineddata ,下载好之后放到安装目录的tessdata目录下即可(只用简体字就OK)。

1.4 配置环境变量

博主的安装路径为:C:\Program Files(x86)\Tesseract-OCR。电脑属性–高级系统设置–环境变量,进入如下界面。

把刚刚的安装路径"C:\Program Files(x86)\Tesseract-OCR"添加到用户变量和系统变量的path中,注意,添加的时候开头用";“跟之前的变量隔开,以”;"结尾。配置好后点击确定。

打开命令终端,输入:tesseract -v,可以看到版本信息。

进入cmd窗口,敲入命令cd C:\Program Files (x86)\Tesseract-OCR,再输入tesseract,若有如下信息则表示安装成功。

1.5 运行

代码示例:

from PIL import Image
import pytesseract
# 如果没有配置环境变量要加上这句
# pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text=pytesseract.image_to_string(Image.open('denggao.jpeg'),lang='chi_sim')
print(text)

2. Linux下安装

tesseract是一个开源的OCR引擎,最初是由惠普公司开发用来作为其平板扫描仪的OCR引擎,2005年惠普将其开源出来,之后google接手负责维护。目前稳定的版本是3.0。4.0版本加入了基于LSTM的神经网络技术,中文字符识别准确率有所提高。
ubuntu下tesseract 4.0安装:
终端依次输入以下命令:

sudo add-apt-repository ppa:alex-p/tesseract-ocrsudo apt-get updatesudo apt-get install tesseract-ocr # 测试安装是否成功,同时检查版本:
tesseract --version # 查看已安装字库
tesseract --list-langs# 更多tesseract使用指令可以查看help
tesseract --help



在Linux系统下不需要把tesseract添加到环境变量中

添加所需字体:
tesseract支持60多种语言的识别不同,使用之前需要先下载对应语言的字库,下载地址:
https://github.com/tesseract-ocr/tessdata

下载完成之后把 .traineddata 字库文件放到 tessdata 目录下,默认路径是/usr/share/tesseract-ocr /4.0/tessdata

参考文献:

https://blog.csdn.net/dcrmg/article/details/78128026

Python实现图片文字识别相关推荐

  1. 2021-02-21 Python Easyocr 图片文字识别

    Python Easyocr 图片文字识别 前段时间做了车牌识别相关的内容分享,参看: 车牌识别(1)-车牌数据集生成 车牌识别(2)-搭建车牌识别模型 今天给大家分享一个简单的OCR文本识别工具:e ...

  2. python批量图片文字识别_利用Python批量进行图片文字识别

    实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...

  3. Python进行图片文字识别(表格图片)(使用阿里OCR接口)

    使用阿里OCR接口进行图片识别 这里仅做代码的记录,用于后续的快速工作.不会进行太多代码的讲解,如果你也刚好需要的话,还需要结合阿里的OCR文档,会更快速. 阿里OCR链接:https://dugua ...

  4. Python简易图片文字识别

    完整代码如下: from PIL import Image # 加载PIL模块中的Image模组 import pytesseract # 加载pytesseract模块 img=Image.open ...

  5. python 离线图片文字识别(OCR)Tesseract

    本人最近也是在使用和学习python遇到各种问题,公司内网控制严格 没有网络,同时也不允许安装exe文件,做python 十分的费劲,也研究了好几款文字识别的OCR ,要么是收费的 要么是离线不能用, ...

  6. 【小沐学NLP】Python实现图片文字识别

  7. Python3一行代码实现图片文字识别

    今天突发奇想,想用Python识别图片里的文字.没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定 from PIL import Image import pytesseract # ...

  8. python调用百度接口实现ocr识别_Python调用百度OCR实现图片文字识别的示例代码

    百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '* ...

  9. python 百度ocr安装_Python调用百度OCR实现图片文字识别的示例代码

    百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '* ...

  10. Python图片文字识别——Windows下Tesseract-OCR的安装与使用

    Python图片文字识别--Windows下Tesseract-OCR的安装与使用 前言 Windows下Tesseract-OCR的安装与配置 Tesseract-OCR简介与版本选择 tesser ...

最新文章

  1. 年中盘点:2021年最炙手可热的10家AI初创公司
  2. flume案例-网络数据采集-启动flume
  3. Python zipfile模块(压缩解压zip)
  4. leetcode 1189 python
  5. pytorch 实现MLP(多层感知机)
  6. 学习计划Current(2019.4.23)
  7. 解决spring mybatis 整合后mapper接口注入失败
  8. c 结构体 函数 指针
  9. 重磅!百度飞桨开源语音基础模型库|中英文语音识别、语音翻译、语音合成、声音分类通通一行代码轻松搞定...
  10. python第三方插件pip是什么_Python怎么安装第三方模块?
  11. js二(多)叉树算法
  12. JavaScript 中的 this 到底指向谁?
  13. TongWeb部署Dm数据库的项目报错
  14. HDUOJ 1392凸包graham算法
  15. Tcl/Tk入门(上)
  16. 京东云618年中大促开始啦!
  17. 实战整理-阿里天池淘宝用户购物行为数据集实战(MySQL数据分析+Navicat)
  18. linux清除大文件命令,linux du df命令清除不要的大文件
  19. spring-cloud-stream通道多线程并发消费
  20. 【elementui】走马灯自适应图片高度宽度 走马灯图片显示不全

热门文章

  1. PP实施经验分享(11)——SAP订单信息系统COOIS应用*增强版*
  2. 超简单! 一个标签搞定跑马灯,纯css制作跑马灯效果
  3. 4.widows对象
  4. 小象学院深度学习之TensorFlow高级实战
  5. java基于springboot+vue校园车辆管理系统
  6. (转) 那些无用的人----《人类简史》读后感
  7. 网络安全新晋网红“零信任”
  8. 最新炫酷恶趣图制作神器小程序源码+支持流量主/功能强大
  9. 编译器对源代码的编译过程
  10. 小型计算机和Pc,超小型台式电脑:重量相当于两个新iPhone