python:pytesseract库实现图片文字识别

import pytesseract
from PIL import Imagetext = pytesseract.image_to_string(Image.open(r"E:\report\chen\4.png"), lang='chi_sim')print(text)

运行结果

D:\Python3.8.6\python.exe D:/PythonWorkSpace/Auto_test_wuhan/common/utils/char_recognize.py
空 调Process finished with exit code 0

图片文字识别的代码很简单，难就难在文件的配置、环境变量、语言包的下载。下面是我遇到的问题及解决方法

语言包Tesseract OCR 下载安装（中英文语言包） 下载路径如下

1.GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine

2.找到简中的语言包下载完后安装Tesseract-OCR

3.安装完成后需要配置环境变量

4.增加一个TESSDATA_PREFIX变量名，变量值还是我的安装路径C:\Program Files\Tesseract-OCR\tessdata这是将语言字库文件夹添加到变量中

5.打开终端，输入：tesseract -v，可以看到版本信息，表示安装成功

6.这个时候运行代码仍然会报错提示pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH

7.在我们下载了PIL（命令pip install pillow）后，找到pytesseract.py文件，里面的tesseract_cmd='tesseract'，这里并没有指定文件路径

8.修改成刚才安装的路径

9.现在运行程序就不报错啦。如果图片包含文字较多或较小，可能出现识别不准确问题，可以对图片进行剪裁，只保留要识别的区域可解决该问题。

python:pytesseract库实现图片文字识别相关推荐

python实现简单的图片文字识别脚本
我们都知道,部分电子版的书籍是以扫描图片的形式展现的,在阅读过程中无法选取文字.对于平时有记录习惯的人来说,无法复制黏贴真的很不爽! 为了解决这个问题,需要这样一个脚本,他有下面这些功能: 1.能够实 ...
基于Python的离线OCR图片文字识别（一）——命令行方式对图像文件处理生成同名txt文件
应用背景:在正式开始文章之前,先阐述一下项目的应用背景--项目需要对已有的电子档案数据进行"大数据"处理和呈现,但是由于之前进行档案电子化时都是以扫描文件的图像格式存储在硬盘上(准 ...
【Python 基于EasyOCR库进行图片文字识别】
文章目录一.概况目前支持的语言二.安装指南(windows) 1.通过pip安装 2.通过源代码安装三.代码运用OCR 要识别的图片 1.代码_I 识别结果_1 2.代码_II 识别结果_2 ...
基于Python的离线OCR图片文字识别（三）——支持PDF文件
前面第一个版本实现了基本的ocr功能,可以对某图像文件进行处理,将ocr结果以同名txt文件的方式保存在图像文件同路径下: 然后在第二个版本中又实现了对文件夹参数的支持,也即可以对某个包含大量图像文件 ...
基于Python的离线OCR图片文字识别（四）——支持txt文件指定路径保存
虽然在前面在第二次升级时就已经通过json配置文件支持将ocr识别结果txt保存到指定的文件夹里了,但由于指定待识别文件夹时文件夹里面可能包含多个不同的子文件夹.不同的子文件夹里面可能包含同名的图像文 ...
基于Python的离线OCR图片文字识别（五）——终极版本
至此,终于迎来了离线ocr的终极大结局,命令行后面参数既支持图像文件.图像文件夹,还支持PDF图像类型的文件,既支持通过json文件进行参数配置,又支持帮助文档,easyOCR包既支持允许字符集(也即 ...
小猪的Python学习之旅 —— 13.文字识别库pytesseract初体验
小猪的Python学习之旅 -- 13.文字识别库pytesseract初体验标签:Python 引言度过了短暂的春节假期,又要开始继续搬砖了,因为还处于节后综合征,各种散漫,不想看任何代码相关 ...
python图像识别系统_Python图像处理之图片文字识别功能（OCR)
OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...
python文字识别时、当文字不清晰时怎么处理_Python图像处理之图片文字识别功能（OCR)...
OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...

python:pytesseract库实现图片文字识别

python:pytesseract库实现图片文字识别相关推荐

最新文章

热门文章