python 离线图片文字识别(OCR)Tesseract
本人最近也是在使用和学习python遇到各种问题,公司内网控制严格 没有网络,同时也不允许安装exe文件,做python 十分的费劲,也研究了好几款文字识别的OCR ,要么是收费的 要么是离线不能用,非常的烦人,
Tesseract 这款是免费并且支持离线,是一个OCR 库,目前由Google 赞助。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。偶尔有识别错误的情况但是错误率不高,对于没有高精度要求的可以使用。
python +Tesseract 的原理是:Tesseract是exe包需要安装在本地,支持python,如果想通过python 去调用,需要先在本地装Tesseract软件,然后再装python的pytesseract包来支持,通过pytesseract来调用Tesseract软件接口
一、安装pythonpytesseract
在线安装:有网络可以支持在线,cmd进入命令窗口输入下面的命令,(前提是你有python环境并且可用,如果没有先百度安装python)
pip install pytesseract
离线安装:
去官网下载离线包,一个是tar 一个是whl 两个包一样只是安装方法不一样
下载包: pytesseract · PyPI
安装python 的离线包pytesseract:
进入存放下载离线包的目录,在目录里输入cmd 进入命令窗口,再输入安装命令 回车(这个安装如果失败请百度先解决安装,可能跟python版本、pytesseract缺少依赖包导致,如果是有网的情况下安装,pip会自动给你把缺少的依赖装上,如果无网络,那可以去官网pytesseract · PyPI搜相应的依赖包,把依赖包装完再装这个依赖包),以下两种安装命令取决于你下载的离线包格式:
whl 安装命令如下,进入存放下载离线包的目录,在目录里输入cmd 进入命令窗口,再输入安装命令 回车
pip install pytesseract-0.3.10-py3-none-any.whl
tar 的安装命令如下:进入存放下载离线包的目录,在目录里输入cmd 进入命令窗口,再输入安装命令 回车
python setup.py install
Tesseract的安装与使用
拷贝Tesseract-OCR到内网机
由于我内网机不允许装exe文件,这个可以在本地装,指定目录装,装完之后,将整个Tesseract-OCR目录拷贝到内网机也是可以用的(如果你是在本机装的请忽略拷贝这一步)
Tesseract的Windows安装包下载地址为: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe ,下载后双击直接安装即可。安装完后,需要将tesseract.exe所在的目录添加到系统变量path中。同时还要在环境变量中添加新变量TESSDATA_PREFIX并且添加tesseract的语言包tessdata的目录。
比如我的安装目录如下:
将这个目录添加到环境变量中
配置完毕在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中
pycharm 实验一下
import pytesseract
from PIL import Image# text = pytesseract.image_to_string(Image.open(r"F:\eng.png"), lang='chi_sim')
text = pytesseract.image_to_string(Image.open(r"F:\20221106204640.png"), lang='chi_sim')
print(text)
运行结果如下:
python 离线图片文字识别(OCR)Tesseract相关推荐
- python批量识别图片中文字_python实现中文图片文字识别--OCR about chinese text--tesseract...
0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库 安装pillow: pip install pillow 安装tesseract: 自带了英文语言包, ...
- 开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用
开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用 一 背景 在日常的一些工作中,偶尔也需要我们把图片转换为文字.目前大部分办公软件还无法实现类似的 ...
- 2021-02-21 Python Easyocr 图片文字识别
Python Easyocr 图片文字识别 前段时间做了车牌识别相关的内容分享,参看: 车牌识别(1)-车牌数据集生成 车牌识别(2)-搭建车牌识别模型 今天给大家分享一个简单的OCR文本识别工具:e ...
- 吴恩达《Machine Learning》精炼笔记 12:大规模机器学习和图片文字识别 OCR
作者 | Peter 编辑 | AI有道 系列文章: 吴恩达<Machine Learning>精炼笔记 1:监督学习与非监督学习 吴恩达<Machine Learning>精 ...
- 如何使用Python实现图像文字识别OCR
要使用Python实现图像文字识别OCR,可以使用以下步骤: 安装Tesseract OCR引擎 Tesseract是一种开源OCR引擎,可以处理多种语言和字体.要使用Python进行OCR,需要安装 ...
- 轻量级图片文字识别 OCR Paddle 使用说明
百度轻量级 图片文字识别OCR 1.原文链接:https://www.paddlepaddle.org.cn/hub/scene/ocr 2.快速安装 https://github.com/P ...
- 吴恩达《机器学习》第十八章:图片文字识别OCR
文章目录 十八.应用实例:图片文字识别OCR 18.1 问题描述和流程图 18.2 滑动窗口 18.3 获取大量数据和人工数据 18.4 上限分析:下一步工作 十八.应用实例:图片文字识别OCR 18 ...
- 【图片识别】java 图片文字识别 ocr (转)
http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...
- 图片文字识别OCR模型免费API接口工具及DEMO
jiaying系列 网页版演示地址:ai.moneymeeting.club 一.简介: paddleocr是一个开源的图片文字识别工具. 目前我们提供的免费在线API支持png.jpg文件格式. ...
最新文章
- 使用回调函数实现图像阈值分析。程序运行后在屏幕中输入阈值,通过改变滑动条实现不同类型的二值化图。
- 所有配置_Springboot 打印所有配置
- Golang的CSP很酷?其实.NET也可以轻松完成
- android系统相机自动录像,android 调用系统相机录像并保存
- Win10家庭版之Docker ToolBox,Win10家庭版升级专业版
- mipi差分信号原理
- django缓存优化(一)
- 你见过最差的算法工程师能差到什么程度?
- python excel数据分析师培训_从零开始学可视化数据分析师就业课程(Excel、 MySQL、Power BI、Tableau、python、R)...
- VHDL半整数与奇数分频器设计实验
- android加载dex方法,android Dex文件的加载
- 华为应用市场AGC研习社直播:App个人信息安全保护审核标准解读
- c盘瘦身。清理四个垃圾文件夹
- 23行代码下载逆水寒壁纸图片
- windows系统如何使用命令检测网络
- 图片框(PictureBox)
- java在线影院系统计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
- 2016计算机应用能力,2016全国专业技术人员计算机应用能力考试.doc
- 图标库素材大全:Icons8 for mac
- 中原算力中心|在郑启航