Python实现图片文字识别
1. windons下安装
1.1 安装 Pillow 和 pytesseract
安装都很简单,在cmd命令行里直接pip3 install xxxxx就行
1.2 安装 tesseract-ocr
安装完库还不行,还要安装 tesseract 的软件,这样系统才能识别引擎成功读取文字。
可从github下载 tesseract-ocr-setup-4.00.00dev
https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows
也可以直接搜索 Tesseract-OCR下载即可
安装的时候要注意,tesseract的安装并不默认安装什么语言,如果自己需要简体中文的语言包,那么就不能一直点next点到finish。如下图,我安装了MATH和简体中文包。
1.3 中文语言包
如果安装 tesseract-ocr 时没有设置安装中文,如果不是做英文的图文识别,还需要下载其他语言的识别包–语言包地址 其他语言各版本的识别包下载 ,如简体字识别包对应的是chi_sim.traineddata ,繁体字识别包对应的是chi_tra.traineddata ,下载好之后放到安装目录的tessdata目录下即可(只用简体字就OK)。
1.4 配置环境变量
博主的安装路径为:C:\Program Files(x86)\Tesseract-OCR。电脑属性–高级系统设置–环境变量,进入如下界面。
把刚刚的安装路径"C:\Program Files(x86)\Tesseract-OCR"添加到用户变量和系统变量的path中,注意,添加的时候开头用";“跟之前的变量隔开,以”;"结尾。配置好后点击确定。
打开命令终端,输入:tesseract -v,可以看到版本信息。
进入cmd窗口,敲入命令cd C:\Program Files (x86)\Tesseract-OCR,再输入tesseract,若有如下信息则表示安装成功。
1.5 运行
代码示例:
from PIL import Image
import pytesseract
# 如果没有配置环境变量要加上这句
# pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text=pytesseract.image_to_string(Image.open('denggao.jpeg'),lang='chi_sim')
print(text)
2. Linux下安装
tesseract是一个开源的OCR引擎,最初是由惠普公司开发用来作为其平板扫描仪的OCR引擎,2005年惠普将其开源出来,之后google接手负责维护。目前稳定的版本是3.0。4.0版本加入了基于LSTM的神经网络技术,中文字符识别准确率有所提高。
ubuntu下tesseract 4.0安装:
终端依次输入以下命令:
sudo add-apt-repository ppa:alex-p/tesseract-ocrsudo apt-get updatesudo apt-get install tesseract-ocr # 测试安装是否成功,同时检查版本:
tesseract --version # 查看已安装字库
tesseract --list-langs# 更多tesseract使用指令可以查看help
tesseract --help
在Linux系统下不需要把tesseract添加到环境变量中
添加所需字体:
tesseract支持60多种语言的识别不同,使用之前需要先下载对应语言的字库,下载地址:
https://github.com/tesseract-ocr/tessdata
下载完成之后把 .traineddata 字库文件放到 tessdata 目录下,默认路径是/usr/share/tesseract-ocr /4.0/tessdata
参考文献:
https://blog.csdn.net/dcrmg/article/details/78128026
Python实现图片文字识别相关推荐
- 2021-02-21 Python Easyocr 图片文字识别
Python Easyocr 图片文字识别 前段时间做了车牌识别相关的内容分享,参看: 车牌识别(1)-车牌数据集生成 车牌识别(2)-搭建车牌识别模型 今天给大家分享一个简单的OCR文本识别工具:e ...
- python批量图片文字识别_利用Python批量进行图片文字识别
实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...
- Python进行图片文字识别(表格图片)(使用阿里OCR接口)
使用阿里OCR接口进行图片识别 这里仅做代码的记录,用于后续的快速工作.不会进行太多代码的讲解,如果你也刚好需要的话,还需要结合阿里的OCR文档,会更快速. 阿里OCR链接:https://dugua ...
- Python简易图片文字识别
完整代码如下: from PIL import Image # 加载PIL模块中的Image模组 import pytesseract # 加载pytesseract模块 img=Image.open ...
- python 离线图片文字识别(OCR)Tesseract
本人最近也是在使用和学习python遇到各种问题,公司内网控制严格 没有网络,同时也不允许安装exe文件,做python 十分的费劲,也研究了好几款文字识别的OCR ,要么是收费的 要么是离线不能用, ...
- 【小沐学NLP】Python实现图片文字识别
- Python3一行代码实现图片文字识别
今天突发奇想,想用Python识别图片里的文字.没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定 from PIL import Image import pytesseract # ...
- python调用百度接口实现ocr识别_Python调用百度OCR实现图片文字识别的示例代码
百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '* ...
- python 百度ocr安装_Python调用百度OCR实现图片文字识别的示例代码
百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '* ...
- Python图片文字识别——Windows下Tesseract-OCR的安装与使用
Python图片文字识别--Windows下Tesseract-OCR的安装与使用 前言 Windows下Tesseract-OCR的安装与配置 Tesseract-OCR简介与版本选择 tesser ...
最新文章
- 年中盘点:2021年最炙手可热的10家AI初创公司
- flume案例-网络数据采集-启动flume
- Python zipfile模块(压缩解压zip)
- leetcode 1189 python
- pytorch 实现MLP(多层感知机)
- 学习计划Current(2019.4.23)
- 解决spring mybatis 整合后mapper接口注入失败
- c 结构体 函数 指针
- 重磅!百度飞桨开源语音基础模型库|中英文语音识别、语音翻译、语音合成、声音分类通通一行代码轻松搞定...
- python第三方插件pip是什么_Python怎么安装第三方模块?
- js二(多)叉树算法
- JavaScript 中的 this 到底指向谁?
- TongWeb部署Dm数据库的项目报错
- HDUOJ 1392凸包graham算法
- Tcl/Tk入门(上)
- 京东云618年中大促开始啦!
- 实战整理-阿里天池淘宝用户购物行为数据集实战(MySQL数据分析+Navicat)
- linux清除大文件命令,linux du df命令清除不要的大文件
- spring-cloud-stream通道多线程并发消费
- 【elementui】走马灯自适应图片高度宽度 走马灯图片显示不全
热门文章
- PP实施经验分享(11)——SAP订单信息系统COOIS应用*增强版*
- 超简单! 一个标签搞定跑马灯,纯css制作跑马灯效果
- 4.widows对象
- 小象学院深度学习之TensorFlow高级实战
- java基于springboot+vue校园车辆管理系统
- (转) 那些无用的人----《人类简史》读后感
- 网络安全新晋网红“零信任”
- 最新炫酷恶趣图制作神器小程序源码+支持流量主/功能强大
- 编译器对源代码的编译过程
- 小型计算机和Pc,超小型台式电脑:重量相当于两个新iPhone