Python实现图片中文字提取(OCR)
用Python提取图片中的文字,用到的工具包有PIL,pytesseract,tesseract-ocr
注意:
库的安装相对麻烦一点,一般都是不能直接安装成功的,这里总结了安装过程中的一些坑给大家参考。
(1)首先是PIL库安装,有的电脑可以直接从PYCHARM库里直接导入,但是大部分的电脑是安装不了的,可以采取两种方式一种是用pip install PIL这种方式一般比较慢,还有一种方法就是在PYCHARM库里面直接安装pillow-PIL安装成功后就不会报错了。
(2)然后就是pytesseract库的安装,在pycharm库里面可以直接搜索到然后安装。这两个库安装完成后运行代码还是会报错:‘tesseract is not installed or it’s not in your path’,原因是没有找到 Tesseract-OCR\tesseract.exe 的位置,需要先下载tesseract.exe具体安装参考:下载安装链接
安装完成后打开pytesseract源码查找 tesseract_cmd = ‘tesseract’,修改成红色方框里面是刚才安装的目录。
库安装好之后运行代码:
from PIL import Imageimport pytesseractimages=Image.open('003.jpg')
print(images.size)
text=pytesseract.image_to_string(images)
print(text)
结果:
如果要提取中文文字还需安装相关的新的库,把下载的中文库放在 Tesseract-OCR 安装目录下的 tessdata 文件夹中。
下载链接:中文库下载
下载完之后运行代码:
import pytesseract
from PIL import Imageim_en = Image.open('003.jpg')
im_ch = Image.open('004.jpg')print('========识别字母========')
print(pytesseract.image_to_string(im_en), '\n\n')print('========识别中文========')
print(pytesseract.image_to_string(im_ch, lang='chi_sim'))
结果:
至此实现了用Python的工具包实现OCR字符提取的功能,包括中文和英文字符的提取,一个简单的小例子啦~~
Python实现图片中文字提取(OCR)相关推荐
- matlab获取图片上的字,基于MATLAB图片中文字提取及识别.pdf
基于MATLAB图片中文字提取及识别.pdf 数字图象处理 DigitalImageProgressing 基于MATLAB的图片中文字的提取及识别 邹浩,余龙,邹勇博,刘宇童,和振乔,李少梅 (西安 ...
- 如何使用Python实现图像文字识别OCR
要使用Python实现图像文字识别OCR,可以使用以下步骤: 安装Tesseract OCR引擎 Tesseract是一种开源OCR引擎,可以处理多种语言和字体.要使用Python进行OCR,需要安装 ...
- python实现图片文字提取,准确率高达99%,强无敌!!!
上次我使用的百度AI开放平台的API接口实现图片的转化,后来有许多小伙伴都私信问我,怎么获取百度AI平台的AK和SK.为了统一回答大家的问题,今天我又使用百度API实现了一个从图片中提取文字和识别身份 ...
- python实现图片文字提取,有疑问未解决
在某个微信公众号中偶然看到一个初级python实验:使用python识别并提取图像中的文字,并着手去尝试. 首先下载安装一个开源工具,Tesseract-OCR,在网上下载,我下载的是这个版本:tes ...
- 提取图片中文字的方法
一.什么是OCR 很早之前就听说有提取图片中文字的工具和方法,这种文字识别技术称为OCR(Optical Character Recognition).OCR技术的出现,实现了将印刷文字扫描得到的图片 ...
- python分割图片数字_python实现图片中文字分割效果
本文实例为大家分享了python实现图片中文字分割的具体代码,供大家参考,具体内容如下 1.原始图片(包含数字): 结果图: 2.原始图片(包含文字): 结果图: 3.代码如下: import cv2 ...
- python 识别图片中的中文_python识别图片中文字的方法
Tesseract 文字识别是ORC的一部分内容,ORC的意思是光学字符识别,通俗讲就是文字识别.Tesseract是一个用于文字识别的工具,我们结合Python使用可以很快的实现文字识别.但是在此之 ...
- python识别图片文字_如何利用Python识别图片中的文字
一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...
- python读取图片上的文字_Python帮你读取图片中的文字(OCR)
此文主要介绍如何通过Python读取图片中的文字(光学字符识别,OCR) 第一步 安装 tesseract 安装过程中注意勾选中文(chi_sim, chi_tra). 第二步 python 安装 p ...
最新文章
- 正则表达式中?=和?:和?!的理解
- sql server ssl安全错误_Nginx的这些安全设置,你都知道吗?
- python学习-函数(定义、可变参、小练习(列表最小值函数))
- TableStore:爬虫数据存储和查询利器
- Advanced Custom Fields Pro 自定义文章字段 wordpress插件
- IoT平台如何实现业务配置中心
- luogu3413 萌数
- 2020年这些正则应该被收藏(更新, 63条)
- STM32串口通信简介
- 开发游戏引擎需要具备什么
- WinCE6.0增加中文字库
- r语言 精美rda图_R语言高质量绘图的10条tips
- virtualBox安装拓展包extension pack失败 --解决办法
- Tomcat启动异常:A child container failed during start 与 ClassNotFoundException解决方法
- 构建maven时No archetypes currently available的解决方法
- vue中使用require动态获取图片地址
- 红帽首席架构师:CentOS Stream 并非要革了 CentOS 的“命”
- 南开大学统计与数据科学院夏令营
- 淘宝店铺商品发布API(新)接口,店铺上传接口代码对接教程
- webmagic学习之路-2:采集安居客经纪人列表