基于Tesseract模块Python实现提取图片中的文字信息(安装+使用教程)
Python实现提取图片中的文字可以使用Optical Character Recognition (OCR) 技术来解决。OCR是指将图像中的文本转换成可编辑的文本的过程。Python有许多OCR库,但最流行和最广泛使用的是Tesseract库。
下面是一个使用Python和Tesseract来提取图像中的文本的简单示例代码。
文章目录
- 0. OCR技术介绍
- 1. 安装模块
- 2. 导包
- 3. 读取图像
- 4. 提取字符串
- 5. 打印输出
- 6. 完整代码
- 《100天精通Python》专栏推荐白嫖80g Python全栈视频
0. OCR技术介绍
OCR,即光学字符识别(Optical Character Recognition),是一种将印刷体字符转化为计算机可读文字的技术。OCR技术可以将纸质文档、扫描文档、照片等转化为可编辑的电子文件,方便用户进行编辑、存储和共享。
OCR技术的应用范围非常广泛。例如,银行和保险公司可以使用OCR技术来处理各种表格和文件,包括支票、发票、合同等,从而提高办公效率。医院可以使用OCR技术来处理病历、处方和医学报告,从而提高医疗质量和效率。政府机构可以使用OCR技术来处理各种表格和文件,例如税务申报表、选民登记表等,从而提高政府服务的效率和质量。
OCR技术的原理是利用光学扫描仪将纸质文档转化为数字图像,然后通过图像处理算法将图像中的字符识别出来,并转化为计算机可读的文字。OCR技术的核心是字符识别算法,这个算法需要考虑到各种字体、字号、字距、倾斜度、噪声等因素。
OCR技术的发展历史可以追溯到20世纪50年代,当时的OCR技术只能处理单一字体、字号、字距的文本。随着计算机技术的不断发展,OCR技术也不断进步,现在的OCR技术能够处理各种字体、字号、字距、倾斜度、噪声等复杂条件下的文本,并且具备高精度和高速度的特点。
总之,OCR技术是一种非常实用的技术,可以帮助用户将纸质文档转化为电子文件,从而提高办公效率和工作质量。随着计算机技术的不断进步,OCR技术也将不断发展,为用户提供更加高效和便捷的服务。
1. 安装模块
1、安装Tesseract、Tesseract、Pillow模块,可以使用以下命令:
pip install pytesseract
pip install pillow
pip install tesseract-ocr # 如果这个安装报错就用下面的手动安装方法
2、从网上找到相应的‘Tesseract-OCR’下载安装(自行寻找对应版本):https://digi.bib.uni-mannheim.de/tesseract/
3、无脑默认安装即可,安装后的默认文件路径为(这里使用的是Windows版本):C:\Program Files\Tesseract-OCR\
4、找到python的安装路径下的pytesseract,不知道在哪里的的在cmd控制执行:pip show pytesseract
例如我的就在D:\Python3.8\Lib\site-packages\pytesseract
5、进入上面的路径,打开pytesseract.py
文件:
6、然后将源码中的tesseract_cmd = 'tesseract'
,更改为:
tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
2. 导包
然后,导入必要的库:
import cv2
import pytesseract
3. 读取图像
接下来,读取图像并将其转换为灰度:
img = cv2.imread('image.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
4. 提取字符串
然后调用pytesseract库的“image_to_string”函数,将图像转换为字符串:
text = pytesseract.image_to_string(gray)
5. 打印输出
print(text)
运行结果:
6. 完整代码
import cv2
import pytesseractimg = cv2.imread(r'image.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)
《100天精通Python》专栏推荐白嫖80g Python全栈视频
《100天精通Python从入门到就业》:本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学,从0到100的不断进阶深入,后续还有实战项目,轻松应对面试,专栏订阅地址:https://blog.csdn.net/yuan2019035055/category_11466020.html
- 优点:订阅限时9.9付费专栏进入千人全栈VIP答疑群,作者优先解答机会(代码指导、远程服务),群里大佬众多可以抱团取暖(大厂内推机会)!
- 专栏福利:简历指导、招聘内推、每周送实体书、80G全栈学习视频、300本IT电子书:Python、Java、前端、大数据、数据库、算法、爬虫、数据分析、机器学习、面试题库等等
基于Tesseract模块Python实现提取图片中的文字信息(安装+使用教程)相关推荐
- Python利用百度AI提取图片中的文字信息
Python利用百度AI提取图片中的文字信息 安装百度AI : pip install baidu-aip 到https://console.bce.baidu.com/ai/创建文字识别应用,获取A ...
- python文字提取关键信息_Python提取图片中的文字信息,腾讯内部技术,一行代码搞定!...
用过手机QQ就知道,点击一个图片会弹出一个小功能,那就是提取图片中的文字.非常方便实用,那么很难实现吗? 利用Python提取图片中的文字信息,只需要一行代码就能搞定! 当然,这是吹牛皮的,但是真正的 ...
- 如何快速提取图片中的文字信息、例如加密的pdf、不能复制的pdf文件
如何快速提取图片中的文字信息.例如加密的pdf.不能复制的pdf文件 1.将需要转换图片通过微信文件助手发送在自己的手机上 2.打开图片,长按图片后点击 "提取文字" 3.点击全选 ...
- python调用qq识别图片文字_Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容实例详解...
百度OCR体验地址: 腾讯OCR体验地址: 测试结果是:腾讯的效果要比百度的好 腾讯云目前额度是: 每个接口 1,000次/月免费,有6个文字识别的接口,一共是6,000次/月 百度接口调用之前写过文 ...
- Python批量识别图片中的文字并保存到txt文档中
Python OCR工具pytesseract,之前是惠普的产品,被Google收了之后就给开源了. 1.需要下载并安装Google Tesseract,下载地址看图片上有,要下载4.0.0版本的 2 ...
- 怎么提取图片中的文字?分享一个超好用的方法
随着科技的不断进步,提取图片中的文字已经成为一个相对容易的任务.通过光学字符识别技术(OCR),我们可以将图片中的文字转化为文本形式,使得我们能够更加方便地进行文本分析和处理.今天分享一款基于云端的O ...
- 在线工具:电脑怎么提取图片中的文字?图片如何转化为文字?
电脑怎么提取图片中的文字? 图片记录着我们生活的点点滴滴,比如各种办公截图.查快递单号.布置的课堂作业等等,都离不开这种便捷的方法.而我们有时难免需要从图片中提取想要的文字,总不能就靠打字打到手软吧, ...
- 【Microsoft Office Document Imaging 2007】提取图片中的文字
使用Microsoft Office 2007工具里的程序:Microsoft Office Document Imaging提取图片中的文字 一.首先查看自己是否安装了Microsoft Offic ...
- 电脑怎么提取图片中的文字?
图片记录着我们生活的点点滴滴,比如各种办公截图.查快递单号.布置的课堂作业等等,都离不开这种便捷的方法.而我们有时难免需要从图片中提取想要的文字,总不能就靠打字打到手软吧,那么电脑怎么提取图片中的文字 ...
最新文章
- super返回不过来
- vue 02-上计算属性、样式的操作,指令(含自定义,全局和局部)
- oracle 关于日期格式转换与使用
- MyBatis的useGenerateKeys的使用方法
- MongoDB简介与入门
- android 安装assets中的apk,如何安装assets下apk,附源码(原创)
- 廖雪峰js教程笔记10 浏览器对象
- 在中国程序员能不能干一辈子?水平差距再大也逃不掉这个噩梦吗?
- union与struct的区别
- 《Python核心编程》18.多线程编程(二)
- 网易云音乐自动获取前三首歌曲名称
- 服务器安全基础知识系列(三)关于网页木马
- 简单的水印制作之美图秀秀
- Powershell的字符串
- 计算机如何操作补考,关于计算机Excel补考试题
- python pdf处理工具_用Python处理pdf文档
- DataList绑定照片并分页
- 兼容NSR20F30NXT5G的小体积肖特基二极管
- MongoDB副本集部署
- 《从0到1-全面深刻理解MySQL系列》- 最详细的MySQL安装流程(Window版)
热门文章
- 唱歌如何保持高位置_如何找到唱歌发声高位置?四招教你快速找到高位置!
- ZZNU 压死骆驼的最后一根稻草 规律题
- 详解Python的33个保留字
- linux矢量图像编辑,Inkscape 1.0发布,开源矢量图形编辑器重要版本
- 如何提高自己的阅读速度
- 方舟搜服务器就无限崩溃,哪个老哥知道一搜索非官方服务器就闪退的问题谢谢谢谢...
- 拥有这4种心态 注定你是成为韭菜!
- 间谍程序Exodus移植到iOS平台上 恐窃取用户信息
- 电容屏幕触摸屏驱动——ft5406 芯片
- 《大黄蜂》发布“蜂狂开战”预告 大黄蜂绝境出击迎战霸天虎