文章目录

  • 前言
  • 一、pytesseract
    • 1.pytesseract是什么?
    • 2.安装pytesseract
    • 3.查看pytesseract版本
    • 4.安装PIL
    • 5.查看PIL版本
  • 二、Tesseract OCR
    • 1.Tesseract OCR是什么?
    • 2.安装Tesseract OCR
    • 3.安装 Tesseract OCR 语言包
  • 三、使用方法
    • 1.引入库
    • 2.打开图片文件
    • 3.使用Tesseract进行文字识别
    • 4.输出识别结果
  • 总结

前言

大家好,我是空空star,本篇给大家分享一下通过Python的pytesseract库识别图片中的文字。
本篇所用软件相关版本:
macOS 11.6.5
Python 3.8.9
pytesseract 0.3.10
Pillow 9.4.0


一、pytesseract

1.pytesseract是什么?

Pytesseract是一个Python的OCR库,它可以识别图片中的文本并将其转换成文本形式。Pytesseract基于Google的Tesseract OCR引擎,具有较高的准确性和可靠性。它可以读取多种格式的图片,包括PNG、JPEG、GIF等。Pytesseract可以应用于自然语言处理、数据挖掘、OCR识别等领域。

2.安装pytesseract

pip install pytesseract

3.查看pytesseract版本

pip show pytesseract

Name: pytesseract
Version: 0.3.10
Summary: Python-tesseract is a python wrapper for Google’s Tesseract-OCR
Home-page: https://github.com/madmaze/pytesseract
Author: Samuel Hoffstaetter
Author-email: samuel@hoffstaetter.com
License: Apache License 2.0
Requires: packaging, Pillow
Required-by:

4.安装PIL

Pillow库是Python图像处理库,pytesseract使用它来处理图像。

pip install pillow

5.查看PIL版本

pip show pillow

Name: Pillow
Version: 9.4.0
Summary: Python Imaging Library (Fork)
Home-page: https://python-pillow.org
Author: Alex Clark (PIL Fork Author)
Author-email: aclark@python-pillow.org
License: HPND
Requires:
Required-by: image, imageio, matplotlib, pytesseract, wordcloud

二、Tesseract OCR

1.Tesseract OCR是什么?

Tesseract OCR是一种开源的OCR(Optical Character Recognition,光学字符识别)引擎,它能够将图像中的文本内容识别并转换为可编辑的文本格式。它最初由惠普实验室开发,现在由谷歌维护和更新。Tesseract OCR支持超过100种语言,包括中文、英文、法文、德文等。它可以在多种操作系统上运行,包括Windows、Linux、macOS等。Tesseract OCR被广泛应用于数字化文档、自动化数据输入、智能搜索等方面。

2.安装Tesseract OCR

macOS下:

brew install tesseract

3.安装 Tesseract OCR 语言包

macOS下:

brew install tesseract-lang

三、使用方法

1.引入库

import pytesseract
from PIL import Image

2.打开图片文件

img = Image.open("demo.png")

3.使用Tesseract进行文字识别

text = pytesseract.image_to_string(img, lang='chi_sim')

4.输出识别结果

print(text)

左:原图
右:识别出的文字截图

总结

image_to_string是一个Python函数,它是由tesseract OCR引擎提供的。这个函数的作用是将一个图像中的文本转换成字符串,也就是把图像中的文字识别出来,并把它们转换成计算机可以处理的字符串格式。这个函数可以接受多种格式的图像,例如JPEG、PNG、BMP等。在使用这个函数前,需要确保已经安装了tesseract OCR引擎。

通过Python的pytesseract库识别图片中的文字相关推荐

  1. pytesseract提取识别图片中的文字

    目录 1.获取tesseract版本号 2.获取语言包列表 3.识别图片中的文字 4.获取图片中文字的详细信息 5.识别图片中的文字和位置 6.识别osd信息 7.识别并生成xml文件 避坑指南: p ...

  2. python图片切割以及识别图片中的文字

    今天记录在爬取图片网站时,需要按如下需求展示图片和答案: 本次爬取数据量不大,爬取内容也都集中在一个页面,网站也没有异步加载或反爬措施,但是遇到了三个难点: 难点一:图片链接是lazyload,且全部 ...

  3. python使用aip库识别图片中文字

    一.获取百度智能云API的AppID / API Key / Secret Key 1.创建应用 百度智能云登录地址:https://login.bce.baidu.com/ 2.立即创建 3.得到A ...

  4. python怎么识别图片上的字_python如何识别图片中的文字 | 蒲公英网

    摘要 Python中的PIL库是图片处理的模块库,使用其中的image方法打开图片文件,然后利用pytesseract的image_to_string方法来识别图片中的字符并输出. python如何识 ...

  5. python识别图片上的文字_Python如何识别图片中的文字 【转】

    Python如何识别图片中的文字,这里给个案例并附上详细步骤: 模块包的安装: 1.安装PIL:pip install Pillow 2.安装pytesser3:pip install pytesse ...

  6. python如何识别中文_python如何识别图片中的文字

    python如何识别图片中的文字,这里给个案例并附上详细步骤: 模块包的安装: 1.安装PIL:pip install Pillow 2.安装pytesser3:pip install pytesse ...

  7. python图片识别是否p过_python 基于百度aip库 实现识别图片中的文字

    最终效果 1. 实现环境 win10系统 + pycharm社区版 + anaconda3 2. 实现步骤 step 1. 安装baidu-aip库 step 2. 进入百度ai官网 http://a ...

  8. 用 Python 识别图片中的文字

    一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

  9. python 图片识别_Python—识别图片中的文字

    一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

最新文章

  1. 《响应式Web设计全流程解析》一1.2 静态设计稿舒适区
  2. 关于C语言中的结构体内存对齐与位段问题
  3. poj2019(二维RMQ)
  4. TCP/IP协议的SYN攻击
  5. MySQL数据库 基本操作语句
  6. 2019.01.26【NOIP普及组】模拟赛C组总结
  7. vue人员轨迹_Vue项目(vuecli3.0搭建)集成高德地图实现路线轨迹绘制
  8. React Native屏幕尺寸适配
  9. 《Web漏洞防护》读书笔记——第10章,反序列化漏洞防护
  10. 如何录屏制作gif图片
  11. CVPR 2021 UniT: Multimodal Multitask Learning with a Unifified Transformer
  12. mysql封机器码,lol机器码解除(同理支持市面上任意一款游戏)解机器码
  13. 矩阵的伴随矩阵的伴随矩阵
  14. 161张Menhera酱表情包 无水印汉化版
  15. 文件上传漏洞(客户端绕过,MIMEtipe绕过,getimagesize绕过)
  16. 一元线性回归模型系数、方差估计、检验回归效果显著性,b的置信区间,Y约为X的指数函数时,求Y关于x的回归方程
  17. 非诚勿扰:比舒淇更孤单的是谁?
  18. Dojo的联合创建者Dylan Schiemann访谈
  19. 一年讲50本书,年收入过亿,罗振宇没做到的,樊登读书会凭什么?
  20. 分布式的微服务架构中的核心理念

热门文章

  1. 无线网卡抓包小记--我的无线网卡终于能抓包了
  2. 考研高数学习篇之从复习试卷03-07
  3. wireshark-协议分析【初见】(NBNS协议,SSDP协议、IGMPv2)
  4. ios svn repository
  5. 著名的C10K并发连接问题
  6. Threejs使用LOD根据摄像机距离物体的距离显示不同的物体
  7. 企业经营数据分析非得BI不可吗?
  8. [原创]jQuery小插件-collapsible
  9. gd32f470总结
  10. 密度聚类(CFDP)原理与实现