使用python进行图片的文字识别

文章目录

  • 使用python进行图片的文字识别
    • 安装 Tesseract OCR
      • 安装过程
      • 配置系统的环境变量
    • 安装python的第三方库
      • Pytesseract库
      • Pillow库
    • 运行个demo

安装 Tesseract OCR

  • Tesseract OCR 是一款由 Google 团队开发的开源 OCR(Optical Character Recognition,光学字符识别)引擎,用于将图片、PDF 等格式中的文本转换为可编辑的文本格式。自 1985 年首次发布以来,它已经经历了多个版本和改进,并成为目前最受欢迎的 OCR 引擎之一。

    Tesseract OCR 支持多种语言,包括英语、中文、日语、俄语等等,而且具有较高的准确率和稳定性,尤其在处理大量文字的场景下表现突出。同时,该引擎还支持多线程处理,可以有效地提高识别速度。

  • 下载地址:Home · UB-Mannheim/tesseract Wiki (github.com)

  • Windows安装包: https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-5.3.1.20230401.exe

注意: 这是Windows64位系统安装包.

tesseract源码的GitHub地址:tesseract-ocr/tesseract: Tesseract Open Source OCR Engine ,有能力的可以自行编译源代码

安装过程

  • 双击tesseract-ocr-w64-setup-5.3.1.20230401.exe安装包进行安装

    首先是选择语言界面,默认是英文, 没有中文,有其他国家的语言可以选。

  • Next

  • I Agree

  • 默认为这台电脑进行安装

  • 因为需要在 Tesseract OCR 中识别中文简体等非英语文本,所有需要安装相应的语言数据。

可以只安装特定语言, 比如中文简体

  • 选择安装路径, 比如我选的是D:\Tesseract-OCR,待会配系统环境变量可能会用到这个安装路径。

  • 创建快捷图标

  • 安装中

  • Next

  • Finish

  • 可以在开始菜单栏中看到Console

  • 点进去就能直接进入控制台了

  • 输入:tesseract --help试试

    因为我们不是直接使用命令去操作这个tesseract, 而是使用python去操作它, 因此这个命令行就不用管他, 可以关掉。接下来为了让python能直接使用它, 需要检查系统的环境变量有没有设置好。

    在Windows操作系统中,环境变量用于存储一些系统或用户自定义的参数和路径信息。这些参数和路径信息可以帮助操作系统找到系统中安装的软件和程序,以便正确地运行它们。

  • 重新开个命令窗口

    输入tesseract -v查看版本号,你可能会出现上面的情况, 就是没有配置好系统的环境变量,那就需要配置环境变量

    配置系统的环境变量

  • 以windows10的电脑为例, 打开电脑设置

  • 点击系统, 找到关于,侧边有个高级系统设置, 点击去

  • 可以看到环境变量, 点进去

  • 找到系统变量中的Path选中, 再点击编辑

  • 进入后点击新建

  • 将安装路径复制进去,比如我安装的路径为D:\Tesseract-OCR

  • 复制进去后点击确认

  • 重新进入到命令行中

    输入tesseract -v, 若出现版本号则设置成功

OK, tesseract算是安装完成了, 接下来使用python去操作它了!

安装python的第三方库

Pytesseract库

  • Pytesseract 是一个 Python 的 OCR(Optical Character Recognition,光学字符识别)库,可以用来将图片、PDF 等文件中的文本转换为可编辑的文本格式。它基于 Google 的 Tesseract OCR 引擎,支持多种语言,并且具有较高的准确率和稳定性。

  • 安装 Pytesseract 库可以使用 pip 工具快速完成。按照以下步骤进行操作:

    1. 打开命令行工具(Windows: cmd,Linux/macOS: Terminal)。

    2. 输入以下命令来安装 Pytesseract:

      pip install pytesseract
      
    3. 等待安装完成即可。

    有一点需要注意的是,Pytesseract 库依赖于 Tesseract OCR 引擎,因此在安装 Pytesseract 之前请确保已安装 Tesseract OCR。如果还没有安装 Tesseract OCR,请先下载和安装它,然后再安装 Pytesseract。

  • 可以使用pip list 命令列出你已经安装的python库

Pillow库

  • Pillow 是一个功能强大的图像处理库,可以处理多种格式的图像文件,支持图像处理、图像增强、图像转换等多种操作。
  • 因为识别图片需要用到PIL(Python Imaging Library)库中的 Image 模块

使用 pip 工具来安装 Pillow 库。以下是安装 Pillow 库的命令:

pip install pillow

安装完成后,就可以在 Python 中使用 from PIL import Image 来进行图像处理和操作了。

运行个demo

比如识别这张图

import pytesseract
from PIL import Image# 加载图片
img = Image.open('images/demo.png')# 转换为灰度图像
img = img.convert('L')# 识别文本, 使用pytesseract库进行OCR识别
text = pytesseract.image_to_string(img)# 输出识别结果
print(text)

注意: 默认识别英文和数字

识别效果:

因为都是中文, 识别不出来

  • 若要识别中文, 得进行配置 (前提是安装tesseract时要选择下载好中文简体数据包才能进行使用)
import pytesseract
from PIL import Image# 加载图片
img = Image.open('images/demo.png')# 转换为灰度图像
img = img.convert('L')# 识别文本, 使用pytesseract库进行OCR识别, 将语言设置成中文
text = pytesseract.image_to_string(img, lang='chi_sim')
# 输出识别结果
print(text)

这个识别的正确率还可以, 这取决于图片的质量和文字的清晰规整程度

OK, 上述只是简单的小例子,更多用法可以自行探索, 还可以设置其他参数来提高文字的识别正确率!

  • 使用说明文档https://github.com/madmaze/pytesseract/blob/master/README.rst

比如下面是官方的说明例子:

from PIL import Imageimport pytesseract# 如果您的PATH中没有tesseract可执行文件,请包括以下内容:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# 示例 tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract'# 简单的图像转字符串
print(pytesseract.image_to_string(Image.open('test.png')))# 为了绕过pytesseract的图像转换,只需使用相对或绝对图像路径
# 注意:在这种情况下,您应该提供tesseract支持的图像,否则tesseract将返回错误
print(pytesseract.image_to_string('test.png'))# 可用语言列表
print(pytesseract.get_languages(config=''))# 将法语文本图像转换为字符串
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))# 使用包含多个图像文件路径列表的单个文件进行批处理
print(pytesseract.image_to_string('images.txt'))# 在一段时间后超时/终止tesseract作业
try:print(pytesseract.image_to_string('test.jpg', timeout=2)) # 在2秒后超时print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # 半秒后超时
except RuntimeError as timeout_error:# tesseract处理已终止pass# 获取边界框估计
print(pytesseract.image_to_boxes(Image.open('test.png')))# 获取详细数据,包括框、置信度、行和页码
print(pytesseract.image_to_data(Image.open('test.png')))# 获取有关方向和脚本检测的信息
print(pytesseract.image_to_osd(Image.open('test.png')))# 获取可搜索的PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f:f.write(pdf) # pdf类型默认为bytes# 获取HOCR输出
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr')# 获取ALTO XML输出
xml = pytesseract.image_to_alto_xml('test.png')

使用python进行图片的文字识别相关推荐

  1. python 进行图片的文字识别

    需要安装一些库才能够进行: pip3 install tesseractapt-get install tesseract-ocrpip install pytesseract 图片如下: 代码短小精 ...

  2. Python——调用百度AI实现图片上文字识别

    Python--调用百度AI实现图片上文字识别 简介 步骤 安装百度AI库 注册百度AI开放平台 调用glob库 调用AipOcr库识别文字 可能会遇到的问题 批量操作 简介 Python免费调用百度 ...

  3. python常用的OCR文字识别与图片定位方式

    python常用的OCR文字识别与图片定位方式 前言 统一版本 更换pip源 1. Python调用百度文字识别ocr的实现方式 1.1 使用PyCharm安装依赖 baidu-aip chardet ...

  4. 完全离线的OCR图片转文字识别工具Umi-OCR

    OCR图片转文字识别软件,完全离线.截屏/批量导入图片,支持多国语言.合并段落.竖排文字.可排除水印区域,提取干净的文本.基于 PaddleOCR . 免费:本项目所有代码开源,完全免费. 方便:解压 ...

  5. python百度paddle表格文字识别生成excel

    表格识别技术主要使用基于注意力机制的图片描述模型 RARE,整体流程如下图所示,对于其中的表格区域进行表格识别处理. 表格识别的难点主要在于表格结构的提取,以及将表格信息与 OCR 信息融合.整体流程 ...

  6. 图片扫描文字识别工具:text scanner mac中文版

    Text Scanner 高级版是一款mac用户必备的超强OCR扫描截图识别翻译软件,Text Scanner mac中文版基于AI领先的深度学习算法,利用光学字符识别技术,将图片上的文字内容,直接转 ...

  7. 诚之和:简单应用JavaCV实现图片OCR文字识别

    现在识别的产品非常的多,例如人脸识别.文字识别以及语音识别等等.下面,分享一篇用短短几行的Java代码就可以实现图片OCR文字识别的文章,有兴趣的小伙伴们可以参考学习本文章. spring boot项 ...

  8. php图像识别api,使用腾讯AI开放平台api进行图片OCR文字识别

    重要:本文最后更新于2019-05-20 08:46:46,某些文章具有时效性,若有错误或已失效,请在下方留言或联系代码狗. 其实图片的文字识别其实还算简单,一般是根据特定字体制作出字码文件,然后分割 ...

  9. 图片转文字识别在线,图片转文字方法分享。​

    图片转文字识别在线,图片转文字是一种将图片中的文字内容转化为可编辑文本的技术,也称为OCR技术,通过使用专业的OCR软件或在线OCR服务,可以快速.准确地将图片中的文字提取出来,并输出成可编辑的电子文 ...

最新文章

  1. idea swagger生成接口文档_Spring Boot(九)Swagger2自动生成接口文档和Mock模拟数据...
  2. 算法工程师面试备战笔记4_余弦相似与欧氏距离有什么区别和联系
  3. C++ 基类指针和派生类指针之间的转换
  4. Revit软件安装族库/族样板/项目样板默认位置在哪?(详细说明)
  5. Python分析《哈哈哈哈哈》4万弹幕
  6. 遗传算法和神经网络结合在税收中的运用
  7. Android使用FtpServer开启FTP服务端
  8. 计算机网络:随机访问介质访问控制之CSMA协议
  9. [JAVA面试] java面试
  10. WIN10任务栏的喇叭点了没反应,但是声音是正常的,就是不能调节音量
  11. 钉钉小程序复选框 全选反选 表单获取内容有误处理
  12. 10大关键词解读中国互联网五年间创新飞跃在哪里
  13. Python将数据写入excel表格中保存
  14. python给列表的N个元素赋值-*表达式
  15. 美元兑人民币今天涨156个基点达到6.4044,人民币是否会持续贬值???
  16. 从量子力学到量子卫星:教你成为量子科学高手
  17. 计算心率--基于ppg信号
  18. 练手卦,奖金何时发?
  19. Spring IOC 容器源码分析
  20. DeepLink的使用及任务栈问题

热门文章

  1. oracle 安装 status -2,Oracle 12.2 OJVM安装
  2. Android中SeLinux权限 .te文件编写
  3. android数据库存储查询,geopackage-android 开源的地理空间信息数据库存储
  4. 显示等待与隐式等待的用法
  5. attempt to configure ONS in FanManager failed with oracle.ons.NoServersAvailable: Subscription time
  6. 源码编译安装Nginx及网站服务配置
  7. 9. 查询每个学生及其选修课程的情况,保留学生学号,姓名,课程号,成绩
  8. 洛卡纳哈服务器维护后刷新时间,猎人 洛卡纳哈在哪抓 洛卡纳哈刷新时间
  9. matlab三体运动(仿真动画)
  10. 资损率全球最低!蚂蚁风险大脑正式开放