利用Python实现自动识别图片文字 -- OCR

2024-05-18 15:10:53

文章目录

什么是OCR？
安装Tesseract-OCR和pytesseract
实现自动识别文字

什么是OCR？

OCR，全称Optical Character Recognition ，中文释义为光学字符识别，是指对一个包含文本信息的图片文件的识别，目前比较流行的OCR有tesseractOCR和cnOCR,在这篇文章中我们使用识别效果较好的tesseractOCR。

安装Tesseract-OCR和pytesseract

首先我们要安装tesseract，到这个网址下载：

Home · UB-Mannheim/tesseract Wiki (github.com)

自己按照电脑的位数选择安装包,下载下来。

下载下来后，打开安装包。

选择语言，没有中文，只好选英文。

然后一直next，但是注意！在安装语言时这个Additional lauguage data千万不要全选，要不然下载过程特别慢，如果需要的话，只安装里面的 Chinese组件就行了。

接下来就比较简单了。

安装完成后我们还得添加环境变量，打开自己安装tesseract的文件夹，复制路径，在右键此电脑，选择属性，打开高级系统设置，打开环境变量，打开用户变量的Path，新建变量，把复制的路径粘贴进去，点确定就行了，可以通过cmd输入 tesseract -v 再回车，如果出现了tesseract的版本信息就说明配置成功了。

然后为了在python中使用tesseract，我们需要安装pytesseract，直接在cmd中用pip安装就好了：

pip install pytesseract

（无视里面的黄色字体，是我电脑的问题，对安装什么的没有影响）

实现自动识别文字

打开python编辑器，把这段代码复制进去：

import pytesseract
from PIL import Imagepytesseract.pytesseract.tesseract_cmd = 'D://Tesseract-OCR//tesseract.exe'  # 替换成你自己的tesseract安装路径text = pytesseract.image_to_string(Image.open('D://input.png'))    # 替换成要识别的图片路径
print(text)

这是我要识别的图片：

运行后输出为 Hello world ，识别率很高。

怎么样，好玩吧？不仅这样，tesseract还可以识别中文！只不过得安装相应的库，这是下载链接：
https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata
下载下来中文训练包后，把包放到tessdata中就可以识别中文了。

利用Python实现自动识别图片文字 -- OCR相关推荐

Python 自动识别图片文字—OCR实战教程
OCR 是光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程. 很早之前就有同学在公众号后台回复 ...
python批量识别图片中文字_利用Python批量进行图片文字识别
实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...
python批量图片文字识别_利用Python批量进行图片文字识别
实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...
python利用百度云接口实现文字OCR功能
python利用百度云接口实现文字OCR功能 1. 前言在日常生活中有时我们需要从图片中获取文字,虽然QQ上面已经有了相关的功能,但是出于学习的目的,我打算利用百度智能云的文字OCR接口来实现OCR ...
教你一招利用Python快速去除图片水印
大家好,我是IT界搬运工. 相信大家都有在网上下载好图片但是有水印的烦恼,那么问题就来了:看到心爱的图片想要"占为己有".怎么把图片上的水印去除呢?今天我就来教你一招利用Pytho ...
【Python】python实现jpg图片文字转成pdf格式
python实现jpg图片文字转成pdf格式 [代码][Python]代码 #!/usr/bin/env pythonimport os import sys from reportlab.lib.p ...
Python+Tesseract-OCR识别图片文字并保存到word文档
目录使用Python+Tesseract-OCR识别图片文字并保存到word文档安装Tesseract-OCR 配置Tesseract-OCR 通过CMD验证Tesseract-OCR工作安装p ...
利用Python脚本给图片批量添加文字水印
引言:本人从小白自学python,为了测试基础学习效果,增加一定的促进,想通过参加全国计算机等级考试二级python来检验基础学习情况.在学习过程中,会将该过程编写的python小程序题目在此发表,希 ...
python识别图片文字_如何利用Python识别图片中的文字
一.前言不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

最新文章

热门文章