文章目录

  • 什么是OCR?
  • 安装Tesseract-OCR和pytesseract
  • 实现自动识别文字

什么是OCR?

OCR,全称Optical Character Recognition ,中文释义为光学字符识别,是指对一个包含文本信息的图片文件的识别,目前比较流行的OCR有tesseractOCR和cnOCR,在这篇文章中我们使用识别效果较好的tesseractOCR。

安装Tesseract-OCR和pytesseract

首先我们要安装tesseract,到这个网址下载:

Home · UB-Mannheim/tesseract Wiki (github.com)

自己按照电脑的位数选择安装包,下载下来。

下载下来后,打开安装包。

选择语言,没有中文,只好选英文。

然后一直next,但是注意!在安装语言时这个Additional lauguage data千万不要全选,要不然下载过程特别慢,如果需要的话,只安装里面的 Chinese组件就行了。

接下来就比较简单了。

安装完成后我们还得添加环境变量,打开自己安装tesseract的文件夹,复制路径,在右键此电脑,选择属性,打开高级系统设置,打开环境变量,打开用户变量的Path,新建变量,把复制的路径粘贴进去,点确定就行了,可以通过cmd输入 tesseract -v 再回车,如果出现了tesseract的版本信息就说明配置成功了。

然后为了在python中使用tesseract,我们需要安装pytesseract,直接在cmd中用pip安装就好了:

pip install pytesseract

(无视里面的黄色字体,是我电脑的问题,对安装什么的没有影响)

实现自动识别文字

打开python编辑器,把这段代码复制进去:

import pytesseract
from PIL import Imagepytesseract.pytesseract.tesseract_cmd = 'D://Tesseract-OCR//tesseract.exe'  # 替换成你自己的tesseract安装路径text = pytesseract.image_to_string(Image.open('D://input.png'))    # 替换成要识别的图片路径
print(text)

这是我要识别的图片:

运行后输出为 Hello world ,识别率很高。

怎么样,好玩吧?不仅这样,tesseract还可以识别中文!只不过得安装相应的库,这是下载链接:
https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata
下载下来中文训练包后,把包放到tessdata中就可以识别中文了。

利用Python实现自动识别图片文字 -- OCR相关推荐

  1. Python 自动识别图片文字—OCR实战教程

    OCR 是光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程. 很早之前就有同学在公众号后台回复 ...

  2. python批量识别图片中文字_利用Python批量进行图片文字识别

    实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...

  3. python批量图片文字识别_利用Python批量进行图片文字识别

    实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...

  4. python利用百度云接口实现文字OCR功能

    python利用百度云接口实现文字OCR功能 1. 前言 在日常生活中有时我们需要从图片中获取文字,虽然QQ上面已经有了相关的功能,但是出于学习的目的,我打算利用百度智能云的文字OCR接口来实现OCR ...

  5. 教你一招利用Python快速去除图片水印

    大家好,我是IT界搬运工. 相信大家都有在网上下载好图片但是有水印的烦恼,那么问题就来了:看到心爱的图片想要"占为己有".怎么把图片上的水印去除呢?今天我就来教你一招利用Pytho ...

  6. 【Python】python实现jpg图片文字转成pdf格式

    python实现jpg图片文字转成pdf格式 [代码][Python]代码 #!/usr/bin/env pythonimport os import sys from reportlab.lib.p ...

  7. Python+Tesseract-OCR识别图片文字并保存到word文档

    目录 使用Python+Tesseract-OCR识别图片文字并保存到word文档 安装Tesseract-OCR 配置Tesseract-OCR 通过CMD验证Tesseract-OCR工作 安装p ...

  8. 利用Python脚本给图片批量添加文字水印

    引言:本人从小白自学python,为了测试基础学习效果,增加一定的促进,想通过参加全国计算机等级考试二级python来检验基础学习情况.在学习过程中,会将该过程编写的python小程序题目在此发表,希 ...

  9. python识别图片文字_如何利用Python识别图片中的文字

    一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

最新文章

  1. B - Dungeon Master POJ - 2251
  2. 华为的型号命名规则_电力电缆产品的型号命名规则
  3. 如果你扯了团队后腿,你应该内疚
  4. python中的sys模块和os_python中os和sys模块的区别与常用方法总结
  5. Spring源码学习笔记:经典设计模式之装饰者模式
  6. NYOJ --21--三个水杯
  7. psd做成html叫切图吗,第一章 PSD网页切图制作HTML全过程教程.pdf
  8. jsp页面中文乱码解决方法
  9. 快捷方式 java 桌面_创建桌面快捷方式
  10. 物联网技术目前存在的问题
  11. 病理IHC专题|免疫检查点抑制剂疗效生物标志物PD-L1
  12. STM32H7学习继续(STM32H7系列9) ADC
  13. 山西民生云认证工资_山西民生云养老资格认证手机版-山西民生云社会保险综合服务平台v2.2 最新版-007游戏网...
  14. 快牙网传——轻松发文字
  15. 【报错解决】错误代码18456,SQL Server 登录失败
  16. 百度编辑器ueditor添加视频方法
  17. [DevExpress]DateEdit年月
  18. 当濒危野生动物开始被昇腾AI保护起来
  19. 浙江省计算机二级office大纲,(2016浙江省计算机二级office大纲.docx
  20. 使用动态IP+MDaemon架设邮件服务器

热门文章

  1. 微信小程序实现商品列表跳转详情页
  2. C#实现自己的远程桌面控制工具
  3. 无线室内定位系统和技术在地下采矿中的应用综述2021Applications of Wireless Indoor Positioning Systems and Technologies in U
  4. postman 获取接口参数_postman 接口参数化操作
  5. 为什么程序员流动性大_为健康“流动”
  6. Android热更新初探,Bugly热更新的集成和使用(让你的应用轻松具备热更新能力)
  7. 一个程序员多年的收藏
  8. msvc2017配置qt5.12.8 x86和x64库版本切换
  9. How a Kalman filter works, in picture(reproduced)
  10. UWP 记一次WTS 和 UCT翻车经历