利用Python实现自动识别图片文字 -- OCR
文章目录
- 什么是OCR?
- 安装Tesseract-OCR和pytesseract
- 实现自动识别文字
什么是OCR?
OCR,全称Optical Character Recognition ,中文释义为光学字符识别,是指对一个包含文本信息的图片文件的识别,目前比较流行的OCR有tesseractOCR和cnOCR,在这篇文章中我们使用识别效果较好的tesseractOCR。
安装Tesseract-OCR和pytesseract
首先我们要安装tesseract,到这个网址下载:
Home · UB-Mannheim/tesseract Wiki (github.com)
自己按照电脑的位数选择安装包,下载下来。
下载下来后,打开安装包。
选择语言,没有中文,只好选英文。
然后一直next,但是注意!在安装语言时这个Additional lauguage data千万不要全选,要不然下载过程特别慢,如果需要的话,只安装里面的 Chinese组件就行了。
接下来就比较简单了。
安装完成后我们还得添加环境变量,打开自己安装tesseract的文件夹,复制路径,在右键此电脑,选择属性,打开高级系统设置,打开环境变量,打开用户变量的Path,新建变量,把复制的路径粘贴进去,点确定就行了,可以通过cmd输入 tesseract -v 再回车,如果出现了tesseract的版本信息就说明配置成功了。
然后为了在python中使用tesseract,我们需要安装pytesseract,直接在cmd中用pip安装就好了:
pip install pytesseract
(无视里面的黄色字体,是我电脑的问题,对安装什么的没有影响)
实现自动识别文字
打开python编辑器,把这段代码复制进去:
import pytesseract
from PIL import Imagepytesseract.pytesseract.tesseract_cmd = 'D://Tesseract-OCR//tesseract.exe' # 替换成你自己的tesseract安装路径text = pytesseract.image_to_string(Image.open('D://input.png')) # 替换成要识别的图片路径
print(text)
这是我要识别的图片:
运行后输出为 Hello world ,识别率很高。
怎么样,好玩吧?不仅这样,tesseract还可以识别中文!只不过得安装相应的库,这是下载链接:
https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata
下载下来中文训练包后,把包放到tessdata中就可以识别中文了。
利用Python实现自动识别图片文字 -- OCR相关推荐
- Python 自动识别图片文字—OCR实战教程
OCR 是光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程. 很早之前就有同学在公众号后台回复 ...
- python批量识别图片中文字_利用Python批量进行图片文字识别
实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...
- python批量图片文字识别_利用Python批量进行图片文字识别
实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...
- python利用百度云接口实现文字OCR功能
python利用百度云接口实现文字OCR功能 1. 前言 在日常生活中有时我们需要从图片中获取文字,虽然QQ上面已经有了相关的功能,但是出于学习的目的,我打算利用百度智能云的文字OCR接口来实现OCR ...
- 教你一招利用Python快速去除图片水印
大家好,我是IT界搬运工. 相信大家都有在网上下载好图片但是有水印的烦恼,那么问题就来了:看到心爱的图片想要"占为己有".怎么把图片上的水印去除呢?今天我就来教你一招利用Pytho ...
- 【Python】python实现jpg图片文字转成pdf格式
python实现jpg图片文字转成pdf格式 [代码][Python]代码 #!/usr/bin/env pythonimport os import sys from reportlab.lib.p ...
- Python+Tesseract-OCR识别图片文字并保存到word文档
目录 使用Python+Tesseract-OCR识别图片文字并保存到word文档 安装Tesseract-OCR 配置Tesseract-OCR 通过CMD验证Tesseract-OCR工作 安装p ...
- 利用Python脚本给图片批量添加文字水印
引言:本人从小白自学python,为了测试基础学习效果,增加一定的促进,想通过参加全国计算机等级考试二级python来检验基础学习情况.在学习过程中,会将该过程编写的python小程序题目在此发表,希 ...
- python识别图片文字_如何利用Python识别图片中的文字
一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...
最新文章
- B - Dungeon Master POJ - 2251
- 华为的型号命名规则_电力电缆产品的型号命名规则
- 如果你扯了团队后腿,你应该内疚
- python中的sys模块和os_python中os和sys模块的区别与常用方法总结
- Spring源码学习笔记:经典设计模式之装饰者模式
- NYOJ --21--三个水杯
- psd做成html叫切图吗,第一章 PSD网页切图制作HTML全过程教程.pdf
- jsp页面中文乱码解决方法
- 快捷方式 java 桌面_创建桌面快捷方式
- 物联网技术目前存在的问题
- 病理IHC专题|免疫检查点抑制剂疗效生物标志物PD-L1
- STM32H7学习继续(STM32H7系列9) ADC
- 山西民生云认证工资_山西民生云养老资格认证手机版-山西民生云社会保险综合服务平台v2.2 最新版-007游戏网...
- 快牙网传——轻松发文字
- 【报错解决】错误代码18456,SQL Server 登录失败
- 百度编辑器ueditor添加视频方法
- [DevExpress]DateEdit年月
- 当濒危野生动物开始被昇腾AI保护起来
- 浙江省计算机二级office大纲,(2016浙江省计算机二级office大纲.docx
- 使用动态IP+MDaemon架设邮件服务器
热门文章
- 微信小程序实现商品列表跳转详情页
- C#实现自己的远程桌面控制工具
- 无线室内定位系统和技术在地下采矿中的应用综述2021Applications of Wireless Indoor Positioning Systems and Technologies in U
- postman 获取接口参数_postman 接口参数化操作
- 为什么程序员流动性大_为健康“流动”
- Android热更新初探,Bugly热更新的集成和使用(让你的应用轻松具备热更新能力)
- 一个程序员多年的收藏
- msvc2017配置qt5.12.8 x86和x64库版本切换
- How a Kalman filter works, in picture(reproduced)
- UWP 记一次WTS 和 UCT翻车经历