一、功能介绍

        利用python对图片内文字内容进行识别提取。

二、调用库下载

我们需要下载两个模块:

pip install pytesseract
pip install pillow

使用快捷键win+R,输入cmd,在分别输入以上代码即可下载库。

三、Tesseract

文字识别是ORC的一部分内容,ORC的意思是光学字符识别,通俗讲就是文字识别。Tesseract是一个用于文字识别的工具,我们结合Python使用可以很快的实现文字识别。但是在此之前我们需要完成一个繁琐的工作。

(1)Tesseract的安装及配置

Tesseract的安装我们可以移步到该网址 https://digi.bib.uni-mannheim.de/tesseract/,我们可以看到如下界面:

有很多版本供大家选择,大家可以根据自己的需求选择。其中w32表示32位系统,w64表示64位系统。安装时我们需要知道我们安装的位置,将安装目录配置到系统path变量当中,我们路径是D:\CodeField\Tesseract-OCR

我们右击我的电脑/此电脑->属性->高级系统设置->环境变量->Path->编辑->新建然后将我们的路径复制进去即可。添加好系统变量后后我们还需要依次点确定,这样才算配置好了。

(2)下载语言包

Tesseract默认是不支持中文的,如果想要识别中文或者其它语言需要下载相应的语言包,下载地址如下: https://tesseract-ocr.github.io/tessdoc/Data-Files ,进入网站后我们往下翻:

其中有两个中文语言包,一个Chinese-Simplified和Chinese-Traditional,它们分别是简体中文和繁体中文,我们选择需要的下载即可。下载完成后我们需要将文件内chi_sim.traineddata放到Tesseract的路径下的tessdata目录下,我们路径是D:\CodeField\Tesseract-OCR\tessdata。可以直接选择下载链接:https://pan.baidu.com/s/1eMVQuteT8bqhcFzGS1-asg 
提取码:pf8y。

 三、文字识别

        批量图片识别:

import os
import pytesseract
# 文字图片的路径
path = 'text_img/'
# 获取图片路径列表
imgs = [path + i for i in os.listdir(path)]
# 打开文件
f = open('text.txt', 'w+', encoding='utf-8')
# 将各个图片的路径写入text.txt文件当中
for img in imgs:f.write(img + '\n')
# 关闭文件
f.close()
# 文字识别
string = pytesseract.image_to_string('text.txt', lang='chi_sim')
print(string)

在工程文件夹内创建py程序文件、放图片的文件夹“text_img”。执行代码会将图片文件夹内图片路径输出到“text.text”文件中,再读取“text.text”输出识别出来的文字。

四、输出结果

源代码:

基于python的图片文字识别。-自然语言处理文档类资源-CSDN下载

图片文字识别python相关推荐

  1. 百度 图片文字识别 Python版本

    百度图片文字识别文档:https://cloud.baidu.com/doc/OCR/s/Sk3h7xyad 1. 创建应用 登录百度智能云,在产品服务/文字识别-概览下创建应用 2. 查看应用列表, ...

  2. 2021-02-21 Python Easyocr 图片文字识别

    Python Easyocr 图片文字识别 前段时间做了车牌识别相关的内容分享,参看: 车牌识别(1)-车牌数据集生成 车牌识别(2)-搭建车牌识别模型 今天给大家分享一个简单的OCR文本识别工具:e ...

  3. python调用百度接口实现ocr识别_Python调用百度OCR实现图片文字识别的示例代码

    百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '* ...

  4. python 百度ocr安装_Python调用百度OCR实现图片文字识别的示例代码

    百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '* ...

  5. Python图片文字识别——Windows下Tesseract-OCR的安装与使用

    Python图片文字识别--Windows下Tesseract-OCR的安装与使用 前言 Windows下Tesseract-OCR的安装与配置 Tesseract-OCR简介与版本选择 tesser ...

  6. python存数据库c读数据库喷码加工_python图片文字识别

    Python语言读取Marc后处理文件基础知识_材料科学_工程科技_专业资料.Python语言简介,Marc计算结果文件读取,焊接模拟后处理实例 基于python 的焊接后处理知识要点: ? ?... ...

  7. python多媒体应用:使用python和win32gui一步步教你按需截图和图片文字识别

    前方高能预警,建议分多次阅读. 这里将会分成三大模块进行介绍. 1.如何使用百度AI识别的API接口进行图片文字识别: 2.如何通过使用python和win32gui进行截图: 3.如何通过使用pyt ...

  8. python识别文字软件_|python图片文字识别扫描工具下载免费版 - 欧普软件下载

    python图片文字识别扫描工具是一款文字识别软件,软件基于Python和百度识别接口设计而来,可快速识别图片中的文字,写入TXT文件,支持快捷键F1截屏,虽说是基于命令行的操作,但是操作也算简单,需 ...

  9. python图像识别系统_Python图像处理之图片文字识别功能(OCR)

    OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...

  10. python文字识别时、当文字不清晰时怎么处理_Python图像处理之图片文字识别功能(OCR)...

    OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...

最新文章

  1. 程序员过年被亲戚鄙视:月薪1万5很一般,在大城市很难养活自己吧?
  2. IOSday05 UIScrollView使用
  3. cesium学习之环境搭建
  4. 来腾讯云开发者实验室 学习.NET
  5. [渝粤教育] 西南科技大学 电子产品制造工艺 在线考试复习资料
  6. 我们为什么要学习3D建模?
  7. 电脑计算机内存不够怎么办,电脑内存不足怎么办 电脑内存不足怎么解决
  8. docker-compose搭建ghost博客系统
  9. java 获取下拉框的值_java中怎么获取下拉框的值
  10. python 文本处理 保留中英文和标点符号_问一下处理英文文本
  11. js进阶 14-6 $.ajax()方法如何使用
  12. 碰到一个摄像头预览画面跳帧的安卓设备
  13. 自定义MyBatis拦截器
  14. 基于FPGA的数字信号处理3.7开平方运算分析
  15. QQ服务器Ip用于文件传输,QQ文件传输协议
  16. 一般格式 | 分离变量法(三)| 偏微分方程(十五)
  17. 腾讯开源Spring Cloud Tencent 是什么
  18. 电脑屏幕黑屏的终极解决办法
  19. 空间超分辨率(SISR)领域非常不错的blog/论文(长期更新)
  20. 哔哩哔哩视屏下载的几种方法

热门文章

  1. 学习区块链经典教程:区块链技术与应用
  2. WPS简历模板的图标怎么修改_160套个人求职简历模板精美套装,修改内容直接套用...
  3. centos7安装apache http server启动失败
  4. 超链接的其他用法,复合选择器
  5. qqxml图片代码_QQxml卡片代码合集超大图
  6. 如何写一个脚本(附送一个脚本)
  7. 【最强大脑】天才数学家陶哲轩亲授25条职业建议
  8. Idea 离线安装插件 Idea 安装离线插件
  9. WPS论文编写问题集(参考文献制作、公式居中及编号、公式影响行间距...)_长期更新中ing...
  10. Petalinux2019.1详细安装