Python OCR工具pytesseract,之前是惠普的产品,被Google收了之后就给开源了。

1、需要下载并安装Google Tesseract,下载地址看图片上有,要下载4.0.0版本的
2、下载打开后双击打开,选择安装位置,然后一路下一步即可安装完成
3、安装完成需要设置一下环境变量,设置环境变量需自行百度,非常简单
4、安装所需要的Python模块,直接执行以下命令
pip install pillow==9.2.0
pip install pytesseract==0.3.9
5、最后还需要一个语言包文件:chi_sim.traineddata,这个文件需翻墙才能下,有需要的找我可以发给他

注:我的Python版本是3.7,3.8也是可以的,但3.9及以上会出问题,建议你也用3.7

Tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/

代码如下:

# encoding=utf8'''
Python批量识别图片中的文字并保存到txt文档中
'''# 导入包
from PIL import Image
import string,re,os
import pytesseract# 定义方法
def imgtostr(imgpath):'''识别图片中的所有文字'''image = Image.open(imgpath)text = pytesseract.image_to_string(image, lang = 'chi_sim') # 使用简体中文解析图片return text.replace("\n", "") # 去掉换行def writefile(txtpath,strstr):'''将文字累加并写入txt文档'''with open(txtpath, "a", encoding= "utf-8") as f:f.write(strstr) # 写入文件f.write("\n\n")if __name__ == '__main__':# 存放待识别图片的目录,支持所有图片格式imgpath = r'D:\Test\image'# 识别结果保存的txt文件路径txtpath = r'D:\Test\word.txt'# 开始执行for a, b, filenames in os.walk(imgpath):toltal = 0for fe in filenames:grpaimg = imgpath + '/' + fetextddd = imgtostr(grpaimg)writefile(txtpath, grpaimg+":\n"+textddd)print(grpaimg, textddd, end="\n\n")

Python批量识别图片中的文字并保存到txt文档中相关推荐

  1. Python+Tesseract-OCR识别图片文字并保存到word文档

    目录 使用Python+Tesseract-OCR识别图片文字并保存到word文档 安装Tesseract-OCR 配置Tesseract-OCR 通过CMD验证Tesseract-OCR工作 安装p ...

  2. Java GUI编程 简单的学号 姓名输入框,并可导入保存在txt文档中

    (java GUI使用Frame作为顶层容器,简单的学号 姓名输入框,并可导入保存在txt文档中 下面是源代码: import java.awt.*; import java.awt.event.*; ...

  3. python批量读取图片并复制入word_提取word文档中的图片并使用Python进行批量格式转换,出,Word,里,利用,python...

    日常工作中,你是否遇到过这样的场景,领导发来一份 Word 文档,要求你将文档中的图片存储到一个文件夹内,并且还要将图片都改成 .jpg 或者 .png,你会怎么办?你是不是一边内心崩溃,一边开始一张 ...

  4. Python实现某du内容下载, 保存到word文档

    前言 今天来点不一样的 用Python实现某du文库vip内容下载, 保存到word文档 前期准备 环境使用 python 3.8 pycharm 模块使用 requests >>> ...

  5. 物流单号保存在TXT文档,教你一键导入批量查询物流信息

    如何查询物流信息,有没有简单一点的方法可以快速查询物流信息,那当然是有的,例如今天小编要演示的操作,首先,将单号保存在文档中,使用快递批量查询高手一键导入单号并查询物流信息,操作很简单,一起来看看吧! ...

  6. python逐行读取txt写入excel_用python从符合一定格式的txt文档中逐行读取数据并按一定规则写入excel(openpyxl支持Excel 2007 .xlsx格式)...

    前几天接到一个任务,从gerrit上通过ssh命令获取一些commit相关的数据到文本文档中,随后将这些数据存入Excel中.数据格式如下图所示 观察上图可知,存在文本文档中的数据符合一定的格式,通过 ...

  7. python批量识别图片中文字_Python识别图片中的文字

    一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

  8. python批量识别图片中文字_如何用Python识别图片中的文字?

    一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

  9. python批量识别图片中文字_利用Python批量进行图片文字识别

    实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...

最新文章

  1. Hibernate之查询中get()和load()的区别,list()和iterate()的区别
  2. java中array_Java 中的array数组总结之一
  3. 奥委会主席巴赫与马云对谈:阿里巴巴能将奥运精神带进科技时代
  4. JavaScript 中的闭包和作用域链(读书笔记)
  5. Oracle 11g DG主库节点2 ORA-00245: control file backup fail
  6. UserDetailsService详解
  7. c语言定义字符数组数码管,数组数码管
  8. Java 并发编程之同步工具类闭锁 CountDownLatch
  9. 软件测试——测试用例设计测试分类详解
  10. 计算机图标制作教程,电脑主题ICO图标制作方法 详细教程你一学就会
  11. CentOs安装pyhive
  12. 西数云存储 重置 使用手册_如何重置IE浏览器(以IE8 为例),并添加信任网址...
  13. HP 打印机驱动安装报错Return code: 1603解决办法
  14. good website
  15. CleanMyMac X苹果电脑系统C盘清理软件
  16. 谁说淘宝客不赚钱?用此招,票子流量手到擒来!
  17. acm-基础数论学习笔记(下)
  18. Microsoft SQL Server 数据库使用(二)
  19. Unity 中的4X4矩阵
  20. java后端系统学习总结 01_java第五版 java初学笔记,由浅入深

热门文章

  1. Windows7更改自己的计算机名,方便局域网内的用户识别
  2. Vue常用经典开源项目汇总参考-海量
  3. 智商和情商哪个更重要
  4. 春藤家长学院简易产品分析及用户分析、K12教育市场分析
  5. 自学Java系列 笔记2 高级类特性1
  6. Linux上安装oracle19c客户端,Oracle 19c的下载和安装部署(图形安装和静默安装)
  7. 【api】添加了权限管理的一部分
  8. win2003 由于可用空间计算失败_幼儿编程启蒙怎么做?智能家居+ai 玩空间是最佳教具...
  9. 个推透传消息设置通知栏展示 ios_企微功能十问 | 企业微信如何开启聊天侧边栏功能,有什么用?...
  10. unity水特效与标准资源包的下载导入