要实现批量提取图片中的文字,我们可以使用Python的pytesseract和Pillow库。pytesseract是一个OCR(Optical Character Recognition,光学字符识别)引擎,可以将图片中的文字转换为文本字符串。Pillow是一个Python Imaging Library(PIL),可以用来打开、处理和保存图像文件。

下面是一个使用这些库实现的简单脚本示例:

import os
from PIL import Image
import pytesseract

Set up paths and options

input_folder = "input"
output_folder = "output"
lang = "eng"  # Language of the text in the images

Create output folder if it does not exist

if not os.path.exists(output_folder):os.makedirs(output_folder)

Loop through all images in the input folder

for filename in os.listdir(input_folder):# Check if file is an imageif filename.endswith((".png", ".jpg", ".jpeg", ".gif")):# Open the image with Pillowimage_path = os.path.join(input_folder, filename)image = Image.open(image_path)# Convert image to grayscale (to improve OCR accuracy)gray_image = image.convert("L")# Use pytesseract to extract the text from the imagetext = pytesseract.image_to_string(gray_image, lang=lang)# Save the extracted text to a file in the output foldertext_filename = os.path.splitext(filename)[0] + ".txt"text_path = os.path.join(output_folder, text_filename)with open(text_path, "w") as text_file:text_file.write(text)# Print progress messageprint(f"Extracted text from {filename} and saved to {text_filename}.")

在这个程序中,我们首先设置了输入文件夹、输出文件夹和语言选项。然后,我们检查输入文件夹中的每个文件,只对图像文件进行处理。对于每个图像文件,我们使用Pillow库打开它,并将其转换为灰度图像以提高OCR准确性。接下来,我们使用pytesseract库提取图像中的文本,并将其保存到与原始图像同名的文本文件中。最后,我们打印出进度消息,指示我们已经从哪张图片中提取了文本并将其保存到哪个文本文件中。

当脚本执行完毕后,生成的文本文件将放置在“output”文件夹中,并与相应的输入图像文件具有相同的名称(但扩展名不同)。

python实现批量提取图片中文字的小工具相关推荐

  1. 基于Python命令行的NBA文字直播小工具

    NBA季后赛正在进行中,无奈要上班,不能看视频直播.而文字直播页面又有太多广告之类的东西,所以花半天时间,用Python 3搞一个基于命令行的文字直播,看着清爽,又不容易被领导发现.效果如图所示: 图 ...

  2. 单张、批量识别图片中文字(写入txt文件、窗口视图创建、打包.exe文件)(百度文字识别SDK+Python的GUI之tklinker+打包pyinstaller)

    昨天我姐问我有没有软件可以批量识别图片上的文字,她在帮客户做资料整理,但是用的方法只能一张一张上传识别,不仅效率低还浪费时间. ​我就找了找批量识别的软件,下载下来觉得:嗯?不错,界面也挺好,小东西做 ...

  3. 提取图片中文字的方法

    一.什么是OCR 很早之前就听说有提取图片中文字的工具和方法,这种文字识别技术称为OCR(Optical Character Recognition).OCR技术的出现,实现了将印刷文字扫描得到的图片 ...

  4. 提取图片中文字的教程

    很多人在工作中都会遇到提取图片中文字的问题吧,那么遇到提取图片中文字 的问题我们应该怎样解决呢?很多人可能采取的都是对着电脑打字进行提取的解决方法.这种方法是可行的,但是实际操作起来,效率不免显得有点 ...

  5. 简单的提取图片中文字的教程

    提取图片中文字的问题,可能对大家来说并不是很困难的事情,因为直接用手打字,就可以实现提取图片中的文字的问题了.但是对于很多打字速度慢的小伙伴来说,这并不是最适合的方法. 其实对于提取图片中文字的问题, ...

  6. Python,OpenCV提取图片中的多个茄子种子轮廓,并按从左到右排序后显示

    Python,OpenCV提取图片中的多个茄子种子轮廓,并按从左到右排序后显示 1. 效果图 2. 源码 写这篇博客源于博友的提问,期望把下图中的多个茄子种子按从左到右的顺序提取出来: 1. 效果图 ...

  7. python实现批量提取指定文件夹下同类型文件

    python实现批量提取指定文件夹下同类型文件 讲解 略 代码 import os import shutildef take_samefile(or_path, tar_path, tar_type ...

  8. python写的一个-批量下载股票年报的小工具

    python写的一个-批量下载股票年报的小工具 from urllib import request import requests import os import openpyxl# print( ...

  9. 手写体识别代码_【玩转腾讯云】使用API快速构建文字识别小工具之唐诗识别

    本篇推文共计1500个字,阅读时间约3分钟. 腾讯云-腾讯倾力打造的云计算品牌,以卓越科技能力助力各行各业数字化转型,为全球客户提供领先的云计算.大数据.人工智能服务,以及定制化行业解决方案.具体包括 ...

最新文章

  1. 计算机复试题库.doc,计算机基础知识面试题库.doc
  2. mysql猎豹_猎豹网校MySQL数据库
  3. Netty出现的原因以及多种Reactor模式
  4. 财务学python有什么用_学习Python对财务工作者有哪些用途?
  5. 1.6.2 多表插入
  6. html表白特效源代码_程序员如何在七夕节表白
  7. BZOJ 2956 模积和
  8. php 辅助函数,辅助函数 - Laravel 5.8 中文文档手册 - php中文网手册
  9. 这 8 个 Python 技巧让你的数据分析提升数倍!
  10. 用python刷网页浏览量_Python 刷网页访问量
  11. UG教程:用UG制作一个属于自己的减压神器——指尖陀螺!
  12. 史上最全的python基础语法知识清单!!!
  13. CentOS7 使用光盘镜像作为yum源
  14. 高数——隐函数与参数方程求导
  15. 怎么把独有的qlv格式转换成mp4格式
  16. ICC学习——LAB0A
  17. win10查看服务器共享文件夹权限,win10共享文件夹win7没有权限访问的解决教程
  18. 【Spring Boot】--整合RabbitMQ
  19. 在请求分页存储管理方案中,若某用户空间为16个页面,页长1KB,现有页表如下,则逻辑地址0A1F(H)所对应的物理地址为( )。
  20. MRTG (Multi Router Traffic Grapher)

热门文章

  1. java的split的正则_Java split方法和正则表达式
  2. docker 学习使用记录
  3. android 6.0 默认输入法,Android中系统默认输入法设置的方法(输入法的显示和隐藏)...
  4. 一篇解双链表(0基础看)(C语言)《数据结构与算法》
  5. 听见丨日本推出“刷手支付”,比刷脸靠谱,出错概率千亿分之一
  6. 如何修改CodeBlocks创建项目默认的main.cpp
  7. 2.4 隐函数和参数方程的导数 相关变化率
  8. Windosws10操作系统下如何删除EFI分区
  9. android中高级面试题,记得把每一次面试当做经验积累
  10. VS2017安装后如何移动 Windows Kits文件夹