要实现批量提取图片中的文字，我们可以使用Python的pytesseract和Pillow库。pytesseract是一个OCR（Optical Character Recognition，光学字符识别）引擎，可以将图片中的文字转换为文本字符串。Pillow是一个Python Imaging Library（PIL），可以用来打开、处理和保存图像文件。

下面是一个使用这些库实现的简单脚本示例：

import os
from PIL import Image
import pytesseract

Set up paths and options

input_folder = "input"
output_folder = "output"
lang = "eng"  # Language of the text in the images

Create output folder if it does not exist

if not os.path.exists(output_folder):os.makedirs(output_folder)

Loop through all images in the input folder

for filename in os.listdir(input_folder):# Check if file is an imageif filename.endswith((".png", ".jpg", ".jpeg", ".gif")):# Open the image with Pillowimage_path = os.path.join(input_folder, filename)image = Image.open(image_path)# Convert image to grayscale (to improve OCR accuracy)gray_image = image.convert("L")# Use pytesseract to extract the text from the imagetext = pytesseract.image_to_string(gray_image, lang=lang)# Save the extracted text to a file in the output foldertext_filename = os.path.splitext(filename)[0] + ".txt"text_path = os.path.join(output_folder, text_filename)with open(text_path, "w") as text_file:text_file.write(text)# Print progress messageprint(f"Extracted text from {filename} and saved to {text_filename}.")

在这个程序中，我们首先设置了输入文件夹、输出文件夹和语言选项。然后，我们检查输入文件夹中的每个文件，只对图像文件进行处理。对于每个图像文件，我们使用Pillow库打开它，并将其转换为灰度图像以提高OCR准确性。接下来，我们使用pytesseract库提取图像中的文本，并将其保存到与原始图像同名的文本文件中。最后，我们打印出进度消息，指示我们已经从哪张图片中提取了文本并将其保存到哪个文本文件中。

当脚本执行完毕后，生成的文本文件将放置在“output”文件夹中，并与相应的输入图像文件具有相同的名称（但扩展名不同）。

python实现批量提取图片中文字的小工具相关推荐

基于Python命令行的NBA文字直播小工具
NBA季后赛正在进行中,无奈要上班,不能看视频直播.而文字直播页面又有太多广告之类的东西,所以花半天时间,用Python 3搞一个基于命令行的文字直播,看着清爽,又不容易被领导发现.效果如图所示: 图 ...
单张、批量识别图片中文字（写入txt文件、窗口视图创建、打包.exe文件）（百度文字识别SDK+Python的GUI之tklinker+打包pyinstaller）
昨天我姐问我有没有软件可以批量识别图片上的文字,她在帮客户做资料整理,但是用的方法只能一张一张上传识别,不仅效率低还浪费时间. 我就找了找批量识别的软件,下载下来觉得:嗯?不错,界面也挺好,小东西做 ...
提取图片中文字的方法
一.什么是OCR 很早之前就听说有提取图片中文字的工具和方法,这种文字识别技术称为OCR(Optical Character Recognition).OCR技术的出现,实现了将印刷文字扫描得到的图片 ...
提取图片中文字的教程
很多人在工作中都会遇到提取图片中文字的问题吧,那么遇到提取图片中文字的问题我们应该怎样解决呢?很多人可能采取的都是对着电脑打字进行提取的解决方法.这种方法是可行的,但是实际操作起来,效率不免显得有点 ...
简单的提取图片中文字的教程
提取图片中文字的问题,可能对大家来说并不是很困难的事情,因为直接用手打字,就可以实现提取图片中的文字的问题了.但是对于很多打字速度慢的小伙伴来说,这并不是最适合的方法. 其实对于提取图片中文字的问题, ...
Python，OpenCV提取图片中的多个茄子种子轮廓，并按从左到右排序后显示
Python,OpenCV提取图片中的多个茄子种子轮廓,并按从左到右排序后显示 1. 效果图 2. 源码写这篇博客源于博友的提问,期望把下图中的多个茄子种子按从左到右的顺序提取出来: 1. 效果图 ...
python实现批量提取指定文件夹下同类型文件
python实现批量提取指定文件夹下同类型文件讲解略代码 import os import shutildef take_samefile(or_path, tar_path, tar_type ...
python写的一个-批量下载股票年报的小工具
python写的一个-批量下载股票年报的小工具 from urllib import request import requests import os import openpyxl# print( ...
手写体识别代码_【玩转腾讯云】使用API快速构建文字识别小工具之唐诗识别
本篇推文共计1500个字,阅读时间约3分钟. 腾讯云-腾讯倾力打造的云计算品牌,以卓越科技能力助力各行各业数字化转型,为全球客户提供领先的云计算.大数据.人工智能服务,以及定制化行业解决方案.具体包括 ...

python实现批量提取图片中文字的小工具

Set up paths and options

Create output folder if it does not exist

Loop through all images in the input folder

python实现批量提取图片中文字的小工具相关推荐

最新文章

热门文章