使用Python+Tesseract-OCR识别图片文字并保存到word文档

本文通过使用 Tesseract-OCR 进行图片文本识别。并通过python进行后续处理把识别的文本保存到word文档。本文仅作为入门，由于对于中文图片的识别率并不高，需要后续优化。

安装Tesseract-OCR

Tesseract是一个开源文本识别引擎，通过Apache 2.0授权可用。可以直接使用，或者通过接口编程从图片提取文本，该引擎广泛支持各种语言，本文以Python为例说明：

去Windows安装包下载页面，选择需要的位数版本.
运行安装包，一路 下一步 直至安装完成；

配置Tesseract-OCR

添加安装目录到系统环境变量path，比如：

//添加安装目录到系统path
C:\Program Files (x86)\Tesseract-OCR;

通过CMD验证Tesseract-OCR工作

安装pytesseract

//cmd运行下列命令
pip install pytesseract

代码示例

from PIL import Image
import pytesseract
import os
import iotessdata_dir = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
txt = pytesseract.image_to_string(Image.open('./img/20180804.jpg'), lang='chi_sim', config=tessdata_dir)
print(txt)if not os.path.exists('./result'):os.mkdir('./result')with io.open('./result/test.doc', 'w') as fp:fp.write(txt)

示例验证注意事项

中文图片需要使用参数 lang=‘chi_sim’
图片路径可自己设定， 比如：D:/test.jpg

如果安装Tesseract-OCR时未安装该数据包， 可重新运行安装程序，并选择额外的语言包进行安装

为避免系统变量设置问题程序不能找到训练数据，建议设置tessdata_dir参数

print(txt) 为调试使用，可删除或者注释掉

示例图片

结果展示

识别率不够高，需要继续优化，希望有高手指点（抱拳）

学习过程小结

学习流程图：

Created with Raphaël 2.2.0需求分析查找资料成功？任务完成yesno

Actions speak louder than words.

2¹⁰ = 1024.

Python+Tesseract-OCR识别图片文字并保存到word文档相关推荐

Python批量识别图片中的文字并保存到txt文档中
Python OCR工具pytesseract,之前是惠普的产品,被Google收了之后就给开源了. 1.需要下载并安装Google Tesseract,下载地址看图片上有,要下载4.0.0版本的 2 ...
Python实现某du内容下载, 保存到word文档
前言今天来点不一样的用Python实现某du文库vip内容下载, 保存到word文档前期准备环境使用 python 3.8 pycharm 模块使用 requests >>> ...
图片和Word查阅有什么区别？图片文字怎么转换成word文档
图片和Word查阅有什么区别?图片文字怎么转换成word文档在阅读和编辑文档时,许多人会面临一种选择:是使用图片还是使用Word文档.尽管两种方法都有其自身的优点和缺点,但实际上,它们之间存在着一些 ...
用Tesseract OCR识别图片文字
用tesseract ocr识别图片中的文字准备 OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以 ...
图片文字怎么转换成Word文档？教你两招快速解决
图片中的文字怎么把它转换成Word文档呢?大家在办公的过程中肯定有使用图片的时候,因为图片可以快速将重要的内容记录下来,至于后面的整理图片的时候,很多小伙伴就不想动了,因为需要将图片中的文字用键盘打出 ...
计算机文档编辑图片,ABBYY　FineReader教程：图片上的文字转为可编辑word文档-实用电脑技巧-电脑技巧收藏家...
ABBYYFineReader教程:图片上的文字转为可编辑word文档 ABBYY FineReader可以一次打开一张或多张图片,将图片上的文字转换为可编辑的word文档,转换后可以保存为一个文件, ...
java中用流提取文档中的文字,语言实现从word文档中提取文本
word中提取中文打开Word,CTRL+F打开"查找替换"对话框. 点击下方的"查找替换"对话框的"高级"按钮. 点击"特殊字 ...
python实现OCR识别图片验证码
用cv2模块读取和显示模块 #导包cv2拓展模块 import cv2#先给窗体起名字 cv2.namedWindow("ShowImage1") cv2.namedWindow( ...
Python之ocr识别图片并转为excel文件
环境准备 1.开通腾讯文字识别服务按照官网步骤进行开通:https://cloud.tencent.com/product/generalocr/getting-started 开通 ...

Python+Tesseract-OCR识别图片文字并保存到word文档

目录