Python+Tesseract-OCR识别图片文字并保存到word文档
目录
- 使用Python+Tesseract-OCR识别图片文字并保存到word文档
- 安装Tesseract-OCR
- 配置Tesseract-OCR
- 通过CMD验证Tesseract-OCR工作
- 安装pytesseract
- 代码示例
- 示例验证注意事项
- 示例图片
- 结果展示
- 学习过程小结
使用Python+Tesseract-OCR识别图片文字并保存到word文档
本文通过使用 Tesseract-OCR 进行图片文本识别。并通过python进行后续处理把识别的文本保存到word文档。本文仅作为入门,由于对于中文图片的识别率并不高,需要后续优化。
安装Tesseract-OCR
Tesseract是一个开源文本识别引擎,通过Apache 2.0授权可用。可以直接使用,或者通过接口编程从图片提取文本,该引擎广泛支持各种语言,本文以Python为例说明:
- 去Windows安装包下载页面,选择需要的
位数
版本. - 运行安装包,一路 下一步 直至安装完成;
配置Tesseract-OCR
添加安装目录到系统环境变量path,比如:
//添加安装目录到系统path
C:\Program Files (x86)\Tesseract-OCR;
通过CMD验证Tesseract-OCR工作
安装pytesseract
//cmd运行下列命令
pip install pytesseract
代码示例
from PIL import Image
import pytesseract
import os
import iotessdata_dir = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
txt = pytesseract.image_to_string(Image.open('./img/20180804.jpg'), lang='chi_sim', config=tessdata_dir)
print(txt)if not os.path.exists('./result'):os.mkdir('./result')with io.open('./result/test.doc', 'w') as fp:fp.write(txt)
示例验证注意事项
中文图片需要使用参数 lang=‘chi_sim’
图片路径可自己设定, 比如:D:/test.jpg
如果安装Tesseract-OCR时未安装该数据包, 可重新运行安装程序,并选择额外的语言包进行安装
为避免系统变量设置问题程序不能找到训练数据,建议设置tessdata_dir
参数
print(txt) 为调试使用,可删除或者注释掉
示例图片
结果展示
识别率不够高,需要继续优化,希望有高手指点(抱拳)
学习过程小结
学习流程图:
Actions speak louder than words.
210 = 1024.
Python+Tesseract-OCR识别图片文字并保存到word文档相关推荐
- Python批量识别图片中的文字并保存到txt文档中
Python OCR工具pytesseract,之前是惠普的产品,被Google收了之后就给开源了. 1.需要下载并安装Google Tesseract,下载地址看图片上有,要下载4.0.0版本的 2 ...
- Python实现某du内容下载, 保存到word文档
前言 今天来点不一样的 用Python实现某du文库vip内容下载, 保存到word文档 前期准备 环境使用 python 3.8 pycharm 模块使用 requests >>> ...
- 图片和Word查阅有什么区别?图片文字怎么转换成word文档
图片和Word查阅有什么区别?图片文字怎么转换成word文档 在阅读和编辑文档时,许多人会面临一种选择:是使用图片还是使用Word文档.尽管两种方法都有其自身的优点和缺点,但实际上,它们之间存在着一些 ...
- 用Tesseract OCR识别图片文字
用tesseract ocr识别图片中的文字 准备 OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以 ...
- 图片文字怎么转换成Word文档?教你两招快速解决
图片中的文字怎么把它转换成Word文档呢?大家在办公的过程中肯定有使用图片的时候,因为图片可以快速将重要的内容记录下来,至于后面的整理图片的时候,很多小伙伴就不想动了,因为需要将图片中的文字用键盘打出 ...
- 计算机文档编辑图片,ABBYY FineReader教程:图片上的文字转为可编辑word文档-实用电脑技巧-电脑技巧收藏家...
ABBYYFineReader教程:图片上的文字转为可编辑word文档 ABBYY FineReader可以一次打开一张或多张图片,将图片上的文字转换为可编辑的word文档,转换后可以保存为一个文件, ...
- java中用流提取文档中的文字,语言实现从word文档中提取文本
word中提取中文 打开Word,CTRL+F打开"查找替换"对话框. 点击下方的"查找替换"对话框的"高级"按钮. 点击"特殊字 ...
- python实现OCR识别图片验证码
用cv2模块读取和显示模块 #导包cv2拓展模块 import cv2#先给窗体起名字 cv2.namedWindow("ShowImage1") cv2.namedWindow( ...
- Python之ocr识别图片并转为excel文件
环境准备 1.开通腾讯文字识别服务 按照官网步骤进行开通:https://cloud.tencent.com/product/generalocr/getting-started 开通 ...
最新文章
- 磁盘阵列的创建与管理
- linux中select()函数分析
- 微信开发中,H5的video标签使用
- Linux在线安装Mysql数据库(Linux)
- java安装的时候无效参数,spring-boot 打成jar把后 启动时指定参数无效
- stm32设备描述符请求失败_我爱OS第21讲:实战篇:IO设备
- win7自带tftp服务器,如何打开tftp服务器,笔者教你Win7系统TFTP服务器怎么开启
- 2019-01-19-build-xmr-stak-on-ubuntu
- 南京地铁行业发展策略与运营建设规模分析报告2022版
- php定义一个矩形类rectangle,Python3面向对象—点和矩形类
- 移动游戏开打平台争夺战
- 大数据与JS实现2014巴西世界杯冠军预测图
- 2021NCTF-RE
- 【系统设计】Verilog语法及示例(2)
- J2EE达内18天笔记
- MODIS数据介绍——波段、产品
- nexus3的配置阿里云代理仓库
- 2021年华为c++面试题及答案
- PHP项目提成,php实现的递归提成方案实例
- 计算机网络知识全面讲解:使用Telnet命令发送电子邮件