目录

  • 使用Python+Tesseract-OCR识别图片文字并保存到word文档
    • 安装Tesseract-OCR
      • 配置Tesseract-OCR
      • 通过CMD验证Tesseract-OCR工作
    • 安装pytesseract
    • 代码示例
    • 示例验证注意事项
    • 示例图片
    • 结果展示
    • 学习过程小结

使用Python+Tesseract-OCR识别图片文字并保存到word文档

本文通过使用 Tesseract-OCR 进行图片文本识别。并通过python进行后续处理把识别的文本保存到word文档。本文仅作为入门,由于对于中文图片的识别率并不高,需要后续优化。

安装Tesseract-OCR

Tesseract是一个开源文本识别引擎,通过Apache 2.0授权可用。可以直接使用,或者通过接口编程从图片提取文本,该引擎广泛支持各种语言,本文以Python为例说明:

  1. 去Windows安装包下载页面,选择需要的位数版本.
  2. 运行安装包,一路 下一步 直至安装完成;

配置Tesseract-OCR

添加安装目录到系统环境变量path,比如:

//添加安装目录到系统path
C:\Program Files (x86)\Tesseract-OCR;

通过CMD验证Tesseract-OCR工作

安装pytesseract

//cmd运行下列命令
pip install pytesseract

代码示例

from PIL import Image
import pytesseract
import os
import iotessdata_dir = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
txt = pytesseract.image_to_string(Image.open('./img/20180804.jpg'), lang='chi_sim', config=tessdata_dir)
print(txt)if not os.path.exists('./result'):os.mkdir('./result')with io.open('./result/test.doc', 'w') as fp:fp.write(txt)

示例验证注意事项

中文图片需要使用参数 lang=‘chi_sim’
图片路径可自己设定, 比如:D:/test.jpg

如果安装Tesseract-OCR时未安装该数据包, 可重新运行安装程序,并选择额外的语言包进行安装

为避免系统变量设置问题程序不能找到训练数据,建议设置tessdata_dir参数

print(txt) 为调试使用,可删除或者注释掉

示例图片

结果展示


识别率不够高,需要继续优化,希望有高手指点(抱拳)

学习过程小结

学习流程图:

Created with Raphaël 2.2.0需求分析查找资料成功?任务完成yesno

Actions speak louder than words.

210 = 1024.

Python+Tesseract-OCR识别图片文字并保存到word文档相关推荐

  1. Python批量识别图片中的文字并保存到txt文档中

    Python OCR工具pytesseract,之前是惠普的产品,被Google收了之后就给开源了. 1.需要下载并安装Google Tesseract,下载地址看图片上有,要下载4.0.0版本的 2 ...

  2. Python实现某du内容下载, 保存到word文档

    前言 今天来点不一样的 用Python实现某du文库vip内容下载, 保存到word文档 前期准备 环境使用 python 3.8 pycharm 模块使用 requests >>> ...

  3. 图片和Word查阅有什么区别?图片文字怎么转换成word文档

    图片和Word查阅有什么区别?图片文字怎么转换成word文档 在阅读和编辑文档时,许多人会面临一种选择:是使用图片还是使用Word文档.尽管两种方法都有其自身的优点和缺点,但实际上,它们之间存在着一些 ...

  4. 用Tesseract OCR识别图片文字

    用tesseract ocr识别图片中的文字  准备 OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以 ...

  5. 图片文字怎么转换成Word文档?教你两招快速解决

    图片中的文字怎么把它转换成Word文档呢?大家在办公的过程中肯定有使用图片的时候,因为图片可以快速将重要的内容记录下来,至于后面的整理图片的时候,很多小伙伴就不想动了,因为需要将图片中的文字用键盘打出 ...

  6. 计算机文档编辑图片,ABBYY FineReader教程:图片上的文字转为可编辑word文档-实用电脑技巧-电脑技巧收藏家...

    ABBYYFineReader教程:图片上的文字转为可编辑word文档 ABBYY FineReader可以一次打开一张或多张图片,将图片上的文字转换为可编辑的word文档,转换后可以保存为一个文件, ...

  7. java中用流提取文档中的文字,语言实现从word文档中提取文本

    word中提取中文 打开Word,CTRL+F打开"查找替换"对话框. 点击下方的"查找替换"对话框的"高级"按钮. 点击"特殊字 ...

  8. python实现OCR识别图片验证码

    用cv2模块读取和显示模块 #导包cv2拓展模块 import cv2#先给窗体起名字 cv2.namedWindow("ShowImage1") cv2.namedWindow( ...

  9. Python之ocr识别图片并转为excel文件

    环境准备 1.开通腾讯文字识别服务         按照官网步骤进行开通:https://cloud.tencent.com/product/generalocr/getting-started 开通 ...

最新文章

  1. 磁盘阵列的创建与管理
  2. linux中select()函数分析
  3. 微信开发中,H5的video标签使用
  4. Linux在线安装Mysql数据库(Linux)
  5. java安装的时候无效参数,spring-boot 打成jar把后 启动时指定参数无效
  6. stm32设备描述符请求失败_我爱OS第21讲:实战篇:IO设备
  7. win7自带tftp服务器,如何打开tftp服务器,笔者教你Win7系统TFTP服务器怎么开启
  8. 2019-01-19-build-xmr-stak-on-ubuntu
  9. 南京地铁行业发展策略与运营建设规模分析报告2022版
  10. php定义一个矩形类rectangle,Python3面向对象—点和矩形类
  11. 移动游戏开打平台争夺战
  12. 大数据与JS实现2014巴西世界杯冠军预测图
  13. 2021NCTF-RE
  14. 【系统设计】Verilog语法及示例(2)
  15. J2EE达内18天笔记
  16. MODIS数据介绍——波段、产品
  17. nexus3的配置阿里云代理仓库
  18. 2021年华为c++面试题及答案
  19. PHP项目提成,php实现的递归提成方案实例
  20. 计算机网络知识全面讲解:使用Telnet命令发送电子邮件

热门文章

  1. bootstrap php三级联动,基于Bootstrap实现城市三级联动
  2. 读取json格式的图片、文字并保存成图片
  3. 海信威武!吞并日本东芝,又一家日本巨头倒下
  4. 2014年蓝桥杯省赛:兰顿蚂蚁(简单模拟)
  5. WIFI中的DCA信道和EIRP功率
  6. javaScript中的匿名函数
  7. 短视频APP开发分解,短视频系统源码特点功能难度剖析
  8. 大公司项目开发到上线流程
  9. mkdocs添加百度统计
  10. MIPS架构的Linux系统安装配置Qt5.11