昨天突发需求要打印一张图片上的文档,图片拍太昏暗,完全不具有可读性,于是想试试转为word文档,编辑以后再打印,百度了一下,找到了一个大神的文档”使用python在实现图片(包括扫描件的图片类pdf)转换成word文档过程中的常见问题_py617的博客-CSDN博客_python 图片转word“,根据这个文档,基本搞定了需求,但不知道是图片太模糊还是没使用什么高级设置,总之对导出的文档还是得作一些编辑工作才能使用。

根据原文档操作的话,基本框架就有了,但还需要处理一些报错,于是将我的一些处理记录下来,写一篇文章存档:

一、安装必要的工具和库:

1、Python      建议安装3.7或以上版本(我自己安装的是3.8版本,pycharm和anaconda3)

2、tesseract-ocr      这个一定要装,基本算是整个项目的核心工具了,下载地址: https://github.com/UB-Mannheim/tesseract/wiki ,安装最新版本

3、库支持:(如果下载较慢,可以在命令后用-i加入临时国内源,如 -i https://pypi.tuna.tsinghua.edu.cn/simple)

pip install pillow

pip install opencv-python

pip install fitz

pip install PyMuPDF

pip install pytesseract

pip install python-docx

二、可运行的简单代码:

import os
import pytesseract
import cv2 as cv
import fitz
from PIL import Image
from PIL import ImageFile
import docx
from docx.oxml.ns import qn

ImageFile.LOAD_TRUNCATED_IMAGES = True
Image.MAX_IMAGE_PIXELS = None

text = pytesseract.image_to_string(Image.open(r"F:/png2word/test.png"), lang='chi_sim+eng')

doc = docx.Document()        # 创建一个新的word文档
doc.add_paragraph(text)     # 往文档里添加识别出来的文字
doc.add_page_break()        # 添加分页符,等于在word里按多了一次Ctrl+Enter

# 下面两行设置了文档字体全篇为宋体,缺一行不可
doc.styles['Normal'].font.name = u'宋体'
doc.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')

doc.save(os.getcwd() + '\\test.docx')  # 保存文档

三、结语:

花了一个小时,装好了缺失的工具和库以后,只能说基本可以用了,感谢

py617大神和度娘!

用python将图片转为word文档相关推荐

  1. python-docx中文开发文档_使用Python语言-docx生成Word文档

    本文主要向大家介绍了使用Python语言-docx生成Word文档,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助. < 学会来使用python操作数据表和PDF,今天我们尝试 ...

  2. 2021-01-26 Python自动化办公-处理word文档

    Python自动化办公-处理word文档 年底项目投标,需要整理大量的内容,标书的很多内容是其实是之前的标书重复的,可以把对应的各个部分内容合并,然后再处理格式等.如果采用常规操作每次操作需要打开子目 ...

  3. office服务器草稿位置,精确定位图片在Word文档中的位置的操作方法

    除了嵌入型图片外,图片在Word文档中的位置可以通过鼠标拖动来调整.如果需要对图片位置进行精确定位,可以使用相关的命令来进行操作,下面介绍精确定位图片在Word文档中的位置的具体操作方法. 1.在文档 ...

  4. java freemarker 图片_java通过freemarker导出包含富文本图片的word文档

    废话不多说,进入正题! 本文重点在于:对富文本图片的导出(基础的freemarker+word模板导出这里不做详细解说哈) (ps:大神的东西太深奥~~懵逼了 一周才搞定,为了方便后来在更加简单,清晰 ...

  5. Word电子扫描仪 word文档转换为图片Pdf,Word文档扫描成Pdf,word文档加密 word转图片 word转pdf

    Word文档转换为图片Pdf,Word文档扫描成Pdf Word转换为图片Pdf 1.        Word转换为Pdf,程序很多,但转换后的Pdf,还可以复制,虽可以加密禁止复制,但市场上太多的P ...

  6. 黏贴图片到word文档图片显示不全,只显示一行(保姆级图文)

    步骤 系列文章 前言 异常情况 解决方法 总结 系列文章 提示:转到日常小技巧专栏,观看更多内容! 点我直达–>日常小技巧专栏 前言 黏贴图片到word文档图片显示不全(保姆级图文) 发现图片占 ...

  7. PNG图片转换word文档,不用下载软件,免费完成

    PNG格式也是我们工作中常见的图片格式,工作中难免会整理一些PNG图片资料,大家都是怎么做的呢?小编给大家分享一个方法,就是把PNG图片转换word文档,这样就方便我们去整理了,并且无需下载软件就可以 ...

  8. python 自动生成word文档,python实现的生成word文档功能示例

    python实现的生成word文档功能示例 发布时间:2020-09-23 11:37:44 来源:脚本之家 阅读:108 作者:zhizunyu2009 本文实例讲述了python实现的生成word ...

  9. Vue+ElementUi 项目中 将页面内容转为 Word文档下载

    Vue+ElementUi 项目中 将页面内容转为 Word文档下载 需要提前做好的现成模板(魔板个页面基本上相同的内容)-模板内有变量,替换成页面对应的数据 HTML页面: 转换的word 以下是正 ...

最新文章

  1. JAVA不借助第三个变量实现两个变量交换的思考
  2. hql 字符串where语句_hibernate的hql查询语句总结
  3. 会计期间的开关(T-code:OB52)
  4. Ruby on Rails:控制器纵览
  5. 【Git】Git-常用命令备忘录(二)
  6. 具有完整静态文件(JS、CSS)支持的 ASP.NET Core 3.x 动态可加载插件
  7. Oracle序列生成器
  8. 《从问题到程序:用Python学编程和计算》——1.2 Python语言简介
  9. 通过sql脚本可以从数据库中查到数据,但是通过jdbc却获取不到
  10. html 域名随机跳转_看一眼就会的 HTML 小游戏搭建!
  11. 斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键...
  12. 淘宝京东拼多多淘客源码,三合一淘客php源码cms搭建教程
  13. 个人商业画布分析-0408-v1.0王玉娟
  14. Linux命令行删除文件恢复
  15. 高可用、全集成、定制化,蚂蚁金服自动化测试如何演进
  16. 【考研攻略】北京交通大学网络空间安全专业2018-2022年考研数据分析
  17. 北大元培学院数学与计算机,通识教育试验的尴尬 北京大学元培学院近距离观察...
  18. BUG(12) : Configured service account doesn‘t have access. Service account may have been revoked. pod
  19. JS逆向基础知识个人总结
  20. Vivado使用:综合篇(三)综合属性

热门文章

  1. 学科成绩python_学生成绩分析预测
  2. 树莓派搭建属于自己的论坛---`flarum`搭建日记
  3. C++练习实例———中国象棋小游戏
  4. linux 环境安装配置,Linux相关环境安装与配置
  5. 一般过去时的讲解(simple past tense)
  6. windows下浏览器网页视频下载方法
  7. c语言计算火车运行图调整,列车运行图调整是什么意思?调整运行图的这班车还能正常运行吗?...
  8. Mac生成ssh公钥
  9. 传奇假人自动上线_Gom引擎假人配置详细教程(附带脚本实例)
  10. oracle手机号码检验字数_oracle判断手机号码是否合法