公众号:可以叫我才哥

大家好,我是启航。

今天咱们介绍一个pdf转word免费小工具,满足这么一个不常见但是偶尔会出来烦人的需求!

文末附工具及源码下载方式

我们来先看看小工具操作流程吧!

40行代码自己动手写pdf转word小工具(附工具下载)

对于转化后的效果对比如下:

上面为pdf截图内容,下面为转化后的word截图内容

pdf转word

接下来,我们试试自己动作写这个工具吧!

1. 前期准备

由于我们采用的是python进行工具编写,并最终需要打包成一个exe文件供我们使用。为了降低包体大小,我们需要先创建一个虚拟环境备用。

另外,pdf转word有现成的第三方库pdf2docx,同时关于gui我们用的是pysimplegui,打包成exe采用的是pyinstaller。在创建虚拟环境后,我们将这些需要用到的第三方库也一一安装吧。

# 创建虚拟环境
conda create -n env_pdf python=3.8.8# 激活虚拟环境
conda  activate env_pdf# 安装三个库
pip install pdf2docx
pip install pysimplegui
pip install pyinstaller

关于这三个库,大家可以查阅官方文档了解更多:

pdf2word : https://dothinking.github.io/pdf2docx/index.html

pysimplegui:https://pysimplegui.readthedocs.io/en/latest/

pyinstaller:http://www.pyinstaller.org/

前期准备工具就绪,我们开始进入工具编写阶段。

2. pdf转word

pdf转word感觉是一个存在已久的话题,现在其实市面上很多工具可以使用,不过完全免费的可能需要认真找找。

我们知道python有很多处理pdf文档的第三方库以及处理word的第三方库,所以有人就将这两类库的功能进行了整合,从而有了今天的主角pdf2docx

基本思路

  • 利用PyMuPDF获取页面元素,例如文本和形状及其位置

  • 再利用元素间的相对位置关系推断内容

  • 最后使用python-docx将上一步解析的内容元素重建为docx格式的Word文档

基于以上情况,咱们这个工具在进行操作的时候会存在以下不足

  • 无法识别和重建PDF扫描件

  • 根据有限的、确定的规则建立PDF与docx元素之间的映射并非完全可靠,也就是说仅能处理常见的规范的格式,而非百分百还原

当然,以上这些我们都不用管,直接参考官方给到的代码即可:

from pdf2docx import Converter
import re# 传入文件绝对路径
def pdf_to_word(fileName):pdf_file = fileName# 正则获取不含文件类型后缀的部分,用于组成word文档绝对路径name = re.findall(r'(.*?)\.',pdf_file)[0]docx_file = f'{name}.docx'cv = Converter(pdf_file)cv.convert(docx_file, start=0, end=None)cv.close()

其中,startend参数指定待转换pdf文档的页码范围(默认是从0开始到最后一页);也可以通过pages指定不连续的页面,例如pages=[1,3,5]

3. GUI设计

关于pdf转word的功能,我们需要的就是选择待转化的文件开始转化即可,另外记录一下操作流让我们知道进度就完美了。所以,功能其实很简单,我们基于以上功能设计简单的GUI如下:

ue设计手稿

由于我们这次用到的是pysimplegui这个超级简单好用的工具库,那么为了满足以上功能,编码如下(思路见注释)。

import PySimpleGUI as sg
import re# 主题设置
sg.theme('DarkTeal7')# 布局设置
layout = [[sg.Text('待转化的文件是:',font=("微软雅黑", 12)),sg.Text('',key='filename',size=(50,1),font=("微软雅黑", 10),text_color='blue')],[sg.Text('程序操作记录',justification='center')],[sg.Output(size=(80, 20),font=("微软雅黑", 10))],                [sg.FileBrowse('选择文件',key='file',target='filename'),sg.Button('开始转化'),sg.Button('关闭程序')]]      # 创建窗口
window = sg.Window('pdf转word工具,作者@微信公众号:可以叫我才哥', layout,font=("微软雅黑", 15),default_element_size=(50,1))    # 事件循环
while True:event, values = window.read()if event in (None, '关闭程序'):breakif event == '开始转化':if values['file'] and re.findall(r'\.(\S+)',values['file'])[0]=='pdf':fileName = values['file']pdf_to_word(fileName)print('\n----------转化完毕----------\n')else:print('文件未选取或文件非pdf文件\n请先选择文件')window.close()

不得不说,确实会比PyQt5要来的简单。

sg.theme('DarkTeal7')是设置gui的主题,pysimplegui提供很多主题,大家可以自由选择;

layout就是设置布局,具体我们根据UE手稿需求从上到下依次设置:

  • sg.Text()设置文本内容和格式

  • sg.Output()设置print输出的地方

  • sg.FileBrowse()设置文件选择浏览器,key是指定健名称,target是选定的文件夹名

  • sg.Button()设置按钮

sg.Window()是创建窗口,可以带窗口名称等信息

eventvalues是当执行window.read()函数时的返回值:其中event是事件,如点击按钮选择文件等;values是包含输入的值,比如我们选择文件后的文件名信息值。

结合之前的pdf转word函数,这里的逻辑如下:

当我们点击开始转化按钮,先判断是否选择了pdf文件,如果是则执行转化函数,否则就提示文件未选择或选择的非pdf文件。

4. 打包代码

这里采用的是pyinstaller进行程序代码打包,操作指令如下:

pyinstaller -F -w pdf转word小工具.py

部分参数含义:

-F    表示生成单个可执行文件

-w   表示去掉控制台窗口,这在GUI界面时非常有用

-p    表示你自己自定义需要加载的类路径,一般情况下用不到

-i     表示可执行文件的图标

其实,最新版本的word(office2019)已经天然支持对非扫描版pdf的读取和转化了,大家通过以下流程进行处理:文档—>打开—>选择待转化pdf文件即可。

office-word自带转化功能

以上就是本次全部内容,pysimplegui官网有很多案例代码,大家可以试试,基本上稍微修改下就可以实现很多你想要做的工具功能, 非常值得去体验!

点赞评论达到10个,咱们在评论区开放工具及源码下载方式,谢谢支持啦

文章到这里就结束了,感谢你的观看

说实在的,每次在后台看到一些读者的回应都觉得很欣慰,我想把我收藏的一些编程干货贡献给大家,回馈每一个读者,希望能帮到你们。

干货主要有:

① 2000多本Python电子书(主流和经典的书籍应该都有了)

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤    Python所有知识点汇总(可以弄清楚Python的所有方向和技术)

*如果你用得到的话可以直接拿走,在我的QQ技术交流群里,可以自助拿走,群号是857113825。*

40行代码自己动手写pdf转word小工具(文末附工具下载)相关推荐

  1. 80行代码自己动手写一个表格拆分与合并小工具(文末附工具下载)

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 瑶池阿母绮窗开,黄竹歌声动地哀. ...

  2. 无聊的程序员教你如何使用十几行代码练就单身20年的手速(文末彩蛋)

    故事背景 友女回家学车,今天星期五,明天不上班. 正文开始 作为一个程序员,在无聊的时候会做点什么呢?大多数的都是会选择玩游戏,今晚我也选择了一个游戏,这个游戏叫反应速度大比拼,如下图 玩法特别简单, ...

  3. 80行代码自己动手用python写一个表格拆分与合并小工具

    大家好,我是才哥. 可能是最近加班熬夜太多,这个周末身体不舒服,头痛.冷汗什么的.终于在连着睡了接近2天后,现在慢慢恢复了. 最近有新朋友看到之前<>,想问下有没有免费的小工具,可以进行表 ...

  4. c 语言500行小游戏代码,500行代码使用python写个微信小游戏飞机大战游戏.pdf

    500行行代代码码使使用用python写写个个微微信信小小游游戏戏飞飞机机大大战战游游戏戏 这篇文章主要介绍了500行代码使用python写个微信小游戏飞机大战游戏,本文通过实例代码给大家介绍的非常详 ...

  5. 用python写web网页实现音乐数据库查询_Python tornado用40行代码搭建数据库交互网页实现快速全栈开发...

    作为数据分析师,我们大部分时间做的事情都是搭建线下Excel报表,这既有优点也有缺点 优点是: 开发效率 快速建模,最快十分钟就可以建模 数据传播 便于传播,发文件就是发模型 交互友好 对使用者门槛低 ...

  6. python画人脸编程怎么写_Python 40行代码实现人脸识别功能

    前言 很多人都认为人脸识别是一项非常难以实现的工作,看到名字就害怕,然后心怀忐忑到网上一搜,看到网上N页的教程立马就放弃了.这些人里包括曾经的我自己.其实如果如果你不是非要深究其中的原理,只是要实现这 ...

  7. python爬虫都能干什么用_5 行代码就能写一个 Python 爬虫

    欢迎关注我的公众号:第2大脑,或者博客:高级农民工,阅读体验更好. 摘要:5 行代码就能写一个 Python 爬虫. 如果你是比较早关注我的话,会发现我此前的大部分文章都是在写 Python 爬虫,前 ...

  8. java selenium_java+selenium,40行代码完成支付宝账单爬取

    java+selenium,40行代码完成支付宝账单爬取 需要jar selenium-server-4.0.0-alpha-5.jar 需要驱动 chromedriver.exe 驱动需要和浏览器版 ...

  9. python调用计算器卡死_Python+tkinter使用40行代码实现计算器功能

    本文实例为大家分享了40行Python代码实现计算器功能,供大家参考,具体内容如下 偶尔用脚本写点东西也是不错的. 效果图 代码 from tkinter import * reset=True de ...

  10. java+selenium,40行代码完成支付宝账单爬取

    java+selenium,40行代码完成支付宝账单爬取 需要jar selenium-server-4.0.0-alpha-5.jar 需要驱动 chromedriver.exe 驱动需要和浏览器版 ...

最新文章

  1. glob.glob 函数读取文件
  2. @SkipValidation跳过Struts2validation校验器
  3. Apache配置文件
  4. android eclipse中导入framework.jar以及使用其隐藏类的方法
  5. 在创建表时,对于auto_now=True与 auto_now_add=True 的区别
  6. React开发(101):样式处理
  7. linux下面 r和 n的区别,【冷知识】关于/r与/n以及 /r/n 的区别总结
  8. Python 字典推导式 - Python零基础入门教程
  9. webstorm编辑器,Ctrl+Alt+L格式化JS代码或格式化Vue代码后,单引号变成双引号,以及添加分号设置问题
  10. Ubuntu下安装arm-linux-gnueabi-xxx编译器【转】
  11. [00011]-[2015-08-26]-[00]-[Windows 程序设计 ---MFC 截屏---BMP格式 ---JPG格式]
  12. a中嵌套div的问题
  13. Unity游戏建议对话功能 Fungus插件。
  14. 详解 YUV 格式(I420/YUV420/NV12/NV12/YUV422)
  15. Altera FPGA 差分信号初识(3)
  16. linux那些事儿 pdf,[转] linux那些事儿之我是HUB - PDF文件
  17. 《新零售:低价高效的数据赋能之路》读后感
  18. 宁波市第一医院附近的房屋调研
  19. 慕容垂:百万战骨风云里——激荡的鲜卑史略之一(转载)
  20. 《自控力》第八章读书笔记

热门文章

  1. 基于Matlab的极限学习机(ELM)实现
  2. Matlab画图常用命令
  3. MATLAB过期破解方法
  4. 分享不会迟到,只会来的晚一点——16倍速视频播放
  5. IntelliJ idea 主题包下载以及安装
  6. 货币代码,不允许ALE通讯
  7. 「干货分享」50人+团队常用的一套PRD模板
  8. 数据结构中数据元素与数据项的区别
  9. 微信公众号查询粉丝列表
  10. 手把手教你安装Latex(保姆级教程)