40行代码自己动手写pdf转word小工具(文末附工具下载)
公众号:可以叫我才哥
大家好,我是启航。
今天咱们介绍一个pdf转word
的免费小工具,满足这么一个不常见但是偶尔会出来烦人的需求!
文末附工具及源码下载方式
我们来先看看小工具操作流程吧!
40行代码自己动手写pdf转word小工具(附工具下载)
对于转化后的效果对比如下:
上面为pdf截图内容,下面为转化后的word截图内容
pdf转word
接下来,我们试试自己动作写这个工具吧!
1. 前期准备
由于我们采用的是python
进行工具编写,并最终需要打包成一个exe
文件供我们使用。为了降低包体大小,我们需要先创建一个虚拟环境
备用。
另外,pdf转word有现成的第三方库pdf2docx
,同时关于gui我们用的是pysimplegui
,打包成exe采用的是pyinstaller
。在创建虚拟环境后,我们将这些需要用到的第三方库也一一安装吧。
# 创建虚拟环境
conda create -n env_pdf python=3.8.8# 激活虚拟环境
conda activate env_pdf# 安装三个库
pip install pdf2docx
pip install pysimplegui
pip install pyinstaller
关于这三个库,大家可以查阅官方文档了解更多:
pdf2word : https://dothinking.github.io/pdf2docx/index.html
pysimplegui:https://pysimplegui.readthedocs.io/en/latest/
pyinstaller:http://www.pyinstaller.org/
前期准备工具就绪,我们开始进入工具编写阶段。
2. pdf转word
pdf转word感觉是一个存在已久的话题,现在其实市面上很多工具可以使用,不过完全免费的可能需要认真找找。
我们知道python有很多处理pdf文档的第三方库以及处理word的第三方库,所以有人就将这两类库的功能进行了整合,从而有了今天的主角pdf2docx
。
基本思路:
利用
PyMuPDF
获取页面元素,例如文本和形状及其位置再利用元素间的相对位置关系推断内容
最后使用
python-docx
将上一步解析的内容元素重建为docx格式的Word文档
基于以上情况,咱们这个工具在进行操作的时候会存在以下不足:
无法识别和重建PDF扫描件
根据有限的、确定的规则建立PDF与docx元素之间的映射并非完全可靠,也就是说仅能处理常见的规范的格式,而非百分百还原
当然,以上这些我们都不用管,直接参考官方给到的代码即可:
from pdf2docx import Converter
import re# 传入文件绝对路径
def pdf_to_word(fileName):pdf_file = fileName# 正则获取不含文件类型后缀的部分,用于组成word文档绝对路径name = re.findall(r'(.*?)\.',pdf_file)[0]docx_file = f'{name}.docx'cv = Converter(pdf_file)cv.convert(docx_file, start=0, end=None)cv.close()
其中,start
和end
参数指定待转换pdf文档的页码范围(默认是从0开始到最后一页);也可以通过pages
指定不连续的页面,例如pages=[1,3,5]
。
3. GUI设计
关于pdf转word的功能,我们需要的就是选择待转化的文件、开始转化即可,另外记录一下操作流让我们知道进度就完美了。所以,功能其实很简单,我们基于以上功能设计简单的GUI如下:
ue设计手稿
由于我们这次用到的是pysimplegui
这个超级简单好用的工具库,那么为了满足以上功能,编码如下(思路见注释)。
import PySimpleGUI as sg
import re# 主题设置
sg.theme('DarkTeal7')# 布局设置
layout = [[sg.Text('待转化的文件是:',font=("微软雅黑", 12)),sg.Text('',key='filename',size=(50,1),font=("微软雅黑", 10),text_color='blue')],[sg.Text('程序操作记录',justification='center')],[sg.Output(size=(80, 20),font=("微软雅黑", 10))], [sg.FileBrowse('选择文件',key='file',target='filename'),sg.Button('开始转化'),sg.Button('关闭程序')]] # 创建窗口
window = sg.Window('pdf转word工具,作者@微信公众号:可以叫我才哥', layout,font=("微软雅黑", 15),default_element_size=(50,1)) # 事件循环
while True:event, values = window.read()if event in (None, '关闭程序'):breakif event == '开始转化':if values['file'] and re.findall(r'\.(\S+)',values['file'])[0]=='pdf':fileName = values['file']pdf_to_word(fileName)print('\n----------转化完毕----------\n')else:print('文件未选取或文件非pdf文件\n请先选择文件')window.close()
不得不说,确实会比PyQt5
要来的简单。
sg.theme('DarkTeal7')
是设置gui的主题,pysimplegui提供很多主题,大家可以自由选择;
layout
就是设置布局,具体我们根据UE手稿需求从上到下依次设置:
sg.Text()
设置文本内容和格式sg.Output()
设置print输出的地方sg.FileBrowse()
设置文件选择浏览器,key
是指定健名称,target
是选定的文件夹名sg.Button()
设置按钮
sg.Window()
是创建窗口,可以带窗口名称等信息
event
和values
是当执行window.read()
函数时的返回值:其中event
是事件,如点击按钮、选择文件等;values
是包含输入的值,比如我们选择文件后的文件名信息值。
结合之前的pdf转word函数,这里的逻辑如下:
当我们点击开始转化按钮,先判断是否选择了pdf文件,如果是则执行转化函数,否则就提示文件未选择或选择的非pdf文件。
4. 打包代码
这里采用的是pyinstaller进行程序代码打包,操作指令如下:
pyinstaller -F -w pdf转word小工具.py
部分参数含义:
-F 表示生成单个可执行文件
-w 表示去掉控制台窗口,这在GUI界面时非常有用
-p 表示你自己自定义需要加载的类路径,一般情况下用不到
-i 表示可执行文件的图标
其实,最新版本的word(office2019)已经天然支持对非扫描版pdf的读取和转化了,大家通过以下流程进行处理:文档—>打开—>选择待转化pdf文件
即可。
office-word自带转化功能
以上就是本次全部内容,pysimplegui官网有很多案例代码,大家可以试试,基本上稍微修改下就可以实现很多你想要做的工具功能, 非常值得去体验!
点赞评论达到10个,咱们在评论区开放工具及源码下载方式,谢谢支持啦
文章到这里就结束了,感谢你的观看
说实在的,每次在后台看到一些读者的回应都觉得很欣慰,我想把我收藏的一些编程干货贡献给大家,回馈每一个读者,希望能帮到你们。
干货主要有:
① 2000多本Python电子书(主流和经典的书籍应该都有了)
② Python标准库资料(最全中文版)
③ 项目源码(四五十个有趣且经典的练手项目及源码)
④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
⑤ Python所有知识点汇总(可以弄清楚Python的所有方向和技术)
*如果你用得到的话可以直接拿走,在我的QQ技术交流群里,可以自助拿走,群号是857113825。*
40行代码自己动手写pdf转word小工具(文末附工具下载)相关推荐
- 80行代码自己动手写一个表格拆分与合并小工具(文末附工具下载)
点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 瑶池阿母绮窗开,黄竹歌声动地哀. ...
- 无聊的程序员教你如何使用十几行代码练就单身20年的手速(文末彩蛋)
故事背景 友女回家学车,今天星期五,明天不上班. 正文开始 作为一个程序员,在无聊的时候会做点什么呢?大多数的都是会选择玩游戏,今晚我也选择了一个游戏,这个游戏叫反应速度大比拼,如下图 玩法特别简单, ...
- 80行代码自己动手用python写一个表格拆分与合并小工具
大家好,我是才哥. 可能是最近加班熬夜太多,这个周末身体不舒服,头痛.冷汗什么的.终于在连着睡了接近2天后,现在慢慢恢复了. 最近有新朋友看到之前<>,想问下有没有免费的小工具,可以进行表 ...
- c 语言500行小游戏代码,500行代码使用python写个微信小游戏飞机大战游戏.pdf
500行行代代码码使使用用python写写个个微微信信小小游游戏戏飞飞机机大大战战游游戏戏 这篇文章主要介绍了500行代码使用python写个微信小游戏飞机大战游戏,本文通过实例代码给大家介绍的非常详 ...
- 用python写web网页实现音乐数据库查询_Python tornado用40行代码搭建数据库交互网页实现快速全栈开发...
作为数据分析师,我们大部分时间做的事情都是搭建线下Excel报表,这既有优点也有缺点 优点是: 开发效率 快速建模,最快十分钟就可以建模 数据传播 便于传播,发文件就是发模型 交互友好 对使用者门槛低 ...
- python画人脸编程怎么写_Python 40行代码实现人脸识别功能
前言 很多人都认为人脸识别是一项非常难以实现的工作,看到名字就害怕,然后心怀忐忑到网上一搜,看到网上N页的教程立马就放弃了.这些人里包括曾经的我自己.其实如果如果你不是非要深究其中的原理,只是要实现这 ...
- python爬虫都能干什么用_5 行代码就能写一个 Python 爬虫
欢迎关注我的公众号:第2大脑,或者博客:高级农民工,阅读体验更好. 摘要:5 行代码就能写一个 Python 爬虫. 如果你是比较早关注我的话,会发现我此前的大部分文章都是在写 Python 爬虫,前 ...
- java selenium_java+selenium,40行代码完成支付宝账单爬取
java+selenium,40行代码完成支付宝账单爬取 需要jar selenium-server-4.0.0-alpha-5.jar 需要驱动 chromedriver.exe 驱动需要和浏览器版 ...
- python调用计算器卡死_Python+tkinter使用40行代码实现计算器功能
本文实例为大家分享了40行Python代码实现计算器功能,供大家参考,具体内容如下 偶尔用脚本写点东西也是不错的. 效果图 代码 from tkinter import * reset=True de ...
- java+selenium,40行代码完成支付宝账单爬取
java+selenium,40行代码完成支付宝账单爬取 需要jar selenium-server-4.0.0-alpha-5.jar 需要驱动 chromedriver.exe 驱动需要和浏览器版 ...
最新文章
- glob.glob 函数读取文件
- @SkipValidation跳过Struts2validation校验器
- Apache配置文件
- android eclipse中导入framework.jar以及使用其隐藏类的方法
- 在创建表时,对于auto_now=True与 auto_now_add=True 的区别
- React开发(101):样式处理
- linux下面 r和 n的区别,【冷知识】关于/r与/n以及 /r/n 的区别总结
- Python 字典推导式 - Python零基础入门教程
- webstorm编辑器,Ctrl+Alt+L格式化JS代码或格式化Vue代码后,单引号变成双引号,以及添加分号设置问题
- Ubuntu下安装arm-linux-gnueabi-xxx编译器【转】
- [00011]-[2015-08-26]-[00]-[Windows 程序设计 ---MFC 截屏---BMP格式 ---JPG格式]
- a中嵌套div的问题
- Unity游戏建议对话功能 Fungus插件。
- 详解 YUV 格式(I420/YUV420/NV12/NV12/YUV422)
- Altera FPGA 差分信号初识(3)
- linux那些事儿 pdf,[转] linux那些事儿之我是HUB - PDF文件
- 《新零售:低价高效的数据赋能之路》读后感
- 宁波市第一医院附近的房屋调研
- 慕容垂:百万战骨风云里——激荡的鲜卑史略之一(转载)
- 《自控力》第八章读书笔记