【python脚本系列】python脚本2——PDF转word文档
只需2行代码,轻松将PDF转换成Word
机器学习算法那些事 2023-05-05 18:58 发表于广东
编辑:数据分析与统计学之美
可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。
pdf2docx功能
解析和创建页面布局
- 页边距
- 章节和分栏 (目前最多支持两栏布局)
- 页眉和页脚 [TODO]
解析和创建段落
- OCR 文本 [TODO]
- 水平(从左到右)或竖直(自底向上)方向文本
- 字体样式例如字体、字号、粗/斜体、颜色
- 文本样式例如高亮、下划线和删除线
- 列表样式 [TODO]
- 外部超链接
- 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距
解析和创建图片
- 内联图片
- 灰度/RGB/CMYK等颜色空间图片
- 带有透明通道图片
- 浮动图片(衬于文字下方)
- 内联图片
解析和创建表格
- 边框样式例如宽度和颜色
- 单元格背景色
- 合并单元格
- 单元格垂直文本
- 隐藏部分边框线的表格
- 嵌套表格
支持多进程转换
pdf2docx同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。
限制
- 目前暂不支持扫描PDF文字识别
- 仅支持从左向右书写的语言(因此不支持阿拉伯语)
- 不支持旋转的文字
- 基于规则的解析无法保证100%还原PDF样式
安装
pip install pdf2docx
案例
from pdf2docx import parse
pdf_file = ‘/path/to/sample.pdf’
docx_file = ‘path/to/sample.docx’
convert pdf to docx
parse(pdf_file, docx_file)
Run
参考:网址
【python脚本系列】python脚本2——PDF转word文档相关推荐
- 基于pdf2docx模块Python实现批量将PDF转Word文档(安装+完整代码教程)
PDF文件是一种常见的文档格式,但是在编辑和修改时不太方便,因为PDF本质上是一种静态的文档格式.因此,有时候我们需要将PDF文件转换成Word格式,以便更好地编辑和修改文档.在本篇文章中,我们将介绍 ...
- 《Python 编程快速上手 — 让繁琐工作自动化》读书笔记之【第13章 处理PDF和Word文档(1)】
PDF 和 Word 文档是二进制文件. 1. PDF 文档 PDF表示Portable Document Format(可移植文档格式),使用.pdf文件扩展名.用于处理PDF的模块是PyPDF2 ...
- 爬虫系列:读取 CSV、PDF、Word 文档
上一期我们讲解了使用 Python 读取文档编码的相关问题,本期我们讲解使用 Python 处理 CSV.PDF.Word 文档相关内容. CSV 我们进行网页采集的时候,你可能会遇到 CSV 文件, ...
- Python+Tesseract-OCR识别图片文字并保存到word文档
目录 使用Python+Tesseract-OCR识别图片文字并保存到word文档 安装Tesseract-OCR 配置Tesseract-OCR 通过CMD验证Tesseract-OCR工作 安装p ...
- Python 将excel中的选择题 导入到word文档中
Python 将excel中的选择题 导入到word文档中 0x00 昨天,我的老师给我们一个包含600道关于比赛的选择题和判断题的excel文档,要我们整理成指定格式的word文档以后交给他.我看着 ...
- PDF转Word文档怎么转?两招教你学会PDF转word
最近小编发现周围的同事每天都被PDF转Word文档这个问题导致加班到很晚,原来老板前些天给了很多PDF格式的文件,还要求把这些PDF文件转成word文档的格式,他们不知道怎么转,竟然一个个对着PDF文 ...
- 办公知识:有关如何PDF转Word文档的方法分享
现在我们从网上下载的资料文献大部分都是PDF格式,由于PDF格式无法自由编辑的性质,想要获取文档中的内容只能一字一句复制粘贴过去,这样做不仅耽误工作进度还耗费精力. 这时候其实可以将PDF转换为可编辑 ...
- 最全的PDF转换Word文档方法汇总(珍藏版)
相信很多人经常使用到Word文档和PDF文档,也有PDF转换Word的需求,不过转换PDF文档也是难倒了很多人了. 今天小编就总结了有关于PDF转Word文档的所有方法,希望对需要的朋友有一定的帮助. ...
- PDF转word文档(java)
PDF转word文档的具体步骤 第一:导入正确的对应的jar包 第二,定义一个字符串是存储PDF文件的路径,代码如下: String pdfFile = "D:/BaiduNetdiskDo ...
- 在线PDF转Word文档-PDFtoWord
在线PDF转Word文档-PDFtoWord [ 2010/01/24 01:02 | by ] 大 | 中 | 小 之前一篇文章介绍了PDF转DOC格式工具后,我在为大家介绍一款在线PDF转DOC格 ...
最新文章
- npm install遇到ENOENT: no such file or directory, rename错误
- Adam 那么棒,为什么还对 SGD 念念不忘?一个框架看懂深度学习优化算法
- mysql创建库几种方法_MySQL创建数据库的两种方法
- 吃惊!江苏抽查发现,144篇硕士学位论文不合格,部分单位将被约谈
- 逆序对(树状数组解决)
- 【bzoj1965】 [Ahoi2005]SHUFFLE 洗牌 欧拉定理
- 将String转换成Int数组-Java
- 箭头函数的使用用法(一)
- 阿里推出 PolarFS 分布式文件系统:将存储与计算分开,提升云数据库性能(附论文)
- Python运算符is与==的区别
- StackExchange.Redis 官方文档(五) Keys, Values and Channels
- [递推][jzyzojP1252]:递推专练4
- JavaScript Math.random()随机数函数
- CJOJ 1070 【Uva】嵌套矩形(动态规划 图论)
- ubuntu之路——day7.1 衡量模型好坏的因素偏差和方差biasvariance 以及在深度学习中的模型优化思路...
- greensock插件下载_使用GreenSock插件轻松制作精美的Web动画
- 首席建筑师之光线追踪教程
- Linux lpadmin 命令 增加usb打印机
- android 播放视频卡顿,android播放一个mp4文件的问题 卡顿非常严重
- iPhone屏蔽IOS更新、iPhone系统更新的提示(免越狱,有效期更新至2021年)
热门文章
- 23考研试卷拆封详细流程!
- 【C++】图像处理中的微分算子原理与实现
- 乞丐的哲学发人深省!!!!!!
- NumPy常用函数(8)-- 根据日期分析股票涨幅
- 【ManageEngine】网络性能监控工具
- 2022年3月电子学会Python等级考试试卷(三级)答案解析
- bzoj 3572: [Hnoi2014]世界树
- java strtotime_php 深入理解strtotime函数的使用详解
- 大数据基金业绩分化简单依赖模型行不通
- Selenium等待时间——隐性等待(implicitly_wait())