只需2行代码,轻松将PDF转换成Word
机器学习算法那些事 2023-05-05 18:58 发表于广东
编辑:数据分析与统计学之美
可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。

pdf2docx功能

  • 解析和创建页面布局

    • 页边距
    • 章节和分栏 (目前最多支持两栏布局)
    • 页眉和页脚 [TODO]
  • 解析和创建段落

    • OCR 文本 [TODO]
    • 水平(从左到右)或竖直(自底向上)方向文本
    • 字体样式例如字体、字号、粗/斜体、颜色
    • 文本样式例如高亮、下划线和删除线
    • 列表样式 [TODO]
    • 外部超链接
    • 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距
  • 解析和创建图片

    • 内联图片

      • 灰度/RGB/CMYK等颜色空间图片
      • 带有透明通道图片
      • 浮动图片(衬于文字下方)
  • 解析和创建表格

    • 边框样式例如宽度和颜色
    • 单元格背景色
    • 合并单元格
    • 单元格垂直文本
    • 隐藏部分边框线的表格
    • 嵌套表格
  • 支持多进程转换
    pdf2docx同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。

限制

  • 目前暂不支持扫描PDF文字识别
  • 仅支持从左向右书写的语言(因此不支持阿拉伯语)
  • 不支持旋转的文字
  • 基于规则的解析无法保证100%还原PDF样式

安装
pip install pdf2docx

案例
from pdf2docx import parse

pdf_file = ‘/path/to/sample.pdf’
docx_file = ‘path/to/sample.docx’

convert pdf to docx

parse(pdf_file, docx_file)
Run

参考:网址

【python脚本系列】python脚本2——PDF转word文档相关推荐

  1. 基于pdf2docx模块Python实现批量将PDF转Word文档(安装+完整代码教程)

    PDF文件是一种常见的文档格式,但是在编辑和修改时不太方便,因为PDF本质上是一种静态的文档格式.因此,有时候我们需要将PDF文件转换成Word格式,以便更好地编辑和修改文档.在本篇文章中,我们将介绍 ...

  2. 《Python 编程快速上手 — 让繁琐工作自动化》读书笔记之【第13章 处理PDF和Word文档(1)】

    PDF 和 Word 文档是二进制文件. 1.  PDF 文档 PDF表示Portable Document Format(可移植文档格式),使用.pdf文件扩展名.用于处理PDF的模块是PyPDF2 ...

  3. 爬虫系列:读取 CSV、PDF、Word 文档

    上一期我们讲解了使用 Python 读取文档编码的相关问题,本期我们讲解使用 Python 处理 CSV.PDF.Word 文档相关内容. CSV 我们进行网页采集的时候,你可能会遇到 CSV 文件, ...

  4. Python+Tesseract-OCR识别图片文字并保存到word文档

    目录 使用Python+Tesseract-OCR识别图片文字并保存到word文档 安装Tesseract-OCR 配置Tesseract-OCR 通过CMD验证Tesseract-OCR工作 安装p ...

  5. Python 将excel中的选择题 导入到word文档中

    Python 将excel中的选择题 导入到word文档中 0x00 昨天,我的老师给我们一个包含600道关于比赛的选择题和判断题的excel文档,要我们整理成指定格式的word文档以后交给他.我看着 ...

  6. PDF转Word文档怎么转?两招教你学会PDF转word

    最近小编发现周围的同事每天都被PDF转Word文档这个问题导致加班到很晚,原来老板前些天给了很多PDF格式的文件,还要求把这些PDF文件转成word文档的格式,他们不知道怎么转,竟然一个个对着PDF文 ...

  7. 办公知识:有关如何PDF转Word文档的方法分享

    现在我们从网上下载的资料文献大部分都是PDF格式,由于PDF格式无法自由编辑的性质,想要获取文档中的内容只能一字一句复制粘贴过去,这样做不仅耽误工作进度还耗费精力. 这时候其实可以将PDF转换为可编辑 ...

  8. 最全的PDF转换Word文档方法汇总(珍藏版)

    相信很多人经常使用到Word文档和PDF文档,也有PDF转换Word的需求,不过转换PDF文档也是难倒了很多人了. 今天小编就总结了有关于PDF转Word文档的所有方法,希望对需要的朋友有一定的帮助. ...

  9. PDF转word文档(java)

    PDF转word文档的具体步骤 第一:导入正确的对应的jar包 第二,定义一个字符串是存储PDF文件的路径,代码如下: String pdfFile = "D:/BaiduNetdiskDo ...

  10. 在线PDF转Word文档-PDFtoWord

    在线PDF转Word文档-PDFtoWord [ 2010/01/24 01:02 | by ] 大 | 中 | 小 之前一篇文章介绍了PDF转DOC格式工具后,我在为大家介绍一款在线PDF转DOC格 ...

最新文章

  1. npm install遇到ENOENT: no such file or directory, rename错误
  2. Adam 那么棒,为什么还对 SGD 念念不忘?一个框架看懂深度学习优化算法
  3. mysql创建库几种方法_MySQL创建数据库的两种方法
  4. 吃惊!江苏抽查发现,144篇硕士学位论文不合格,部分单位将被约谈
  5. 逆序对(树状数组解决)
  6. 【bzoj1965】 [Ahoi2005]SHUFFLE 洗牌 欧拉定理
  7. 将String转换成Int数组-Java
  8. 箭头函数的使用用法(一)
  9. 阿里推出 PolarFS 分布式文件系统:将存储与计算分开,提升云数据库性能(附论文)
  10. Python运算符is与==的区别
  11. StackExchange.Redis 官方文档(五) Keys, Values and Channels
  12. [递推][jzyzojP1252]:递推专练4
  13. JavaScript Math.random()随机数函数
  14. CJOJ 1070 【Uva】嵌套矩形(动态规划 图论)
  15. ubuntu之路——day7.1 衡量模型好坏的因素偏差和方差biasvariance 以及在深度学习中的模型优化思路...
  16. greensock插件下载_使用GreenSock插件轻松制作精美的Web动画
  17. 首席建筑师之光线追踪教程
  18. Linux lpadmin 命令 增加usb打印机
  19. android 播放视频卡顿,android播放一个mp4文件的问题 卡顿非常严重
  20. iPhone屏蔽IOS更新、iPhone系统更新的提示(免越狱,有效期更新至2021年)

热门文章

  1. 23考研试卷拆封详细流程!
  2. 【C++】图像处理中的微分算子原理与实现
  3. 乞丐的哲学发人深省!!!!!!
  4. NumPy常用函数(8)-- 根据日期分析股票涨幅
  5. 【ManageEngine】网络性能监控工具
  6. 2022年3月电子学会Python等级考试试卷(三级)答案解析
  7. bzoj 3572: [Hnoi2014]世界树
  8. java strtotime_php 深入理解strtotime函数的使用详解
  9. 大数据基金业绩分化简单依赖模型行不通
  10. Selenium等待时间——隐性等待(implicitly_wait())