Python库 pdf2docx 轻松将PDF转换成docx
前言: 可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。
pdf2docx功能
解析和创建页面布局
- 页边距
- 章节和分栏 (目前最多支持两栏布局)
- 页眉和页脚 [TODO]
解析和创建段落
- OCR 文本 [TODO]
- 水平(从左到右)或竖直(自底向上)方向文本
- 字体样式例如字体、字号、粗/斜体、颜色
- 文本样式例如高亮、下划线和删除线
- 列表样式 [TODO]
- 外部超链接
- 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距
解析和创建图片
- 内联图片
- 灰度/RGB/CMYK等颜色空间图片
- 带有透明通道图片
- 浮动图片(衬于文字下方)
解析和创建表格
- 边框样式例如宽度和颜色
- 单元格背景色
- 合并单元格
- 单元格垂直文本
- 隐藏部分边框线的表格
- 嵌套表格
支持多进程转换
pdf2docx同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。
限制
- 目前暂不支持扫描PDF文字识别
- 仅支持从左向右书写的语言(因此不支持阿拉伯语)
- 不支持旋转的文字
- 基于规则的解析无法保证100%还原PDF样式
安装:
#安装
pip install pdf2docx
案例
from pdf2docx import parsepdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'# convert pdf to docx
parse(pdf_file, docx_file)
Python库 pdf2docx 轻松将PDF转换成docx相关推荐
- 【Python】只需2行代码,轻松将PDF转换成Word(含示范案例)
文章目录 一.前期准备 二.pdf2docx功能 三.限制 四.案例 一.前期准备 可将 PDF 转换成 docx 文件的 Python 库.该项目通过 PyMuPDF 库提取 PDF 文件中的数据, ...
- 【Python】只需2行代码,轻松将PDF转换成Word
编辑:数据分析与统计学之美 可将 PDF 转换成 docx 文件的 Python 库.该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局.段落 ...
- 两种方法轻松将pdf转换成jpg格式
现在大家写文章一般都喜欢图文并茂,所以在网上看到的文档基本都有图片,如果是普通的文档格式我们可以直接将图片提取出来,但是现在的文件基本都以pdf格式上传,这时想要图片就需要将其进行格式转换了,下面就一 ...
- 用python写代码,把PDF转换成word
可以使用 Python 的库 "PyPDF2" 来将 PDF 转换为 Word. 安装 PyPDF2: pipinstall pypdf2 然后,可以使用以下代码将 PDF 转换为 ...
- 使用python将doc的word文件转换成docx文件
文章目录 一.学习目标: 二.直接转换代码: 一.学习目标: 主要之前使用python提起word的docx的文件的数据.但是今天发现,如果是doc后缀的word文件,会报错,这样就无法提取数据了,然 ...
- 怎样可以在线将pdf转换成jpg格式
pdf文件有很多种,但是处理它的方法只有一种,就是将其转换成可编辑的格式,虽然文字类的pdf文件我们经常看到,但是图片格式的也不少,今天就先以pdf转图片为例,说说转换pdf文件格式的方法. 在线就能 ...
- PDF转换成word免费
PDF文档如何转换成Word格式的?大家多多少少都会遇到这样的问题,比如在网上下载论文资料.电子书等文件时,会发现资料都是PDF格式的.下载后却不能复制编辑,这种情况太让人沮丧了吧!PDF格式的文件在 ...
- pdf转换成txt转换器在线转换
PDF.TXT.Word.Excel和Word格式文件是我们我们日常办公中使用频率最高的,有时我们需要将PDF转换成为更加便捷打印编辑的TXT和Word文档,而面对这两种不同格式的转换,很多用户都试图 ...
- python如何使用最简单的方式将PDF转换成Word?
由于PDF的文件大多都是只读文件,有时候为了满足可以编辑的需要通常可以将PDF文件直接转换成Word文件进行操作. 看了网络上面的python转换PDF文件为Word的相关文章感觉都比较复杂,并且关于 ...
最新文章
- 2020年全国信息安全标准化技术委员会大数据安全标准特别工作组全体会议即将召开...
- 【PC工具】更新常用USB转串口芯片MAC驱动,CH340G驱动安装有可能遇到的问题及解决办法...
- 高中数学?_JAVA
- SAP日志log:SLG0,SLG1
- ora-01113 oracle8i,ora-01113解决办法
- 文档理解最新技术介绍 | DAS 2020 Keynote Speech
- 开发人员使用Helix QAC实现静态代码测试合规性的五大原因
- 邮箱客户端 gmail支持_如何在新的Gmail中启用离线支持
- Ubuntu +NIVIDIA驱动 + CUDA + Cudnn 的详细安装指南(每一步都有说明)
- 人人都能写游戏系列(三)Unity 3D平衡球游戏
- 浅谈安科瑞无线测温系统在生物制药工厂中的应用
- 【进阶技术】一篇文章搞掂:RibbitMQ
- 改变全局变量值得两种方法
- python语法tip
- UNREAL4 PROPERTY SYSTEM
- 边界外推和边界处理--cv::copyMakeBorder()和cv::borderInterpolate()
- 人工智能导论丁世飞第三版期末考试复习大纲
- 【EVE-NG】模拟器打不开/分不到地址
- 整合SSM时遇到的各种问题
- Android 进入应用市场评价应用
热门文章
- 动态语言、静态语言、脚本语言、解释型语言、编译型语言
- C++显示调用析构函数
- 远丰电商| 建立农村电商的优势,农村电商行业解决方案
- PS导出@3x、@2x、@1x格式的iOS切图神器-Retinize
- c语言中引用头使用什么指令,在源文件(.c)和头文件(.h)中声明和定义的区别——C语言...
- 改行迷茫不知道做什么该怎么办?
- 写论文 参考文献注意事项
- 设置Chrome谷歌浏览器默认无痕模式登陆
- 管理者与下属关系处理
- 单机版Solr的中文分词器solr IK下载和配置、拓展词典、停用词典