大家在日常的工作学习过程中,都会遇到一个问题就是将pdf中的文本内容转化为word的形式,也就是从只读变成可读写的形式。面对这种情况,大家大都采用网上的工具,但是网上的工具良莠不齐,很难达到我们的需求。

今天,小编就带领大家利用python来实现如何将pdf的内容转化为word文档。同时我们还将提取pdf中的图片,保存到我们的指定文件夹内。

01.文字的提取

我们首先要做的是对于pdf中文本的提取,如下图所示:

Pdf中文字是只允许我们进行只读,但是无法进行更改,所以我们要做的就是提取pdf中的文字信息,然后将提取到的文字写入到word文件当中,让我们能够进行后续的改写。对于文字的提取,我们利用的是pdfminer函数库,其主要的函数如下图所示:

  • 程序首先利用get_content_from_pdf函数来返回pdf中提取到的数据;

  • 然后分别创建了PDFResourceManager对象来保存共享数据内容,PDFPageAggregator对象来将资源对象处理成我们需要的格式,而PDFPageInterpreter则是用来处理页面的内容;

  • 程序中page_index用来帮助我们设定需要提取哪几页的内容,对于我们需要提取的页面,通过创建的PDFPageInterpreter对象来对页面信息进行解释;

  • 最后通过PDFPageAggregator对象来对数据进行处理;

这里的layout中就包含了页面解析出来的各种对象。包括文本,图片等信息。但是小编发现,对于图片的提取,pdfminer的效果很不好,所以后面针对于图片的提取,小编采用的fitz库进行单独的处理,取得很好的图片提取效果。说了这么多,我们先来看一下对于文本的处理结果。

我们的pdf是一个两页的pdf文档,我们只让程序去提取第一页的文本,从上图可以看出,程序完整的提取出第一页的文本,没有任何的错误。

02.图片的提取

有了对于文字的处理,接下来我们就来看一下如何提取pdf中的图片,并将其保存到本地。对于图片的提取,程序如下图所示:

上述的程序中,我们利用fitz库来提取pdf文档中的对象,然后通过字符串匹配来判断对象是不是图片类型,如果不是的话,我们直接进行跳过即可。

如果判断对象是图片类型的话,我们边可以通过创建PixMap对象来提取图片,并保存到我们指定的路径下即可。结果如下图所示:

上图可以看出,我们正确的将图片进行了提取,从而达到了我们的图片提取的目的,而且小编也尝试过多个图片的提取,同样也是没有任何压力。可以在短短的几秒内完成pdf文档的所有图片的提取。

以上就是小编为大家带来的pdf转word的提取,我们经过讲解,不仅仅完成了对于pdf文档中文本的提取,而且还完成了对于图片的提取,从而大大的缓解我们工作的压力,提高了工作的效率,大家也赶快下载源码,应用起来吧。

需要本篇源码,长按上面的二维码

后台输入:pdf

近期热门:● 80%的人都不知道,全球Python库下载前10名
● 我珍藏的一些好的Python代码,技巧|上篇
● 爬取300本Python书籍,用Python告诉你哪家强?
● 简单几步,100行代码用Python画一个蝙蝠侠的logo
● 我用Python分析了《青春有你2》109位漂亮小姐姐,真香!
● 牛逼操作!用Python做了一个编程语言20年的动态排行榜!
● 我打赌,学会这6招,谁再敢笑你的Python程序慢!点击阅读原文,原创400篇干货文章

卧槽!Pdf转Word用Python轻松搞定!相关推荐

  1. pdf转word用python轻松搞定_使用Python将PDF转化为word

    60行Python代码,实现多线程PDF转Word 分解任务 把PDF转为Word,分几步?两步,第一步读取PDF文件,第二步写入Word文件. 是的,就是这么简单,借助Python第三方包,可以轻松 ...

  2. python pdf转word 表格_太赞了!Pdf转Word,我用Python 轻松搞定表格和水印!

    原标题:太赞了!Pdf转Word,我用Python 轻松搞定表格和水印! 继上一次为大家推出了将pdf转word之后(卧槽!Pdf转Word用Python轻松搞定!),引起了大家的热烈讨论,我也总结了 ...

  3. 女朋友让我深夜十二点催她睡觉,我用Python轻松搞定!

    事情是这样的:昨天晚上,女朋友让我十二点催她睡觉. 不过,可是我实在太困了,熬不下去-- 是吧?女朋友哪有睡觉重要? 但,女朋友的命令,我是不敢违抗的-- 但是睡觉也不能缺! 这时候我们该怎么办呢?是 ...

  4. 神器!用Python轻松搞定验证码!

    转自:大邓和他的Python 大家好,今天给大家介绍一款通用验证码识别OCR库的神器,项目地址:https://github.com/sml2h3/ddddocr.市场上常见的点选类验证码图片如下图所 ...

  5. 用Python轻松搞定Excel中的20个常用操作

    来源 |早起Python(ID: zaoqi-python) Excel与Python都是数据分析中常用的工具,本文将使用动态图(Excel)+代码(Python)的方式来演示这两种工具是如何实现数据 ...

  6. 用 Python 轻松搞定 Excel 中的 20 个常用操作

    来源 |早起Python(ID: zaoqi-python) Excel与Python都是数据分析中常用的工具,本文将使用动态图(Excel)+代码(Python)的方式来演示这两种工具是如何实现数据 ...

  7. c#读取excel两列数据并绘制xy曲线_用Python轻松搞定Excel中的20个常用操作

    来源 |早起Python(ID: zaoqi-python) Excel与Python都是数据分析中常用的工具,本文将使用动态图(Excel)+代码(Python)的方式来演示这两种工具是如何实现数据 ...

  8. 一张图看懂世界石油分布?用Python轻松搞定!(附数据下载)

     CDA数据分析师 出品   [导语]:今天我们教你用Python画出世界石油分布桑基图,Python技术部分可以直接看第四部分. 获取数据: 扫描下方公众号 回复关键字"石油" ...

  9. 一张图看懂世界石油分布?用Python轻松搞定!

     CDA数据分析师 出品   [导语]:今天我们教你用Python画出世界石油分布桑基图,Python技术部分可以直接看第四部分. 作者:Mika 数据:真达   后期:泽龙  设计:一凡   Sho ...

最新文章

  1. app 404 html,静态页面错误404(Flask框架)
  2. HTML为什么认为“ chucknorris”是一种颜色?
  3. POJ 3414 Pots【广搜】
  4. 全球及中国养老护理行业十四五趋势前景与投资动向建议报告2022版
  5. ppt生成器_小米发布会ppt词云怎么做的
  6. webapp开发学习--Ionic+Cordova 环境搭建
  7. 通过拓展Function.prototype实现一个AOP
  8. 1225 数数字
  9. git cherry pick用法
  10. 多媒体计算机对信息处理技术包括哪些,多媒体信息处理技术
  11. 一个比较好看的彩带飘飞和点击效果 canvas实现
  12. 用html代码写一个表白语言,HTML写代码表白 – 爱心
  13. 项目成败的关键要素:有效沟通
  14. 泰勒公式(泰勒展开式,泰勒中值定理)使用基本技巧
  15. hotmail接收邮件服务器(pop),Microsoft微软邮箱 outlook、hotmail 打开pop和imap的方法
  16. 【语音识别】基于keras的简易语音识别
  17. Objective-C ------ 多态
  18. 游戏显示计算机处于离线,为何我电脑上登着LOL,但是掌盟上却显示游戏离线?
  19. iOS开发一路走来看到,好奇,好玩,学习的知识点记录
  20. 模仿QQ背景为视频的登录页

热门文章

  1. 如何轻松搭建一个在线wiki文档平台?
  2. lg空调代码大全解决_lg空调故障代码是什么意思 lg空调故障代码大全【详解】...
  3. 上海大学电影学院计算机17,上海大学17级表演系女神集体曝光,有网红也有小明星...
  4. 解决VMware内存占用过高问题
  5. 手机酒精测试仪软件有用么,酒精测试仪软件真管用? 不靠谱!
  6. Uva Oj 514 - Rails
  7. 【华为OD机试真题 JS】跳格子游戏
  8. Mysql的组合字段Generated Column
  9. C++ 代码覆盖率分析工具
  10. MyEclipse 9 0正式版官网下载(附Win+Llinux激活方法 汉化包)