大家在日常的工作学习过程中,都会遇到一个问题就是将pdf中的文本内容转化为word的形式,也就是从只读变成可读写的形式。面对这种情况,大家大都采用网上的工具,但是网上的工具良莠不齐,很难达到我们的需求。

今天,小编就带领大家利用python来实现如何将pdf的内容转化为word文档。同时我们还将提取pdf中的图片,保存到我们的指定文件夹内。

01.文字的提取

我们首先要做的是对于pdf中文本的提取,如下图所示:


Pdf中文字是只允许我们进行只读,但是无法进行更改,所以我们要做的就是提取pdf中的文字信息,然后将提取到的文字写入到word文件当中,让我们能够进行后续的改写。对于文字的提取,我们利用的是pdfminer函数库,其主要的函数如下图所示:

  • 程序首先利用get_content_from_pdf函数来返回pdf中提取到的数据;

  • 然后分别创建了PDFResourceManager对象来保存共享数据内容,PDFPageAggregator对象来将资源对象处理成我们需要的格式,而PDFPageInterpreter则是用来处理页面的内容;

  • 程序中page_index用来帮助我们设定需要提取哪几页的内容,对于我们需要提取的页面,通过创建的PDFPageInterpreter对象来对页面信息进行解释;

  • 最后通过PDFPageAggregator对象来对数据进行处理;

这里的layout中就包含了页面解析出来的各种对象。包括文本,图片等信息。但是小编发现,对于图片的提取,pdfminer的效果很不好,所以后面针对于图片的提取,小编采用的fitz库进行单独的处理,取得很好的图片提取效果。说了这么多,我们先来看一下对于文本的处理结果。


我们的pdf是一个两页的pdf文档,我们只让程序去提取第一页的文本,从上图可以看出,程序完整的提取出第一页的文本,没有任何的错误。

02.图片的提取

有了对于文字的处理,接下来我们就来看一下如何提取pdf中的图片,并将其保存到本地。对于图片的提取,程序如下图所示:


上述的程序中,我们利用fitz库来提取pdf文档中的对象,然后通过字符串匹配来判断对象是不是图片类型,如果不是的话,我们直接进行跳过即可。

如果判断对象是图片类型的话,我们边可以通过创建PixMap对象来提取图片,并保存到我们指定的路径下即可。结果如下图所示:


上图可以看出,我们正确的将图片进行了提取,从而达到了我们的图片提取的目的,而且小编也尝试过多个图片的提取,同样也是没有任何压力。可以在短短的几秒内完成pdf文档的所有图片的提取。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(文末获取!)

温馨提示:篇幅有限,已打包文件夹,获取方式在“文末”!!!

二、Python必备开发工具

三、精品Python学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

四、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

六、Python练习题

检查学习结果。

七、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

Pdf转Word用Python轻松完成相关推荐

  1. pdf转word用python轻松搞定_使用Python将PDF转化为word

    60行Python代码,实现多线程PDF转Word 分解任务 把PDF转为Word,分几步?两步,第一步读取PDF文件,第二步写入Word文件. 是的,就是这么简单,借助Python第三方包,可以轻松 ...

  2. 卧槽!Pdf转Word用Python轻松搞定!

    大家在日常的工作学习过程中,都会遇到一个问题就是将pdf中的文本内容转化为word的形式,也就是从只读变成可读写的形式.面对这种情况,大家大都采用网上的工具,但是网上的工具良莠不齐,很难达到我们的需求 ...

  3. 福昕PDF转Word转换器,轻松一键完成PDF转Word

    在工作学习中往往会遇到许多文档是PDF格式,PDF格式不利于编辑使用,因此需要通过第三方PDF转Word转换器将PDF文档转换成Word文档.其实PDF转Word是个很特(dan)殊(teng)的需求 ...

  4. B01.有意思的小东西 - pdf转word【python实用工具】

    视频讲解链接:https://www.bilibili.com/video/av78175545 我的代码下载地址:https://github.com/JizhiXiang/simple-pdf2d ...

  5. python pdf转word 表格_太赞了!Pdf转Word,我用Python 轻松搞定表格和水印!

    原标题:太赞了!Pdf转Word,我用Python 轻松搞定表格和水印! 继上一次为大家推出了将pdf转word之后(卧槽!Pdf转Word用Python轻松搞定!),引起了大家的热烈讨论,我也总结了 ...

  6. 女朋友让我深夜十二点催她睡觉,我用Python轻松搞定!

    事情是这样的:昨天晚上,女朋友让我十二点催她睡觉. 不过,可是我实在太困了,熬不下去-- 是吧?女朋友哪有睡觉重要? 但,女朋友的命令,我是不敢违抗的-- 但是睡觉也不能缺! 这时候我们该怎么办呢?是 ...

  7. 神器!用Python轻松搞定验证码!

    转自:大邓和他的Python 大家好,今天给大家介绍一款通用验证码识别OCR库的神器,项目地址:https://github.com/sml2h3/ddddocr.市场上常见的点选类验证码图片如下图所 ...

  8. 竟可如此轻松解决,PDF 转 Word只需几行 Python 代码

    PDF转Word是一个古老的话题,其难点在于建立从PDF基于元素位置的格式到Word基于内容的格式的映射. PDF文档实际并不存在段落.表格的概念,PDF转Word要做的就是将PDF文档中" ...

  9. Python办公自动化(八)|使用Python转换PDF,Word/Excel/PPT/md/HTML都能转

    Word转PDF Word转PDF应该是最常见的需求了,毕竟使用PDF格式可以更方便展示文档,虽然在Word中可以直接导出为PDF格式,但是使用Python可以批量转换,更加高效. 目前在Python ...

  10. 文末福利|使用Python转换PDF,Word/Excel/PPT/md/HTML都能转!

    往期精选 Python办公自动化|从Word到Excel Python办公自动化|从Excel到Word Python办公自动化|对比文件,光速完成 Python办公自动化|Excel表格,自动更新 ...

最新文章

  1. 开源you-get项目爬虫,以及基于python+selenium的自动测试利器
  2. Python计算大文件行数方法及性能比较
  3. 移动端网页fixed布局问题解决方案
  4. matlab寻找函数对应的工具箱
  5. Python实现自动推本地github博客到远程仓库
  6. 你的工作经验到底值钱吗?
  7. win7旗舰恢复出厂设置_iphone12怎么恢复出厂设置 iphone12还原所有设置方法介绍
  8. 3.7 钱包、帐户、token、智能合约、action、权限、权重和阀值之间关系
  9. 单片机矩阵键盘扫描程序c语言,51单片机矩阵键盘扫描程序
  10. 国开电大 公共关系学 形考任务答案 实训项目
  11. 计算机键盘时好时坏,机子的CTRL键时好时坏?
  12. Mybatis中按照年、季度、月、日、最近七天,查询
  13. 索尼Xperia XZ1 Compact刷机后的问题,电量一直锁定20%,手机卡无信号无服务,相机拍照成纯绿色图片
  14. 怎么安装使用pcsx2的方法(用pc玩ps2游戏 )
  15. 欧洲央行行长:与“主流”货币政策理论商榷
  16. BP神经网络模型一篇入门
  17. 构建CMS:结构和样式
  18. 计算机网路复习系列:UrlConnection连接和Socket连接的区别
  19. Tomcat 服务器的部署与虚拟主机配置
  20. U盘怎么调整分区大小?u盘分区工具推荐

热门文章

  1. 对SMART法则的多种解释
  2. Win 7 安装office visio
  3. 计算机系统相机怎么卸载,如何卸载摄像头驱动
  4. 【纸飞机(PaperPlane)IMITATE版】知识点整理
  5. Android自定义带搜索图标及删除按钮的搜索框SearchEditText
  6. C语言基础犄角旮旯的知识之数据类型
  7. Go 环境变量、go env
  8. 如何将照片裁剪为圆形?教你一招图片裁剪的技巧
  9. python百度贴吧发帖签到_【Python】某度贴吧签到脚本[云函数专用版](白嫖实现每日自动签到)...
  10. 三维重建 建立客观世界的虚拟现实||时空克隆 三维视频融合 投影融合 点卯 魔镜系列