点上方“菜鸟学Python”,选择“星标”
第471篇原创干货,第一时间送达

大家在日常的工作和学习过程中,都少不了与PDF文件打交道,很多的小伙伴都面临着将PDF文件中的文字、图片和表格数据提取出来的问题。能够对PDF文件中的文字、表格等数据进行编辑,网上现存的PDF提取的软件都需要付费操作

小编今天就利用百行的python程序,来提取PDF文件中的文字、图片和表格数据。一起来看看吧。

01.程序执行效果

首先,还是通过视频展示的方式,来为大家展示一下PDF的提取效果:

python库版本介绍

本次程序涉及到多个python第三方库与python3的内置库,而且不同的python库版本对于程序的兼容性不一致,因此我们首先来介绍一下使用到的python第三方库版本。

  • PySimpleGUI    4.38.0

  • pdfminer3k     1.3.4

  • pdfplumber     0.5.27

  • fitz           0.0.1.dev2

  • pandas         1.1.3

02.程序讲解

看过视频之后,接下来就进行程序的展示,程序的展示主要分为以下的四个方面,分别是:

  • PDF提取文字

  • PDF提取图片

  • PDF提取表格

  • 交互界面的制作

03.PDF提取文字

PDF中文字是只允许我们进行只读,但是无法进行更改,所以我们要做的就是提取PDF中的文字信息,然后将提取到的文字写入到word文件当中,让我们能够进行后续的改写。

对于文字的提取,我们利用的是pdfminer函数库,其程序如下图所示:

程序首先创建了PDFParser对象来进行PDF文档的分析,PDFDocument对象来将资源对象处理成我们需要的格式,PDFResourceManager对象用来保存共享数据内容;

而PDFPageInterpreter则是用来处理页面的内容。程序中通过for循环来针对PDF文件中的每一页内容进行处理,对于每一页的内容,通过layout来存储页面解析出来的各种对象;

包括文本,图片等信息。但是小编发现,对于图片的提取,pdfminer的效果很不好,所以后面针对于图片的提取;

小编采用的fitz库进行单独的处理,取得很好的图片提取效果。这里,我们先来看一下对于文本的处理结果。

我们的pdf是一个两页的pdf文档,我们只让程序去提取第一页的文本,从上图可以看出,程序完整的提取出第一页的文本,没有任何的错误。

04.PDF提取图片

对于文字的提取处理完毕后,接下来我们就来看一下如何提取pdf中的图片,并将其保存到本地。对于图片的提取,程序如下图所示:

上述的程序中,利用fitz库来提取PDF文档中的对象,然后通过字符串匹配来判断对象是不是图片类型,如果不是的话,我们直接进行跳过即可。如果判断对象是图片类型的话,我们边可以通过创建PixMap对象来提取图片,并保存到我们指定的路径下即可。结果如下图所示:

上图可以看出,程序正确的将图片进行了提取,从而达到了我们的图片提取的目的,可以在短短的几秒内完成pdf文档的所有图片的提取。

05.PDF提取表格

对于PDF中表格的提取,利用的是pdfplumber库,程序如下图所示:

程序中,通过pdfplumber库读取PDF文件,针对于文件中的每一页,提取表格数据,然后通过pandas将表格数据保存到根目录下的tables文件夹中,结果如下图所示。

通过结果的展示,可以看出,对于PDF中的表格数据,程序能够做到较为准确的提取。

06.交互界面的制作

交互界面的制作,程序利用的是PySimpleGUI库进行处理,其部分程序如下图所示。

PySimpleGUI库集合了tkinter,wxpython、PyQt等GUI库的优势,其最重要的特点是用简单少量的代码就可以制作出精美的界面。程序执行的可视化界面如下图所示。

07.软件打包

为了方便大家的使用,小编将程序打包为exe文件,需要注意的是,为了减少大家对于exe文件执行时的报错,需要在win10(64bit)的环境下进行运行。大家可以下载exe文件,直接进行pdf文件内容的提取。

在下面的公众号后台输入关键字:pdf提取,即可获取。

推荐阅读:入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python  | 实战项目 |学Python就是这条捷径干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 |   从万众期待到口碑扑街!唐探3令人失望  | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python《天天酷跑》游戏!AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影年度爆款文案1).卧槽!Pdf转Word用Python轻松搞定!2).学Python真香!我用100行代码做了个网站,帮人PS旅行图片,赚个鸡腿吃3).首播过亿,火爆全网,我分析了《乘风破浪的姐姐》,发现了这些秘密 4).80行代码!用Python做一个哆来A梦分身 5).你必须掌握的20个python代码,短小精悍,用处无穷 6).30个Python奇淫技巧集 7).我总结的80页《菜鸟学Python精选干货.pdf》,都是干货 8).再见Python!我要学Go了!2500字深度分析!9).发现一个舔狗福利!这个Python爬虫神器太爽了,自动下载妹子图片点阅读原文,领廖雪峰视频资料!

再见PDF提取收费!我用100行Python代码搞定!相关推荐

  1. 再见PDF提取收费!我用100行Python代码搞定!去你的收费!

    大家在日常的工作和学习过程中,都少不了与PDF文件打交道,很多的小伙伴都面临着将PDF文件中的文字.图片和表格数据提取出来的问题.能够对PDF文件中的文字.表格等数据进行编辑,网上现存的PDF提取的软 ...

  2. 60行Python代码搞定,王者荣耀雷达图!

    点击上方"菜鸟学Python",选择"星标"公众号 超级无敌干货第一时间推给你!!! 现有以下表格,我需要画成第二张图中的雷达图(类似fifa足球.王者荣耀里面 ...

  3. 零基础如何用 15 行 Python 代码搞定网易云热门歌单?

    健身.吃饭.敲代码:等车.撸猫.下午茶--若能佐以合适的音乐当"配餐",总是惬意非常.本文就将带你爬一爬网易云的那些热门歌单! 作者 | 上海小胖 责编 | 仲培艺 心情好或心情坏 ...

  4. 怎样在python代码中输入π_鼠标自动点击、键盘自动输入?几行Python代码搞定

    相信我,你以后一定会用到.实在不行,你先收藏,做个收藏家,等拿出来,就值钱了. 第一步:安装并导入相关模块 只需要安装PyUserInput,如下: pip install PyUserInput 如 ...

  5. sql 行转列_想要表格行转列?简单几行Python代码搞定

    前言数据的行转列操作,在实际工作过程中应用非常广泛.由于不同人员.不同部门对数据结构的认识是不大相同的,尤其是从基层人员手里拿到的数据,更是五花八门,横七竖八.比如有这样一张成绩表: 乍一看,好像没毛 ...

  6. python实现软件自动点击_鼠标自动点击、键盘自动输入?几行Python代码搞定

    第一步:安装并导入相关模块 只需要安装PyUserInput,如下:pip install PyUserInput 如果你是Win10系统,肯定会报错,具体怎么解决,我放在文章结尾讲,先把主要思路讲完 ...

  7. 40行python代码搞定王者荣耀全部壁纸下载

    大家好,我是才哥. 今天我们一起来采集王者荣耀英雄的全部皮肤地址,目标网址: https://pvp.qq.com/web201605/herolist.shtml 通过开发者工具发现 https:/ ...

  8. python代码写父亲节快乐图片_听说最近有个很火的姓氏壁纸?10行Python代码搞定它!...

    昨天Paradoxical网上冲浪的时候,看到了一篇文章说最近有个很火的姓氏壁纸,就像下面的图这样. 看起来不错鸭,但我不会做--嘿嘿,可以去拜托小哥哥嘛~ 我:小哥哥,给你看个壁纸. 惨绿青年:傻傻 ...

  9. python代码手机壁纸_听说最近有个很火的姓氏壁纸?10行Python代码搞定它!

    昨天Paradoxical网上冲浪的时候,看到了一篇文章说最近有个很火的姓氏壁纸,就像下面的图这样. 看起来不错鸭,但我不会做--嘿嘿,可以去拜托小哥哥嘛~ 我:小哥哥,给你看个壁纸. 惨绿青年:傻傻 ...

最新文章

  1. puppeteer爬虫的奇妙之旅
  2. 资源管理器方法访问FTP服务
  3. 算法-----数组------ 数组中的第K个最大元素
  4. lsof 查看进程打开那些文件 和 查看文件给那个进程使用
  5. 统计学习II.7 广义线性模型1 指数分布族
  6. charles代理手机调试_H5开发 移动端 调试之 Charles 抓包 和 Map Remote
  7. 开发者如何谈判才能获得更高的薪水?
  8. 剑指offer——面试题56:链表中环的入口
  9. 大数据分析师应掌握哪种编程语言
  10. CSS 中文字体格式
  11. 云计算、计算虚拟化、网络基础简介
  12. infer的用法_词汇精选:infer的用法和辨析
  13. sm3 算法java_“国密加密算法”SM系列的C#实现方法
  14. Method called after release()
  15. Java 时间差运算工具函数(时间戳运算)
  16. VBA和VBScript的AES加密算法
  17. 171221—8421BCD码、进制转换
  18. tensorflow离线安装
  19. 小爱控制HA上的开关(红外线)
  20. C++智能指针入门之unique_ptr

热门文章

  1. 学生用计算机的按键名称,哪个键是空格?详细说明各种计算机按键[图形]的名称和功能...
  2. 使用ping检测MTU值
  3. 微信兔子,比较下来算是比较好用的工具
  4. 苹果 iPad 上如何设置和使用蓝牙鼠标?
  5. # 2gether 在一起 # 2 号星际碎片现身,全军出击!
  6. 正则表达式隐藏手机号、身份证号、台胞证、护照、回乡证中间几位数字信息
  7. Laravel中pluck的使用——返回指定的字段值信息列表
  8. 一个屌丝程序猿的人生(六十九)
  9. 解读小红书2022年母婴行业报告:心智种草的流量密码
  10. 【发现】中国与日德最可怕的差距,看着寒心