Python无处不在,似乎支持从主要网站到桌面实用程序到企业软件的所有功能。Python已经被用来编写流行的软件项目,如dnf/yum、OpenStack、OpenShot、Blender、Calibre,甚至是原始的BitTorrent客户端。

很多时候我们都会用Python去取数据文件,这些文件中很多都是PDF格式,有些PDF文件解析的时候只能解析一部分内容出来,大段的文字没有解析出来,那怎么样才能用Python提取这些信息呢?

下面就给大家分享3个Python PDF库:

1、PDFMiner

PDFMiner是一个从PDF文档中提取信息的工具。与其他PDF相关的工具不同,它只用于获取和分析文本数据。PDFMiner能获取页面中文本的准确位置,以及字体或行等其他信息。它还有一个PDF转换器,可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF,可以用于文本分析以外的其他用途。

地址:https://github.com/euske/pdfminer

2、PyPDF2

PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。

地址:https://github.com/mstamy2/PyPDF2

3、ReportLab

ReportLab能快速创建PDF 文档。经过时间证明的、超好用的开源项目,用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的,开源的,用Python编写的。该软件包每月下载5万多次,是标准Linux发行版的一部分,嵌入到许多产品中,并被选中为Wikipedia的打印/导出功能提供动力。

地址:https://www.reportlab.com/opensource/

推荐:3个Python好用的PDF库相关推荐

  1. python自动化办公入门书籍推荐-盘点使用Python进行自动化办公所需要的知识点

    知乎上有人提问:用python进行办公自动化都需要学习什么知识呢? 这可能是很多非IT职场人士面临的困惑,想把python用到工作中,却不知如何下手?python在自动化办公领域越来越受欢迎,批量处理 ...

  2. Python使用pdfminer3k提取PDF文件中的文本

    推荐教材: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年12月第11次印刷,山东省一流 ...

  3. 实用又好用,6 款 Python 特殊文本格式处理库推荐

    (给机器学习算法与Python学习加星标,提升AI技能) 本文由开源中国(oschina2013)整理 以下是一些 Python 编写的用来解析和操作特殊文本格式的库,希望对大家有所帮助. 01 Ta ...

  4. 推荐七个Python效率工具!

    为了提高效率,我们在平时工作中常会用到一些Python的效率工具,Python作为比较老的编程语言,它可以实现日常工作的各种自动化.为了更便利的开发项目,这里给大家推荐几个Python的效率工具. 1 ...

  5. python图片转pdf文件_用python 制作图片转pdf工具

    这篇文章主要介绍了用python 制作图片转pdf工具的思路及代码,非常详细,有需要的小伙伴参考下 最近因为想要看漫画,无奈下载的漫画是jpg的格式,网上的转换器还没一个好用的,于是乎就打算用pyth ...

  6. Python工具脚本,PDF文件批量转图片(pdf图片提取器)工具(exe)

    前面写(抄袭)了一下转图片(提取图片)的源码,包括PDF文件以及PPT文件,这里本渣渣抽空进行了exe打包,打包的是pdf文件转图片,当然使用的gui还是python的tkinter库,仅供参考和学习 ...

  7. 基于pdf2docx模块Python实现批量将PDF转Word文档(安装+完整代码教程)

    PDF文件是一种常见的文档格式,但是在编辑和修改时不太方便,因为PDF本质上是一种静态的文档格式.因此,有时候我们需要将PDF文件转换成Word格式,以便更好地编辑和修改文档.在本篇文章中,我们将介绍 ...

  8. 强势推荐一位 Python 原创自动化大佬!

    今天给大家推荐一位 Python 类的公众号「AirPython」,作者:星安果,果哥有 9 年的编程学习经验,热爱 Python 爬虫.自动化,平时喜欢分享一些实用.有趣的 Python 原创项目实 ...

  9. io python 读取pdf_实用又好用,6 款 Python 特殊文本格式处理库推荐

    以下是一些 Python 编写的用来解析和操作特殊文本格式的库,希望对大家有所帮助. 01.Tablib https://www.oschina.net/p/Tablib Tablib 是一个用来处理 ...

  10. python使用fpdf创建pdf文件包含:页眉、页脚并嵌入logo图片、设置使用中文字体

    python使用fpdf创建pdf文件包含:页眉.页脚并嵌入logo图片.设置使用中文字体 #python使用fpdf创建页眉.页脚并嵌入logo图片.设置使用中文字体 from fpdf impor ...

最新文章

  1. C#导入Excel2010出现加载DLL失败或者类库未注册的问题,0x8002801D或者0x80029C4A .
  2. 华为内部面试题库---(10)
  3. 词法分析器构造工具Flex基础学习
  4. 设置Tomcat字符编码UTF-8
  5. 一个一直没想通的问题:为什么印度的软件外包能比中国强那么多?这应该是中国人的强项啊...
  6. 漫话:如何给女朋友解释什么是3PC?
  7. /dev/null脚本中作用
  8. 短信猫前台群发短信的示例程序
  9. [源码阅读]解析Anime(JS动画库)核心(2)
  10. jQuery实践-别踩白块儿网页版
  11. agent常见处理问题的处理
  12. Framebuffer子系统【转】
  13. Hibernate的DetachedCriteria使用(含Criteria)转载
  14. 【大数据开发】SparkCore——利用广播变量优化ip地址统计、Spark2.x自定义累加器
  15. 六级(2020/12-2) Text2
  16. 毕业答辩的一系列准备工作
  17. java gzip 压缩解压工具类
  18. 长城wifi服务器没响应,wifi设置网站进不去怎么办,教你一招轻松解决
  19. Halcon焊点检测
  20. 使用QT简单制作中国象棋之棋子的摆放

热门文章

  1. word转html,word转pdf
  2. DBSCAN聚类算法原理总结
  3. VUE学习(二):修改下拉框样式
  4. 基于SpringBoot实现单点登录系统
  5. vm虚拟化服务器杀毒,VMware服务器虚拟化平台应急方案
  6. python视频操作:下载、选取特定帧、批量导入ppt及硬字幕提取
  7. 浩辰云建筑2021功能详细介绍
  8. PayPal支付时出现“该商家目前无法接受PayPal付款。请稍后重试,或返回商家页面并选择其他付款方式。”
  9. NC63重写导出功能
  10. 115套精品简历.zip