每天一个小实例——使用pdfplumber提取pdf表格及文本，并保存到excel

pdfplumber简介

（1）可以方便地获取pdf的各种信息，包括文本、表格、图表、尺寸等，它不支持修改或生成pdf，也不支持对pdf扫描件的处理

（2）pdfplumber中有两个基础类，PDF和Page。前者用来处理整个文档，后者用来处理整个页面

实操步骤：

（1）使用pdfplumber提取表格文本

①使用 pdfplumber.open("path/to/file.pdf") 读取pdf，返回一个pdfplumber.PDF类实例

PS.加载带密码的pdf需要传入参数password，例如：pdfplumber.open("file.pdf", password = "test")

②pdfplumber.PDF类介绍

Ⅰ.metadata属性：从PDF的Info中获取元数据键 /值对字典。通常包括“ CreationDate”，“ ModDate”，“ Producer”等。

Ⅱ.pages属性：一个包含多个pdfplumber.Page实例的列表，每一个实例代表PDF每一页的信息。

Ⅲ.len(pdf.pages)——读取页数；first_page=pdf.pages[0]——选取页码

③pdfplumber.Page类介绍

Ⅰ.page_number属性：页码顺序，从第一页的1开始，第二页为2，依此类推

Ⅱ.width属性/.height属性：页面宽度/宽度

Ⅲ.extract_text(x_tolerance=0, y_tolerance=0)方法：将页面的所有字符对象整理到一个字符串中。

若其中一个字符的x1与下一个字符的x0之差大于x_tolerance，则添加空格。
若其中一个字符的doctop与下一个字符的doctop之差大于y_tolerance，则添加换行符。

Ⅳ.extract_tables(table_settings) 方法：从页面中提取表格数据

.find_tables(table_settings={})：返回Table对象的列表。Table对象提供对.cells，.rows和.bbox属性以及.extract(x_tolerance = 3, y_tolerance = 3)方法的访问。
.extract_tables(table_settings={})：返回从页面上找到的所有表中提取的文本，并以结构table -> row -> cell的形式表示为列表列表的列表。
.extract_table(table_settings={})：返回从页面上最大的表中提取的文本，以列表列表的形式显示，结构为row -> cell。（如果多个表具有相同的大小——以单元格的数量来衡量——此方法将返回最接近页面顶部的表
.debug_tablefinder(table_settings={})：返回TableFinder类的实例，可以访问.edges，.intersections，.cells和.tables属性

输出：

（2）整理成dataframe格式，保存为excel

输出：

每天一个小实例——使用pdfplumber提取pdf表格及文本，并保存到excel相关推荐

Python提取PDF表格及文本！（附源码）
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 Python免费学习资料 ...
Python按关键字提取txt文本并保存到Excel
简单介绍将会议上语音转成的文字文本按主要关键字提取,例如"上周的KPI"."没达标的原因"."遇到的问题"."解决方法" ...
html class和id,css教程之样式表的基本语法(二) class(类)和id的一个小实例
class(类)和id的一个小实例在上一节中我们了解了如何为特定的标签定义样式,例如我们利用 "h1{font-size: 12px;}"将页面内所有的标题1的字体大小改为了12 ...
Jmeter Web 性能测试入门 (四)：一个小实例带你学会 Jmeter 脚本编写
测试场景: 模拟并发100个user,在TesterHome 站内搜索VV00CC 添加线程组添加HTTP信息头管理器添加HTTP Sampler 填写HTTP Sampler中的信息添加监听器 ...
使用Bootstrap框架写的一个小实例
今天学习了一下Bootstrap框架,,写一个小实例练练手,感受一下bootstrap兼容三端的强大. <!doctype html> <html lang="zh-CN& ...
一个小实例——借书Demo
一个小实例--借书Demo Step 1 布局文件 Step 2 初始化控件 Step 3 初始化数据第一步创建数据model 第二步初始化数据 Step 4 添加监听器实现基本功能 Step ...
python提取pdf表格数据并保存到excel中
pdfplumber操作pdf文件 python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者.创建时间.修改时间-)及表格.文本.图片等信息,基本可以满足 ...
白嫖谷歌 GPU 资源！使用神经网络提取 PDF 表格工具来了，支持图片
贾浩楠发自凹非寺量子位报道 | 公众号 QbitAI "表哥表姐"们还在为大量PDF文件中的表格发愁吗? 百度一下,网上有大量提取PDF表格的工具,但是,它们都只支持文本格 ...
使用神经网络提取PDF表格工具来了，支持图片，关键是能白嫖谷歌GPU资源
贾浩楠发自凹非寺量子位报道 | 公众号 QbitAI "表哥表姐"们还在为大量PDF文件中的表格发愁吗? 百度一下,网上有大量提取PDF表格的工具,但是,它们都只支持文本格 ...

每天一个小实例——使用pdfplumber提取pdf表格及文本，并保存到excel

每天一个小实例——使用pdfplumber提取pdf表格及文本，并保存到excel相关推荐

最新文章

热门文章