还不会用 Python 提取 PDF 表格?三种类型数据,轻松转换成 Excel
大家好,从PDF中提取信息是办公场景中经常需要用到的操作,也是经常又读者在后台问的一个操作。
内容少的话我们可以手动复制粘贴,但如果需要批量提取就可以考虑使用Python,之前我也转载过相关文章,提到主要就是使用pdfplumber
库,今天我们再次举例讲解。
通常PDF里的表格分为图片型和文本型。文本型又分简单型和复杂型。本文就针对这三部分举例讲解。
提取简单型表格
提取较为复杂型表格
提取图片型表格
用到的模块主要有
pdfplumber
pandas
Tesseract
PIL
文中出现的PDF材料是在巨潮资讯官网下载的公开PDF文件,主题是关于理财的,相关发布信息等信息如下:
内容总共有6页,后文中的例子会有展示。
一、简单文本类型数据
简单文本类型表格就是一页PDF中只有一个表格,并且表格内容完整可复制,例如我们选定内容为PDF中的第四页,内容如下:
可以看到,该页只有一个表格,下面我们将这个表写入Excel中,先上代码
import pdfplumber as pr
import pandas as pd
pdf = pr.open('关于使用自有资金购买银行理财产品的进展公告.PDF')
ps = pdf.pages
pg = ps[3]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):for j in range(len(table[i])):table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df1.to_excel('page2.xlsx')
得到的结果如下:
通过与PDF上原表格对比,在内容上是完全一致的,唯一不同的是由于主营业务内容较多,导致显示的不全面,现在来说说这段代码。
首先导入要用到的两个库。在pdfplumber
中,open()
函数是用来打开PDF文件,该代码用的是相对路径。.open().pages
则是获取PDF的页数,打印ps值可以得到如下
pg = ps[3]
代表的就是我们所选的第三页。
pg.extract_tables()
:可输出页面中所有表格,并返回一个嵌套列表,其结构层次为table→row→cell
。此时,页面上的整个表格被放入一个大列表中,原表格中的各行组成该大列表中的各个子列表。若需输出单个外层列表元素,得到的便是由原表格同一行元素构成的列表。
与其类似的是pg.extract_table( )
:返回多个独立列表,其结构层次为row→cell
。若页面中存在多个行数相同的表格,则默认输出顶部表格;否则,仅输出行数最多的一个表格。此时,表格的每一行都作为一个单独的列表,列表中每个元素即为原表格的各个单元格内容。
由于该页面中只有一个表格,我们需要tables
集合中的第一个元素。打印table
值,如下:
可以看到在上述中是存在\n
这种没不要的字符,它的作用其实是换行但我们在Excel中是不需要的。所以需要剔除它,用代码中的for循环与replace
函数将控制替换成空格(即删除\n)。观察table是一个装有2个元素的列表。
最后df1 = pd.DataFrame(table[1:],columns = table[0])
这段代码的作用就是创建一个数据框,将内容放到对应的行列中。
本代码只是简单将数据存入到Excel,如果你需要进一步对样式进行调整,可以使用openpyxl
等模块进行修改,具体可以看之前文章Python操作Excel详解
二、复杂型表格提取
复杂型表格即表格样式不统一或一页中有多个表格,以PDF中的第五页为例:
可以看到本页中有两个大的表格,并且细看的话,其实是4个表格,按照简单型表格类型提取方法,得到的效果如下:
可以看到,只是将全部表格文本提取出来,但实际上第一个表格又细分为两个表,所以需要我们进一步修改,将这张表再次拆分!例如提取上半部分代码如下:
import pdfplumber as pr
import pandas as pd
pdf = pr.open('关于使用自有资金购买银行理财产品的进展公告.PDF')
ps = pdf.pages
pg = ps[4]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):for j in range(len(table[i])):table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df2 = df1.iloc[2:,:]
df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"})
df2 = df2.loc[3:,:]
df1 = df1.loc[:1,:]
with pd.ExcelWriter('公司影响.xlsx') as i:df1.to_excel(i,sheet_name='资产', index=False, header=True) #放入资产数据df2.to_excel(i,sheet_name='营业',index=False, header=True) #放入营业数据
这段代码在简单型表格提取的基础上进行了修改,第十四行代码的作用就是提取另外一个表头的信息,并将他赋值给df2,而后对df2进行重命名操作(用到rename
函数)。
打印df2可以看出columns
列名和第一行信息重复了,因此我们需要重复刚刚的步骤,利用loc()
函数切割数据框。
注意,我们这里用了罕见的pandas.Excelwriter
函数套for循环,这个是为了避免直接写入导致的最后数据覆盖原数据,感兴趣可以尝试一下不用withopen这种方法后结果。最终得到的效果如下:
可以看到,现在这个表格就被放在两个sheet中单独展示,当然用于对比放在一张表中也是可以的
说到底复杂型表格的主观性是非常大的,需要根据不同情况进行不同处理,想写出一个一劳永逸的办法是比较困难的!
三、图片型表格提取
最后也是最难处理的就是图片型表格,经常有人会问如何提取图片型PDF中的表格/文本等信息。
其实本质上就是提取图片,之后如何对图片进一步处理提取信息就与Python提取PDF表格这个主题没有太大关系了!
这里我们也简单进行介绍,也就是先提取图片再进行OCR识别提取表格,在Python中可以使用Tesseract
库,首先需要pip安装
pip install pytesseract
在Python中安装完这个库之后我们需要安装exe文件以在后面代码用到。
http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下载安装完即可,注意目前如果按照正常步骤安装的话是不会识别中文的,所以需要安装简体中文语言包,下载地址为https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata
,将其放到Tesseract-OCR
的tessdata目录下即可。
接下来我们使用一个简单的图片型pdf如下:
第一步,提取图片,这里使用在GUI办公自动化系列
中的图片提取软件来提取PDF中的图片,得到如下图片:
接着执行下方代码识别图片内容:
import pytesseract
from PIL import Image
import pandas as pd
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
tiqu = pytesseract.image_to_string(Image.open('图片型.jpg'))
print(tiqu)
tiqu = tiqu.split('\n')
while '' in tiqu: #不能使用fortiqu.remove('')first = tiqu[:6]second = tiqu[6:12]third = tiqu[12:]df = pd.DataFrame()df[first[0]] = first[1:]df[second[0]] = second[1:]df[third[0]] = third[1:]
#df.to_excel('图片型表格.xlsx') #转为xlsx文件
我们的思路是用Tesseract-OCR
来解析图片,得到一个字符串,接着对字符串运用split
函数,把字符串变成列表同时删除\n
。
接着可以发现我们的列表里还存在空格,这时我们用while
循环来删除这些空字符,注意,这里不能用for循环,因为每次删除一个,列表里的元素就会前进一个,这样会删不完全。最后就是用pandas
把这些变成数据框形式。最终得到的效果如下:
可以看到,该图片型表格内容被完美解析与处理!当然能轻松搞定的原因也与这个表格足够简单有关,在真实场景中的图片可能会有更复杂的干扰因素,而这就需要大家在处理的同时自行找到一个最合适的办法!
如果你喜欢本文的话,可以给我来一波三连(点赞+再看+转发),如果你有想看的文章主题,可以给我留言,如果你想快速进阶Python办公自动化可以点击阅读原文~
-END-
文末推荐一本《用Python轻松处理Excel数据》本书是写给非IT领域职场办公人员的Python数据处理基础指南。为了让读者在学习时对Python的知识点有更深刻的印象,书本采用了即学即用的写作方式:在介绍知识点的同时,及时将知识点穿插到案例应用中。主要内容包括Python基础、Python第三方库、Python自定义函数、常用高阶函数应用、openpyxl库及Python与Excel综合应用案例等????????????
老规矩,留言点赞送 2 本,我再额外挑 3 位用户的优质留言送出,一共 5 本,仅限未获得过赠书的粉丝参与,无意义留言将不会被选中,刷赞一旦发现将会被永久取消资格(已有先例),截止下周二早 9 点。
点击阅读原文
查看早起Python的办公自动化一对一指导!
精选十大案例,手把手带你复现 + 需求解决 + 答疑????
还不会用 Python 提取 PDF 表格?三种类型数据,轻松转换成 Excel相关推荐
- 用python提取PDF表格内容保存到excel
一 提取pdf方法介绍 任务是用python提取PDF里的表格文件到excel里面去.做为一个 学了一个周python的人来说当然像尝试一下看能不能做到,事实证明是可以的只是可能代码有点烂...... ...
- python提取pdf表格数据并保存到excel中
pdfplumber操作pdf文件 python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者.创建时间.修改时间-)及表格.文本.图片等信息,基本可以满足 ...
- Python提取PDF表格及文本!(附源码)
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 Python免费学习资料 ...
- python 提取pdf表格_用Python提取pdf文件中的表格数据
本文作者:杨慧琳 本文编辑:周聪聪 技术总编:张学人有问题,不要怕!访问 http://www.wuhanstring.com/uploads/5_aboutus/爬虫俱乐部-用户问题登记表.docx ...
- python提取pdf表格数据_Python骚操作,提取pdf文件中的表格数据!
在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报.发行上市公告等.面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取.那么如何才能高效提取出pdf文 ...
- python提取pdf表格信息
借助camelot这个包 import camelot import pandas as pddef table_mining(pdf_path):tables = camelot.read_pdf( ...
- python提取pdf表格数据导出到mongodb_python读取mongoDB数据并存入本地excel表格
from openpyxl import Workbook import pymongo # 读取mongoDB数据库相应的表,每条数据取出数个字段存入一个dict,再将所有的dict存入一个list ...
- 【Python基础】Pandas三种实现数据透视表的方法
前言 主要想做的事情用大白话来讲就是:一个dataframe里面对于两个列做分组,最后算一个value对应于这两个列的分组来算值的矩阵,这个矩阵的行为其中一个列,列也为其中一个列. 新建一个df im ...
- mpp文件转换excel_怎么将pdf文件转换成excel表格格式呢?
在我们的日常工作当中,有的时候偶尔会出现一些商业E-Mail的发送,但是在发送之前我们是需要将PDF文档中的数据内容转换成Excel表格的形式.所以学会将PDF转Excel的方法很重要,那不知道小伙伴 ...
- python 数字转化excel行列_Python 3 实现数字转换成Excel列名(10进制到26进制的转换函数)...
背景: 最近在看一些Python爬虫的相关知识,讲爬取的一些数据写入到Excel表中,当时当列的数目不确定的情况下,如何通过遍历的方式讲爬取的数据写入到Excel中. 开发环境: Python 3 ...
最新文章
- 驱动提取软件_深入分析施耐德工控软件代码执行漏洞
- datatable使用_使用Streamlit从简单的Python脚本创建交互式WebApp
- imp命令导入指定表_Sqoop 使用shell命令的各种参数的配置及使用方法
- oracle逻辑备份和物理备份,Oracle备份与恢复介绍(物理备份与逻辑备份)
- linux sd卡 读写速度测试_铠侠(原东芝存储)SD卡,大容量存储时代,高速读写选择...
- 一个老工程师的肺腑之言!!!
- 《Linux多线程服务端编程:使用muduo C++网络库》书摘6.6.2节
- Java中12 种 Spring 常用注解,必须记住!
- acm路上的一些感想
- 为什么Uber宣布从Postgres切换到MySQL?
- android .9横向拉伸,神奇的问题!android .9图片拉伸不是不会变形吗?但是这里变形了...
- 一张图了解大数据概念,大数据应用场景总结
- 智能电视主流的CPU有三家。一个是Mstar(晨星),另两个是MTK和Amlogic(晶晨)
- 复变函数的极限和连续
- java上机实验作业 编写汽车类car,Java代写:CS103 Car Rental代做留学生SQL实验作业...
- 命令行基础技巧挂载并访问光盘设备
- 谷歌seo快速排名优化方法
- MxNet系列——how_to——multi_devices
- IE11不兼容array.from()解决方法
- 十六计使SEO优化道路了如指掌