这几天想统计一下《中国人文社会科学期刊 AMI 综合评价报告(2018 年):A 刊评价报告》中的期刊,但是只找到了该报告的PDF版,对于表格的编辑不太方便,于是想到用Python将表格转成Excel格式。

看过别人写的博客,发现Python解析PDF有以下四种方式:

-pdfminer:擅长文字的解析,把表格解析成普通的文本,没有格式;

-pdf2html:把pdf解析成html,但html的标签并没有规律,解析一个表格还可以,多个表格的话不太好提取;

-tabula:对于简单的表格,即单元格中没有换行的,表头表尾形式不复杂的,使用比较方便。但是单脑需要Java环境;

-pdfplumber:是一个可以处理pdf格式信息的库。可以查找关于每个文本字符、矩阵、和行的详细信息,也可以对表格进行提取并进行可视化调试。

本文采用pdfplumber库读取PDF中的表格,运行环境:Python3.5.2,Anaconda4.2.0。首先简单介绍一下pdfplumber库:

-pdfplumber.pdf中包含了.metadata和.pages两个属性:

.metadata是一个包含pdf信息的字典。

.pages是一个包含页面信息的列表。

-pdfplumber.page的类中包含的主要的属性:

.page_number 页码。

.width 页面宽度。

.height 页面高度。

.objects/.chars/.lines/.rects 这些属性中每一个都是一个列表,每个列表都包含一个字典,每个字典用于说明页面中的对象信息, 包括直线,字符, 方格等位置信息。

-一些常用的方法:

.extract_text() 用来提页面中的文本,将页面的所有字符对象整理为的那个字符串。

.extract_words() 返回的是所有的单词及其相关信息。

.extract_tables() 提取页面的表格。

.to_image() 用于可视化调试时,返回PageImage类的一个实例。

import pdfplumber

import pandas as pd

path = 'test.pdf'

pdf = pdfplumber.open(path)

i=1

#writer=pd.ExcelWriter('output.xlsx')

df=pd.DataFrame(columns=['序号','刊名','主办单位','等级'])

sheetname=['考古文博','历史学','马克思主义理论','民族学与文化学','文学-外国文学','文学-中国文学','艺术学','语言学','哲学','宗教学','法学'

,'管理学','环境科学','教育学','经济学-财政科学','经济学-工业经济','经济学-金融','经济学-经济管理','经济学-经济综合','经济学-贸易经济'

,'经济学-农业经济','经济学-世界经济','人文地理学','社会学','体育学','统计学','图书馆情报与档案学','心理学','新闻学与传播学'

,'政治学-国际政治','政治学-中国政治','综合-高校综合性学报','综合-综合性人文社科期刊']

##由于存在一个表格跨页的情况,先将所有表格存放在一个DataFrame中,再根据序号拆分。

for page in pdf.pages[17:59]:

print (page)

# 获取当前页面的全部文本信息,包括表格中的文字

# print(page.extract_text())

for table in page.extract_tables():

#print(table)

df=df.append(pd.DataFrame(table[1:],columns=table[0]),ignore_index=True)

print (df)

writer=pd.ExcelWriter('output3.xlsx')

new_df=pd.DataFrame()

j=1

index=[]

#记录序号==1的行索引,用于后面的表格拆分

for i in range(len(df)):

if df.ix[i,0]=='1':

index.append(i)

print ("################")

index.append(len(df))

#print (index)

#按行索引将内容切片并逐个添加到表中

for t in range(len(index)-1):

new_df=df.ix[index[t]:index[t+1]-1,:]

#print (new_df)

new_df.to_excel(writer,sheet_name=sheetname[t],encoding='gb2312',index=None)

writer.save()

pdf.close()

print('finished')

最终保存为Excel。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持聚米学院。

python pdf 数据转excel 表格_python实现PDF中表格转化为Excel的方法相关推荐

  1. python如何统计出现的次数_Python统计日志中每个IP出现次数的方法

    本文实例讲述了Python统计日志中每个IP出现次数的方法.分享给大家供大家参考.具体如下: 这脚本可用于多种日志类型,本人测试MDaemon的all日志文件大小1.23G左右,分析用时2~3分钟 代 ...

  2. Excel表格拖入Word中表格格式保持不变

    一.Excel表格拖入Word中表格格式保持不变 1.选中Excel中的表格,按住Ctrl键,拖动到word中即可. 二.word中的表格复制到Excel中表格格式保持不变 1.将word另存为网页格 ...

  3. python保存数据到本地文件_python保存数据到本地文件的方法

    python保存数据到本地文件的方法 1.保存列表为.txt文件 #1/list写入txt ipTable = ['158.59.194.213', '18.9.14.13', '58.59.14.2 ...

  4. python扩展库xlwt支持对_python第三方库——xlrd和xlwt操作Excel文件学习

    一.xlrd和xlwt的安装 xlrd和xlwt是python的第三方库,所以是需要自己安装的,可以在python的官网https://pypi.python.org/pypi下载该模块来安装,也可以 ...

  5. python从文件中读取数据时出现错误_Python 从文件中读取数据

    读取整个文件 # 案例:读取整个文件 # pi_digits.txt 3.1415926535 8979323846 2643383279 # file_reader.py with open ('p ...

  6. python矩阵中找满足条件的元素_Python 找到列表中满足某些条件的元素方法

    Python 找到列表中满足某些条件的元素方法 更新时间:2018年06月26日 11:20:17 作者:CS_network 今天小编就为大家分享一篇Python 找到列表中满足某些条件的元素方法, ...

  7. python判断网页密码加密方式_Python模拟网页中javascript加密与验证的相关处理

    在做网络爬虫的过程中你是否一些在这方面做的很好的网站,你向知道他是通过哪些相关的操作做出这么好的网站,以下就是文章的相关内容的具体介绍,希望你浏览完下面的内容会有所收获.Python模拟网页的java ...

  8. python隐藏部分代码_python隐藏类中属性的3种实现方法

    方法一: 效果图一: 代码一: # 定义一个矩形的类 class Rectangle: # 定义初始化方法 def __init__(self,width,height): self.hidden_w ...

  9. python列表根据值找索引_python实现列表中由数值查到索引的方法

    python实现列表中由数值查到索引的方法 如下所示: 以上这篇python实现列表中由数值查到索引的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们. 时间: 201 ...

最新文章

  1. 2021年大数据常用语言Scala(二十六):函数式编程 分组 groupBy
  2. 哆啦a梦简单图画python编程_[python]画哆啦A梦,Python,绘制
  3. Java Web开发中路径问题小结
  4. php登录注册demo,PHP实现登录功能DEMO
  5. 【AI产品】你我当年的老照片,如今修复了可还行?
  6. Redis01_初识安装
  7. 关于微信公众平台表情代码的记录
  8. 如何处理Docker错误消息:please add——insecure-registry
  9. 推荐系统(Recommendation system)
  10. 响应式禁用(Bootstrap PK AmazeUI)
  11. 【官方速报】Pika3.0正式发布
  12. C语言mutex使用案例,C语言 如何使用互斥锁严格交替使用两个线程?
  13. android toast 自定义时间,android自定义Toast设定显示时间
  14. 清空数据库中的某个表中数据
  15. MySQL Enterprise Monitor架构图
  16. sql group by统计
  17. 小米潘多拉路由器添加节点_小米mesh好用吗?AX3600AX1800 混组测试
  18. mqtt 推送的客户端测试方法
  19. 教学演示软件 模型八 医学的人体模型
  20. FreeSWITCH ODBC cdr

热门文章

  1. 安卓逆向工程与代码安全
  2. ioctl -构造命令编号 _IO,_IOW,_IOR,_IOWR
  3. #include “sndfile.h“读取音频文件的使用方法
  4. 微信ipad协议,微信开发API接口
  5. Xshell工具下载
  6. Linux 下载sublime
  7. R中时间序列分析-趋势分析Trend
  8. NYOJ1036 非洲小孩
  9. 互联网网红经济从未消散,它只是影响力越来越低
  10. 2023 源支付码支付系统源码v3.0 二开修复版 全本地化