当在pdf上看到自己想用的表格,却无法将其复制下来的时候,只能默默地打开excel对照着pdf表格的形式敲打出来,既费时又费力!这里介绍如何用python程序将pdf上的表格自动转化为excel表!

1.使用的库

简单介绍一下要使用的库:pdfplumber 和xlwt

1.pdfplumber

pdfplumber使用来解析pdf的文字与表格。该库与之前一篇文章python办公自动化——PDF转Word所使用的pdfminer库类似,都是从pdf里面提取信息。但不同的是pdfminer侧重提文字,对表格的提取不是很好,而pdfplumber 对提取表格的支持比较好。

请点击输入描述

2.xlwt

xlwt是python用来操作excel的一个库,可以用它对excel进行创建表单、写入指定单元格、指定单元格样式等人工实现的功能等一系列操作。

2.pdf转excel

话不多说,接下来就用这两个库完成pdf转excel的操作。

思路:

pdfplumber获取当前页面的全部文本信息,包括表格的文字。在当前页信息中通过extract_tables()方法提取表格。将内容写入到excel中。代码:

import pdfplumber

import xlwt

workbook = xlwt.Workbook()

sheet = workbook.add_sheet('Sheet1')

i = 0

pdf = pdfplumber.open("1.pdf")

print('开始读取数据')

for page in pdf.pages:

for table in page.extract_tables():

for row in table:

for j in range(len(row)):

sheet.write(i, j, row[j])

i += 1

pdf.close()

workbook.save('C:/Users/Administrator/Desktop/result.xls')

print('保存成功!')

在代码中最主要的就是for循环,要获取到每一个页面,并对每一个页面里面的信息进行提取。这里主要用extract_table()方法对表格信息提取

主要的循环读取写入

这里用于测试的是一个只包含表格的pdf,里面包含英文字母和中文字母。

测试pdf

在经过程序转换以后输出到excel表格中的样子如下:

转换结果

可以看到pdf表格中,每一行一列不管是英文字母还是汉字都转换了出来,效果很是不错,速度也比较快。

python还有不少处理办公的技巧,省时省力,以后的章节中会和大家继续分享,欢迎留言讨论转载请注明出处(百家号:戏说编程)

python将pdf转成excel_PDF转EXCEL,python的这个技能知道吗?相关推荐

  1. PDFPlumber使用入门+python实现PDF中表格转化为Excel的方法

    PDFPlumber使用入门:https://blog.csdn.net/weixin_48629601/article/details/107224376 python实现PDF中表格转化为Exce ...

  2. python批量将pdf转成word_如何用Python把pdf转换成word

    很多时候,我们需要把文件的形式来回转换.那么学了编程的小伙伴,我们该如何用Python把pdf转换成word呢? 一.下载所需要的库 1.pdfminer 安装库命令pip install pdfmi ...

  3. Python将PDF转成图片—PyMuPDF和pdf2image

    前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换成图片,然后对图片进行测试. 粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Python方 ...

  4. pdf转换成jpg python_【PyMuPDF和pdf2image】Python将PDF转成图片PNG和JPG

    公众号:前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换成图片,然后对图片进行测试. 粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Pyt ...

  5. 开源在线excel编辑器_5款免费在线PDF转换成word或者excel的分享

    word在日常工作中,应用广泛,但是里面关于PDF的转换工具必需要会员才可以使用,但又不愿意只为了转换一次而花费钱去买会员,本文为你们提供了5款免费在线PDF转换成word或者excel的网. 1.I ...

  6. 【PyMuPDF和pdf2image】Python将PDF转成图片

    2023-04-30更新 PyMuPDF=1.21.1 import datetime # PyMuPDF=1.21.1 import fitzdef pdf2img(pdf_path, img_pa ...

  7. python提取pdf数据到excel_PDF文本内容批量提取到Excel

    机器学习,统计项目合作QQ:231469242,版权所有 作用:pdf内容批量提取到excel 各位亲朋好友,我才上班时候有个鼓噪乏味工作,就是把一个个PDF内容复制粘贴到Excel表格里面,方便以后 ...

  8. 用python提取PDF表格内容保存到excel

    一 提取pdf方法介绍 任务是用python提取PDF里的表格文件到excel里面去.做为一个 学了一个周python的人来说当然像尝试一下看能不能做到,事实证明是可以的只是可能代码有点烂...... ...

  9. 【初识python 1】Python PPT PDF 转成图片

    序言   由于业务需求需要实现文档转成图片输出,PHP实现效率不是很高(libreoffice,ImageMagick,unoconv,wkhtmltopdf等),尝试用python做个小尝试,目前只 ...

最新文章

  1. 网上找到一个用不同颜色显示表格奇偶行的例子
  2. windows访问linux数据库命令行,命令行方式导入导出mysql数据库(适用windows、Linux系统vps弹性云)...
  3. 类与类之间关系,用C#和JavaScript体现
  4. mysql 8.0.22_mysql 8.0.22 安装配置图文教程
  5. iOS 开发--github的demo
  6. Shell练习题(持续更新)
  7. Vim中根据正则对选中文本对齐(比如ini文件的=号对齐)
  8. IntelliJ IDEA中创建xml文件
  9. pod install速度慢解决方案
  10. linux中docker容器与宿主系统之间文件拷贝
  11. python判断是否有重复单词_Python:在字符串列表中查找未知的重复单词
  12. 前端几种本地缓存机制
  13. Nginx介绍及安装配置
  14. HMM和Viterbi算法
  15. 企业微信付款到零钱,全代码讲解,包含怎么加入商户证书
  16. CNN应用之性别、年龄识别
  17. erb自动生成html页面一例
  18. 基于springboot小型命题系统毕业设计源码011508
  19. 新的一年,那些晴耕小筑要填的坑
  20. 双千兆网口路由器方案开发板香橙派R1 Plus LTS连接USB无线网卡测试说明(OpenWRT 系统)

热门文章

  1. 荣耀发布标志性旗舰智能手机Magic3系列;环旭电子为小型物联网设备推出双核蓝牙5.0天线封装模块 | 全球TMT...
  2. 批量爬取网易云热歌榜音乐
  3. KF、EKF、IEKF、UKF卡尔曼滤波器
  4. 庆祝小超的家开始筹建
  5. 2020年有寓意的领证日期_2020年领证日期怎么选
  6. 韩老师讲SQL2005数据库开发 环境准备代码
  7. 阿里的Maven仓库地址
  8. vue---lodash的使用
  9. 多元复合函数的求导法则(一元函数与多元函数复合、多元函数与多元函数复合、混合形式)
  10. java设备未就绪_java.io.IOException: 设备未就绪。怎么解决?