python将pdf转成excel_PDF转EXCEL,python的这个技能知道吗?
当在pdf上看到自己想用的表格,却无法将其复制下来的时候,只能默默地打开excel对照着pdf表格的形式敲打出来,既费时又费力!这里介绍如何用python程序将pdf上的表格自动转化为excel表!
1.使用的库
简单介绍一下要使用的库:pdfplumber 和xlwt
1.pdfplumber
pdfplumber使用来解析pdf的文字与表格。该库与之前一篇文章python办公自动化——PDF转Word所使用的pdfminer库类似,都是从pdf里面提取信息。但不同的是pdfminer侧重提文字,对表格的提取不是很好,而pdfplumber 对提取表格的支持比较好。
请点击输入描述
2.xlwt
xlwt是python用来操作excel的一个库,可以用它对excel进行创建表单、写入指定单元格、指定单元格样式等人工实现的功能等一系列操作。
2.pdf转excel
话不多说,接下来就用这两个库完成pdf转excel的操作。
思路:
pdfplumber获取当前页面的全部文本信息,包括表格的文字。在当前页信息中通过extract_tables()方法提取表格。将内容写入到excel中。代码:
import pdfplumber
import xlwt
workbook = xlwt.Workbook()
sheet = workbook.add_sheet('Sheet1')
i = 0
pdf = pdfplumber.open("1.pdf")
print('开始读取数据')
for page in pdf.pages:
for table in page.extract_tables():
for row in table:
for j in range(len(row)):
sheet.write(i, j, row[j])
i += 1
pdf.close()
workbook.save('C:/Users/Administrator/Desktop/result.xls')
print('保存成功!')
在代码中最主要的就是for循环,要获取到每一个页面,并对每一个页面里面的信息进行提取。这里主要用extract_table()方法对表格信息提取
主要的循环读取写入
这里用于测试的是一个只包含表格的pdf,里面包含英文字母和中文字母。
测试pdf
在经过程序转换以后输出到excel表格中的样子如下:
转换结果
可以看到pdf表格中,每一行一列不管是英文字母还是汉字都转换了出来,效果很是不错,速度也比较快。
python还有不少处理办公的技巧,省时省力,以后的章节中会和大家继续分享,欢迎留言讨论转载请注明出处(百家号:戏说编程)
python将pdf转成excel_PDF转EXCEL,python的这个技能知道吗?相关推荐
- PDFPlumber使用入门+python实现PDF中表格转化为Excel的方法
PDFPlumber使用入门:https://blog.csdn.net/weixin_48629601/article/details/107224376 python实现PDF中表格转化为Exce ...
- python批量将pdf转成word_如何用Python把pdf转换成word
很多时候,我们需要把文件的形式来回转换.那么学了编程的小伙伴,我们该如何用Python把pdf转换成word呢? 一.下载所需要的库 1.pdfminer 安装库命令pip install pdfmi ...
- Python将PDF转成图片—PyMuPDF和pdf2image
前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换成图片,然后对图片进行测试. 粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Python方 ...
- pdf转换成jpg python_【PyMuPDF和pdf2image】Python将PDF转成图片PNG和JPG
公众号:前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换成图片,然后对图片进行测试. 粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Pyt ...
- 开源在线excel编辑器_5款免费在线PDF转换成word或者excel的分享
word在日常工作中,应用广泛,但是里面关于PDF的转换工具必需要会员才可以使用,但又不愿意只为了转换一次而花费钱去买会员,本文为你们提供了5款免费在线PDF转换成word或者excel的网. 1.I ...
- 【PyMuPDF和pdf2image】Python将PDF转成图片
2023-04-30更新 PyMuPDF=1.21.1 import datetime # PyMuPDF=1.21.1 import fitzdef pdf2img(pdf_path, img_pa ...
- python提取pdf数据到excel_PDF文本内容批量提取到Excel
机器学习,统计项目合作QQ:231469242,版权所有 作用:pdf内容批量提取到excel 各位亲朋好友,我才上班时候有个鼓噪乏味工作,就是把一个个PDF内容复制粘贴到Excel表格里面,方便以后 ...
- 用python提取PDF表格内容保存到excel
一 提取pdf方法介绍 任务是用python提取PDF里的表格文件到excel里面去.做为一个 学了一个周python的人来说当然像尝试一下看能不能做到,事实证明是可以的只是可能代码有点烂...... ...
- 【初识python 1】Python PPT PDF 转成图片
序言 由于业务需求需要实现文档转成图片输出,PHP实现效率不是很高(libreoffice,ImageMagick,unoconv,wkhtmltopdf等),尝试用python做个小尝试,目前只 ...
最新文章
- 网上找到一个用不同颜色显示表格奇偶行的例子
- windows访问linux数据库命令行,命令行方式导入导出mysql数据库(适用windows、Linux系统vps弹性云)...
- 类与类之间关系,用C#和JavaScript体现
- mysql 8.0.22_mysql 8.0.22 安装配置图文教程
- iOS 开发--github的demo
- Shell练习题(持续更新)
- Vim中根据正则对选中文本对齐(比如ini文件的=号对齐)
- IntelliJ IDEA中创建xml文件
- pod install速度慢解决方案
- linux中docker容器与宿主系统之间文件拷贝
- python判断是否有重复单词_Python:在字符串列表中查找未知的重复单词
- 前端几种本地缓存机制
- Nginx介绍及安装配置
- HMM和Viterbi算法
- 企业微信付款到零钱,全代码讲解,包含怎么加入商户证书
- CNN应用之性别、年龄识别
- erb自动生成html页面一例
- 基于springboot小型命题系统毕业设计源码011508
- 新的一年,那些晴耕小筑要填的坑
- 双千兆网口路由器方案开发板香橙派R1 Plus LTS连接USB无线网卡测试说明(OpenWRT 系统)
热门文章
- 荣耀发布标志性旗舰智能手机Magic3系列;环旭电子为小型物联网设备推出双核蓝牙5.0天线封装模块 | 全球TMT...
- 批量爬取网易云热歌榜音乐
- KF、EKF、IEKF、UKF卡尔曼滤波器
- 庆祝小超的家开始筹建
- 2020年有寓意的领证日期_2020年领证日期怎么选
- 韩老师讲SQL2005数据库开发 环境准备代码
- 阿里的Maven仓库地址
- vue---lodash的使用
- 多元复合函数的求导法则(一元函数与多元函数复合、多元函数与多元函数复合、混合形式)
- java设备未就绪_java.io.IOException: 设备未就绪。怎么解决?