使用pdfplumber包转换excel,注意转换后pdf的换号符会保留。

import pdfplumber
from openpyxl import Workbook
from tqdm import tqdm
data_folder = './pdf/'
# file_name = data_folder+'医保药品分类与代码数据库更新202110.pdf'
file_name = data_folder+'**.pdf'
data_name = data_folder+'**.csv'def analysis_table(pdf_file_path):# 打开表格workbook = Workbook()sheet = workbook.active# 打开pdfwith pdfplumber.open(pdf_file_path) as pdf:# 遍历每页pdf 17476/17855for page in tqdm(pdf.pages):# 提取表格信息try:table = page.extract_table()# print(table)# 格式化表格数据for i, row in enumerate(table):# 每一页前两行都是表头,不要# 第一页多了行标题,不要if str(page) ==  '<Page:1>' and i== 2:passelif   i==0 or i==1:...else:sheet.append(row)except:breakworkbook.save(filename=data_name)analysis_table(file_name)

参考:利用pdfplumber提取pdf文档内容

python pdf转excel相关推荐

  1. 用python转换PDF/Word/Excel/PPT等!

    作者:刘早起 来源:早起Python 大家好,又到了Python办公自动化专题.今天讲的是各位一定会接触到的PDF转换,关于各种格式的文件转换为PDF有很多第三方工具与网站可以实现,但是使用Pytho ...

  2. python编程 | pdf转excel的python方法

    我的博客:https://blog.justlovesmile.top 最近不知道写什么了,正好昨天整理了几学期的年级排名,需要pdf转excel,所以百度学习了一下python的pdfplumber ...

  3. python批量将excel转成pdf_使用Python转换PDF,Word/Excel/PPT/md/HTML都能转!

    同一个操作执行两次,就要考虑自动化! 大家好,又到了Python办公自动化专题. 今天讲的是各位一定会接触到的PDF转换,关于各种格式的文件转换为PDF有很多第三方工具与网站可以实现,但是使用Pyth ...

  4. python里读写excel等数据文件的6种常用方式

    下面整理下python有哪些方式可以读取数据文件. 1. python内置方法(read.readline.readlines) read() : 一次性读取整个文件内容.推荐使用read(size) ...

  5. python实现跨excel的工作表sheet之间的复制

    百度搜索问题:python复制Excel中的sheet到另外一个工作簿 其中一篇文章: 地址:https://blog.csdn.net/lingan_hong/article/details/727 ...

  6. C# 将PDF转为Excel

    Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...

  7. Python+pandas读取Excel文件统计最受欢迎的前3位演员

    推荐教材:<Python程序设计基础与应用>(ISBN:9787111606178),董付国,机械工业出版社,2018.8出版,2021.3第11次印刷 图书详情: 配套资源: 用书教师可 ...

  8. Python PDF文件合并,提取

    文章目录 1. 功能介绍 2.项目难点 1. tkinter设置图标显示 3. 源代码 3. 代码打包 1. 打包过后程序运行出错 2. 打包命令 3.打包技巧 1. 功能介绍 选择两个pdf指定的页 ...

  9. python自动读取excel文件邮箱列表,自动批量发送邮件项目(附使用方法+代码)

    python自动发送邮件项目 项目简介 使用方法 项目结构 完整项目代码 结语 项目简介 该项目功能是利用python自动读取excel文件中的邮箱列表,并批量发送邮件到目标邮箱,进行客户挖掘的.该项 ...

  10. Python pdf转csv

    Python pdf转csv 背景 依赖的环境 依赖的主要python包 pdfminer 背景 最近有需求需要解析电子行程单(滴滴.美团.高德等)的数据,由于电子行程但都是PDF的文件,为此需要解析 ...

最新文章

  1. 洛谷 P1690 贪婪的Copy
  2. CV:计算机视觉技术之图像基础知识(二)—图像内核的可视化解释
  3. Java黑皮书课后题第3章:**3.28(几何:两个矩形)编写一个程序,提示用户输入两个矩形中心的x坐标和y坐标以及矩形的宽度和高度,然后判断第二个矩形是在第一个矩形内,还是和第一个矩形重叠
  4. 避免许多if块进行验证检查
  5. 架构设计 | 接口幂等性原则,防重复提交Token管理
  6. linux查看cpu缓存大小,如何在Linux中获取CPU Cache的大小
  7. 冰原服务器维护,12月2日服务器公告:冰原旅途进发
  8. 基于Java的webapp_第一个 JAVA WEB 应用
  9. jar 文件不能运行
  10. 常用webserver 比较
  11. 下载Windows10纯净官方镜像
  12. excel小写转大写公式_excel数字小写转大写公式的教程
  13. android 触摸屏校准,android实现触摸屏校准
  14. R代码模拟世界杯1000次,速成2018世界杯预言帝
  15. CDB断点调试器报错:Exception at 0x7715c5af, code: 0xe06d7363
  16. 【数据集】Kinetics-600 dataset介绍
  17. 线性代数(1)- 向量空间
  18. pandas多场景业务实战-指标计算
  19. 数据分析实例——美国加州人口分析[isnull().any()/.unique()/merge/set_index/df.query/sort_values]
  20. IOS开发之开发工具Xcode下载

热门文章

  1. vmoptions默认配置_idea VM options参数优化
  2. 2018年马哥Linux
  3. 马哥linux2018目录,2018-01-02 马哥Linux学习笔记—Linux系统基础使用入门
  4. 希腊字母|罗马数字|中文数字大写
  5. 洗地机之滚刷电机分析:关于电机转矩.功率.转速之间的关系及计算公式
  6. 性能测试中问题反思和心得
  7. excel打开超链接不使用浏览器,使用默认图片浏览软件
  8. 什么是组播?让我们一起解密组播协议(IGMP、PIM)
  9. i3cpu驱动xp_Intel英特尔Core i3/Core i5/Core i7系列CPU核芯显卡驱动
  10. 基于STM32F405平台的多摩川协议编码器通讯过程(2)