• 首先要安装这俩个库
pip install pdfplumber
pip install openpyxl
  • 1.初始化路径
path = r"C:\Users\lenovo\Desktop\论文和面试\以客户为中心.pdf"
  • 2.打开pdf文件
pdf_mt = pdfplumber.open(path)
pdf_mt
  • 3.获取数据所在页(总共多少页)
# 获取到数据所在页  list --> [第一页的对象,第二页的对象,...第n页的对象]
all_pages = pdf_mt.pages
all_pages
  • 4.获取pdf每一页文本数据(前四十页的文本数据)
for pdf_pg in all_pages[0:40]:print(pdf_pg.extract_text())
  • 5.获取表格内容
for pdf_pg in all_pages[0:40]:print(pdf_pg.extract_tables())
  • 6.将数据保存到excel
# 创建workbook对象
wb = Workbook()
# 激活工作表
ws = wb.active
for pdf_pg in need_pages:# print(pdf_pg)# 获取每页的文本内容# print(pdf_pg.extract_text())# 获取表格内容 表格:二维 [[],[]]# print(pdf_pg.extract_tables()) # 表格有行有列的二维数据,获取二维的列表 for pdf_tb in pdf_pg.extract_tables():# print(pdf_tb) # 将数据一行一行的写入工作表for row in pdf_tb:ws.append(row)wb.save("demo3.xlsx")

python提取pdf文件数据相关推荐

  1. 利用Python提取PDF文件中的文本信息

    如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...

  2. python提取pdf表格数据_Python骚操作,提取pdf文件中的表格数据!

    在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报.发行上市公告等.面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取.那么如何才能高效提取出pdf文 ...

  3. pdf exe如何提取pdf文件_python应用:如何用python提取pdf文件中的文字

    从pdf中提取文字,相信很多人都干过这事,怎么在python中实现呢,今天带大家看看. 第一步导入库 import PyPDF2 第二步导入pdf文件 pdf_file =open('dataset/ ...

  4. python提取pdf表格数据并保存到excel中

    pdfplumber操作pdf文件 python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者.创建时间.修改时间-)及表格.文本.图片等信息,基本可以满足 ...

  5. Python提取PDF文件中的表格文本保存为Excel文件

    "Python小屋"编程比赛正式开始 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020 ...

  6. python 提取pdf表格_用Python提取pdf文件中的表格数据

    本文作者:杨慧琳 本文编辑:周聪聪 技术总编:张学人有问题,不要怕!访问 http://www.wuhanstring.com/uploads/5_aboutus/爬虫俱乐部-用户问题登记表.docx ...

  7. python提取pdf文件内容_如何用Python批量提取PDF文本内容?

    本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析. 问题 最近,读者们在后台的留言,愈发五花八门了. 写了几篇关于自然语言处理的文章 ...

  8. python提取pdf表格数据导出到mongodb_python读取mongoDB数据并存入本地excel表格

    from openpyxl import Workbook import pymongo # 读取mongoDB数据库相应的表,每条数据取出数个字段存入一个dict,再将所有的dict存入一个list ...

  9. gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据

    前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

最新文章

  1. 自动调节图像的对比度 和改变图像的大小
  2. matlab缺少某些变量,总提示缺少变量或函数
  3. 在db2数据库上模拟死锁场景 还是z上的
  4. lombok 简化代码_如何编写更少,更好的代码,或Project Lombok
  5. CSS之Responsive网页设计的三个特性
  6. 数据库期末总结笔记( 零基础 )
  7. phpstorm 常用快捷键及自定义快捷键
  8. schema约束和引入
  9. 计算机描述不可用win10,升级win10出现的各种问题及解决办法
  10. 微信公众号推广的40个有效果的方法
  11. 带你逐步深入了解SSM框架——淘淘商城项目之redis缓存
  12. 程序员值得收藏的41个电子书搜索网站
  13. 算法实现自动扫雷游戏
  14. peek在c语言中的作用,C++ peek函数用法详解
  15. dry的原理_Dry Etch 工艺基本原理及良率剖析(经典讲解)
  16. 关闭bitLocker驱动器加密
  17. 三星很陶醉:爷会成为智能手机之王
  18. cortana小娜不能文字搜索,只能用语音搜索【修复教程】
  19. 判断dataGridView是否重复值
  20. linux蓝牙打开自动关闭,firefly rk3288 蓝牙开启又自动关闭

热门文章

  1. 你今天刷快手了吗(字符处理)
  2. 为Synaptics驱动的触摸板安装精确式触摸板
  3. 排序算法----希尔排序
  4. 五大列级庄_波尔多1855年评定的列级名庄1-5级各有哪些?哪个产区的列级庄最多?...
  5. 原创 | 假期必读:一文看尽2019-2020各大顶会GNN论文(附链接)
  6. 蓝牙耳机品牌推荐:2023年口碑最好的蓝牙耳机品牌排行
  7. 小公司的 ERP 或数据库, 该用 PC 还是 Server
  8. 用pygame做一个简单的python小游戏---贪吃蛇
  9. [UER #1] DZY Loves Graph
  10. Xtend:Android平台的Swift语言