python提取pdf文件数据
- 首先要安装这俩个库
pip install pdfplumber
pip install openpyxl
- 1.初始化路径
path = r"C:\Users\lenovo\Desktop\论文和面试\以客户为中心.pdf"
- 2.打开pdf文件
pdf_mt = pdfplumber.open(path)
pdf_mt
- 3.获取数据所在页(总共多少页)
# 获取到数据所在页 list --> [第一页的对象,第二页的对象,...第n页的对象]
all_pages = pdf_mt.pages
all_pages
- 4.获取pdf每一页文本数据(前四十页的文本数据)
for pdf_pg in all_pages[0:40]:print(pdf_pg.extract_text())
- 5.获取表格内容
for pdf_pg in all_pages[0:40]:print(pdf_pg.extract_tables())
- 6.将数据保存到excel
# 创建workbook对象
wb = Workbook()
# 激活工作表
ws = wb.active
for pdf_pg in need_pages:# print(pdf_pg)# 获取每页的文本内容# print(pdf_pg.extract_text())# 获取表格内容 表格:二维 [[],[]]# print(pdf_pg.extract_tables()) # 表格有行有列的二维数据,获取二维的列表 for pdf_tb in pdf_pg.extract_tables():# print(pdf_tb) # 将数据一行一行的写入工作表for row in pdf_tb:ws.append(row)wb.save("demo3.xlsx")
python提取pdf文件数据相关推荐
- 利用Python提取PDF文件中的文本信息
如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...
- python提取pdf表格数据_Python骚操作,提取pdf文件中的表格数据!
在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报.发行上市公告等.面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取.那么如何才能高效提取出pdf文 ...
- pdf exe如何提取pdf文件_python应用:如何用python提取pdf文件中的文字
从pdf中提取文字,相信很多人都干过这事,怎么在python中实现呢,今天带大家看看. 第一步导入库 import PyPDF2 第二步导入pdf文件 pdf_file =open('dataset/ ...
- python提取pdf表格数据并保存到excel中
pdfplumber操作pdf文件 python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者.创建时间.修改时间-)及表格.文本.图片等信息,基本可以满足 ...
- Python提取PDF文件中的表格文本保存为Excel文件
"Python小屋"编程比赛正式开始 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020 ...
- python 提取pdf表格_用Python提取pdf文件中的表格数据
本文作者:杨慧琳 本文编辑:周聪聪 技术总编:张学人有问题,不要怕!访问 http://www.wuhanstring.com/uploads/5_aboutus/爬虫俱乐部-用户问题登记表.docx ...
- python提取pdf文件内容_如何用Python批量提取PDF文本内容?
本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析. 问题 最近,读者们在后台的留言,愈发五花八门了. 写了几篇关于自然语言处理的文章 ...
- python提取pdf表格数据导出到mongodb_python读取mongoDB数据并存入本地excel表格
from openpyxl import Workbook import pymongo # 读取mongoDB数据库相应的表,每条数据取出数个字段存入一个dict,再将所有的dict存入一个list ...
- gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
最新文章
- 自动调节图像的对比度 和改变图像的大小
- matlab缺少某些变量,总提示缺少变量或函数
- 在db2数据库上模拟死锁场景 还是z上的
- lombok 简化代码_如何编写更少,更好的代码,或Project Lombok
- CSS之Responsive网页设计的三个特性
- 数据库期末总结笔记( 零基础 )
- phpstorm 常用快捷键及自定义快捷键
- schema约束和引入
- 计算机描述不可用win10,升级win10出现的各种问题及解决办法
- 微信公众号推广的40个有效果的方法
- 带你逐步深入了解SSM框架——淘淘商城项目之redis缓存
- 程序员值得收藏的41个电子书搜索网站
- 算法实现自动扫雷游戏
- peek在c语言中的作用,C++ peek函数用法详解
- dry的原理_Dry Etch 工艺基本原理及良率剖析(经典讲解)
- 关闭bitLocker驱动器加密
- 三星很陶醉:爷会成为智能手机之王
- cortana小娜不能文字搜索,只能用语音搜索【修复教程】
- 判断dataGridView是否重复值
- linux蓝牙打开自动关闭,firefly rk3288 蓝牙开启又自动关闭
热门文章
- 你今天刷快手了吗(字符处理)
- 为Synaptics驱动的触摸板安装精确式触摸板
- 排序算法----希尔排序
- 五大列级庄_波尔多1855年评定的列级名庄1-5级各有哪些?哪个产区的列级庄最多?...
- 原创 | 假期必读:一文看尽2019-2020各大顶会GNN论文(附链接)
- 蓝牙耳机品牌推荐:2023年口碑最好的蓝牙耳机品牌排行
- 小公司的 ERP 或数据库, 该用 PC 还是 Server
- 用pygame做一个简单的python小游戏---贪吃蛇
- [UER #1] DZY Loves Graph
- Xtend:Android平台的Swift语言