使用Python从PDF文件中提取数据
前言
数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据。然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了解如何从pdf文件中提取数据,并将数据转换为诸如“csv”之类的格式,以便用于分析或构建模型。
很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:1097524789
在本文中,我们将重点讨论如何从pdf文件中提取数据表。类似的分析可以用于从pdf文件中提取其他类型的数据,如文本或图像。我们将说明如何从pdf文件中提取数据表,然后将其转换为适合于进一步分析和构建模型的格式。我们将给出一个实例。
示例:使用Python从PDF文件中提取一个表格
a) 将表复制到Excel并保存为table_1_raw.csv
数据以一维格式存储,必须进行重塑、清理和转换。
b) 导入必要的库
- import pandas as pd
- import numpy as np
c) 导入原始数据,重新定义数据
- df=pd.read_csv("table_1_raw.csv", header=None)
- df.values.shape
- df2=pd.DataFrame(df.values.reshape(25,10))
- column_names=df2[0:1].values[0]
- df3=df2[1:]
- df3.columns = df2[0:1].values[0]
- df3.head()
d) 使用字符串处理工具进行数据纠缠
我们从上面的表格中注意到,x5、x6和x7列是用百分比表示的,所以我们需要去掉percent(%)符号:
- df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))
- df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))
- df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))
e) 将数据转换为数字形式
我们注意到列x5、x6和x7的列值数据类型为string,因此我们需要将它们转换为数值数据,如下所示:
- df4['x5']=[float(x) for x in df4['x5'].values]
- df4['x6']=[float(x) for x in df4['x6'].values]
- df4['x7']=[float(x) for x in df4['x7'].values]
f) 查看转换数据的最终形式
- df4.head(n=5)
g) 导出最终数据到一个csv文件
- df4.to_csv('table_1_final.csv',index=False)
使用Python从PDF文件中提取数据相关推荐
- gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- 手把手教你如何用Python从PDF文件中导出数据(附链接)
作者:Mike Driscoll :翻译:季洋:校对:丁楠雅 本文约4000字,建议阅读10分钟. 本文介绍了在提取出想要的数据之后,如何将数据导出成其他格式的方法. 有很多时候你会想用Python从 ...
- python从html拿到数据,python - 使用BeautifulSoup和Python从HTML文件中提取数据 - 堆栈内存溢出...
我需要提取的数据可以在不同的标题下找到. 这是我到目前为止: from BeautifulSoup import BeautifulSoup ecj_data = open("data\ec ...
- python从pdf文件中提取文本,并自动翻译
针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...
- python从PDF文件中提取文本和文本坐标
1. 行/段 from pdfminer.pdfpage import PDFPage from pdfminer.pdfinterp import PDFResourceManager from p ...
- python自动翻译pdf_python实现从pdf文件中提取文本,并自动翻译的方法
针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...
- python用来自动修改pdf_python实现从pdf文件中提取文本,并自动翻译的方法
针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...
- python怎么读取pdf为文本_如何从pdf文件中提取特定文本python
我试图摘录这段文字:DLA LAND AND MARITIME ACTIVE DEVICES DIVISION PO BOX 3990 COLUMBUS OH 43218-3990 USA Name: ...
- python提取excel数据-代码详解:使用Python从不同表格中提取数据
常用的表格数据存储文件格式--CSV,Microsoft Excel,Google Excel . Python通常称为粘合语言.这个名称归因于人们逐渐开发出的大量接口库和特征,也得益于广泛的使用和良 ...
最新文章
- VSCode设置折叠左侧资源管理器所有文件夹的快捷键Alt+X、切换左侧活动栏显示隐藏快捷键Alt+Q
- 两个类相互包含引用的问题--类前向声明
- 5000并发的qps是多少_高并发初体验记录-02
- 面向对象-封装、继承、多态
- 缓存 Memached
- 扫地机器人湿地_口碑最好,用户认可度最高,浦桑尼克新款扫地机M7 MAX上手体验...
- 数据库ORA-00600 [15160]处理
- 一种数据结构 跳表skiplist
- CentOS7.0 安装 tomcat-9.0
- oracle sga pga mysql_oracle实例内存(SGA和PGA)调整-xin
- Traffic Manager Overview
- 在Android上通过AI危险检测向驾驶员发出警报
- Android 生成分享长图并且添加全图水印
- iOS 9 升级过程汇中白苹果 iPhone或iPad 解决方案
- 沙巴克服务器占用,传奇私服服务端里最完整的攻沙传送教程,直接飞皇宫和影之道方法...
- .net C#实现图像对比
- 锚点实现回到顶部的操作
- 【论文翻译】CN-DBpedia: A Never-Ending Chinese Knowledge Extraction System
- 华为擎云G540笔记本怎么U盘重装电脑系统详细教学
- 2.1、Segment Routing基础之SR关键概念
热门文章
- python中列表的常用操作
- 实验七 不同网段的dhcp
- https://www.cnblogs.com/jingmoxukong/p/7755643.html
- CentOS 7.4 Tengine安装配置详解(七)
- 重庆市教育云服务平台基本建成
- 《TensorFlow技术解析与实战》——第3章 可视化TensorFlow
- Windows Server 2008 R2 域控DOS命令
- A damn at han’s Windows phone book 笔记(3:ICE——In Case of Emergency)
- tomcat 5 comcat 6 区别
- JavaScript正则表达式 exec