前言

数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据。然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了解如何从pdf文件中提取数据,并将数据转换为诸如“csv”之类的格式,以便用于分析或构建模型。

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:1097524789

在本文中,我们将重点讨论如何从pdf文件中提取数据表。类似的分析可以用于从pdf文件中提取其他类型的数据,如文本或图像。我们将说明如何从pdf文件中提取数据表,然后将其转换为适合于进一步分析和构建模型的格式。我们将给出一个实例。

示例:使用Python从PDF文件中提取一个表格

a) 将表复制到Excel并保存为table_1_raw.csv

数据以一维格式存储,必须进行重塑、清理和转换。

b) 导入必要的库

  1. import pandas as pd
  2. import numpy as np

c) 导入原始数据,重新定义数据

  1. df=pd.read_csv("table_1_raw.csv", header=None)
  2. df.values.shape
  3. df2=pd.DataFrame(df.values.reshape(25,10))
  4. column_names=df2[0:1].values[0]
  5. df3=df2[1:]
  6. df3.columns = df2[0:1].values[0]
  7. df3.head()

d) 使用字符串处理工具进行数据纠缠

我们从上面的表格中注意到,x5、x6和x7列是用百分比表示的,所以我们需要去掉percent(%)符号:

  1. df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))
  2. df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))
  3. df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))

e) 将数据转换为数字形式

我们注意到列x5、x6和x7的列值数据类型为string,因此我们需要将它们转换为数值数据,如下所示:

  1. df4['x5']=[float(x) for x in df4['x5'].values]
  2. df4['x6']=[float(x) for x in df4['x6'].values]
  3. df4['x7']=[float(x) for x in df4['x7'].values]

f) 查看转换数据的最终形式

  1. df4.head(n=5)

g) 导出最终数据到一个csv文件

  1. df4.to_csv('table_1_final.csv',index=False)

使用Python从PDF文件中提取数据相关推荐

  1. gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据

    前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

  2. 手把手教你如何用Python从PDF文件中导出数据(附链接)

    作者:Mike Driscoll :翻译:季洋:校对:丁楠雅 本文约4000字,建议阅读10分钟. 本文介绍了在提取出想要的数据之后,如何将数据导出成其他格式的方法. 有很多时候你会想用Python从 ...

  3. python从html拿到数据,python - 使用BeautifulSoup和Python从HTML文件中提取数据 - 堆栈内存溢出...

    我需要提取的数据可以在不同的标题下找到. 这是我到目前为止: from BeautifulSoup import BeautifulSoup ecj_data = open("data\ec ...

  4. python从pdf文件中提取文本,并自动翻译

    针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...

  5. python从PDF文件中提取文本和文本坐标

    1. 行/段 from pdfminer.pdfpage import PDFPage from pdfminer.pdfinterp import PDFResourceManager from p ...

  6. python自动翻译pdf_python实现从pdf文件中提取文本,并自动翻译的方法

    针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...

  7. python用来自动修改pdf_python实现从pdf文件中提取文本,并自动翻译的方法

    针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...

  8. python怎么读取pdf为文本_如何从pdf文件中提取特定文本python

    我试图摘录这段文字:DLA LAND AND MARITIME ACTIVE DEVICES DIVISION PO BOX 3990 COLUMBUS OH 43218-3990 USA Name: ...

  9. python提取excel数据-代码详解:使用Python从不同表格中提取数据

    常用的表格数据存储文件格式--CSV,Microsoft Excel,Google Excel . Python通常称为粘合语言.这个名称归因于人们逐渐开发出的大量接口库和特征,也得益于广泛的使用和良 ...

最新文章

  1. VSCode设置折叠左侧资源管理器所有文件夹的快捷键Alt+X、切换左侧活动栏显示隐藏快捷键Alt+Q
  2. 两个类相互包含引用的问题--类前向声明
  3. 5000并发的qps是多少_高并发初体验记录-02
  4. 面向对象-封装、继承、多态
  5. 缓存 Memached
  6. 扫地机器人湿地_口碑最好,用户认可度最高,浦桑尼克新款扫地机M7 MAX上手体验...
  7. 数据库ORA-00600 [15160]处理
  8. 一种数据结构 跳表skiplist
  9. CentOS7.0 安装 tomcat-9.0
  10. oracle sga pga mysql_oracle实例内存(SGA和PGA)调整-xin
  11. Traffic Manager Overview
  12. 在Android上通过AI危险检测向驾驶员发出警报
  13. Android 生成分享长图并且添加全图水印
  14. iOS 9 升级过程汇中白苹果 iPhone或iPad 解决方案
  15. 沙巴克服务器占用,传奇私服服务端里最完整的攻沙传送教程,直接飞皇宫和影之道方法...
  16. .net C#实现图像对比
  17. 锚点实现回到顶部的操作
  18. 【论文翻译】CN-DBpedia: A Never-Ending Chinese Knowledge Extraction System
  19. 华为擎云G540笔记本怎么U盘重装电脑系统详细教学
  20. 2.1、Segment Routing基础之SR关键概念

热门文章

  1. python中列表的常用操作
  2. 实验七 不同网段的dhcp
  3. https://www.cnblogs.com/jingmoxukong/p/7755643.html
  4. CentOS 7.4 Tengine安装配置详解(七)
  5. 重庆市教育云服务平台基本建成
  6. 《TensorFlow技术解析与实战》——第3章 可视化TensorFlow
  7. Windows Server 2008 R2 域控DOS命令
  8. A damn at han’s Windows phone book 笔记(3:ICE——In Case of Emergency)
  9. tomcat 5 comcat 6 区别
  10. JavaScript正则表达式 exec