01

前言

数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据。然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了解如何从pdf文件中提取数据,并将数据转换为诸如“csv”之类的格式,以便用于分析或构建模型。

在本文中,我们将重点讨论如何从pdf文件中提取数据表。类似的分析可以用于从pdf文件中提取其他类型的数据,如文本或图像。我们将说明如何从pdf文件中提取数据表,然后将其转换为适合于进一步分析和构建模型的格式。我们将给出一个实例。

02

示例:使用Python从PDF文件中提取一个表格

a)将表复制到Excel并保存为table_1_raw.csv

数据以一维格式存储,必须进行重塑、清理和转换。

b)导入必要的库

import pandas as pd

import numpy as np

c)导入原始数据,重新定义数据

df=pd.read_csv("table_1_raw.csv", header=None)

df.values.shape

df2=pd.DataFrame(df.values.reshape(25,10))

column_names=df2[0:1].values[0]

df3=df2[1:]

df3.columns = df2[0:1].values[0]

df3.head()

d)使用字符串处理工具进行数据纠缠

我们从上面的表格中注意到,x5、x6和x7列是用百分比表示的,所以我们需要去掉percent(%)符号:

df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))

df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))

df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))

e)将数据转换为数字形式

我们注意到列x5、x6和x7的列值数据类型为string,因此我们需要将它们转换为数值数据,如下所示:

df4['x5']=[float(x) for x in df4['x5'].values]

df4['x6']=[float(x) for x in df4['x6'].values]

df4['x7']=[float(x) for x in df4['x7'].values]

f)查看转换数据的最终形式

df4.head(n=5)

g)导出最终数据到一个csv文件

df4.to_csv('table_1_final.csv',index=False)

以上就是python从PDF中提取数据的示例的详细内容,更多关于python 提取PDF数据的资料请关注我们其它相关文章!

本文标题: python从PDF中提取数据的示例

本文地址: http://www.cppcns.com/jiaoben/python/359926.html

python处理pdf提取指定数据_python从PDF中提取数据的示例相关推荐

  1. python向excel写数据_Python向excel中写入数据的方法

    最近做了一项工作需要把处理的数据写入到Excel表格中进行保存,所以在此就简单介绍使用Python如何把数据保存到excel表格中. 数据导入之前需要安装 xlwt依赖包,安装的方法就很简单,直接 p ...

  2. python提取txt中的字符串数据_python 从字符串中提取数值

    python中用re.findall函数,里面写正则表达式 root@vdirectva:/home/lic_auto_scale# cat re.py import re test=['10Mbps ...

  3. wireshark提取视频数据之RTP包中提取H264和H265

    wireshark提取视频数据之RTP包中提取H264和H265 文章目录 wireshark提取视频数据之RTP包中提取H264和H265 1 背景 2 提取前工作 3 H264视频从RTP包中提取 ...

  4. sql数据透视_SQL Server中的数据科学:取消数据透视

    sql数据透视 In this article, in the series, we'll discuss understanding and preparing data by using SQL ...

  5. 提取html string,c#从html中提取文本

    虽然之前也写过gensim库的word2vec的教程,但是对于文本分析的特征提取并不太理解.最近看了几篇scikit的外文教程,对机器学习中文本的特征提取有了一些了解. 一:背景相信有很多朋友在遇到应 ...

  6. 表间数据复制--SELECT表中的数据插入到新的表中(ORACLE,MSSQL)

    表间数据复制--SELECT表中的数据插入到新的表中 --在Oracle 9i中 CREATE TABLE scott.test AS (SELECT DISTINCT empno,ename,hir ...

  7. 如何将cell元胞中的数据转化为矩阵中的数据

    将cell中的数据转化成为矩阵中的数据只需用cell2mat函数即可 运行后得到的结果如下:

  8. python pdf提取数据_python从PDF中提取数据的示例

    01 前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都 ...

  9. python提取pdf表格数据_Python骚操作,提取pdf文件中的表格数据!

    在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报.发行上市公告等.面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取.那么如何才能高效提取出pdf文 ...

最新文章

  1. 为什么python画不了图-解决python中使用plot画图,图不显示的问题
  2. 内核驱动中常见的miscdevice、platform_device、platform_driver
  3. generate报错 make_如何安装opencv_contrib及解决其安装编译问题
  4. 实施工程师——实施中最核心的问题
  5. ASP.NET Core中使用GraphQL - 第七章 Mutation
  6. java swing 串口_ComTest 接收串口数据,并显示在文本框内,通过JavaSwing实现 Develop 265万源代码下载- www.pudn.com...
  7. cdn加载vue很慢_Vue.js 项目打包优化实践
  8. 李航统计方法——感知机
  9. php 压缩及解压文件,php zip文件的解压与压缩
  10. Office 2016中修改正文默认字体
  11. maven下载及安装教程(保姆及教程)
  12. 【定制开发】【M3】基于Python+pygame实现的人机AI对战五子棋游戏(保姆级入门讲解)
  13. SAPAS91导入期初固定资产数据往年购置与当年购置的区别
  14. psd文件图层不多却很大很卡
  15. 【LaTeX】LaTeX常见括号总结
  16. 这次的新计算,很全能!
  17. 1220 -- 青蛙过河
  18. qt base64加解密
  19. 广告动画 android,age动漫官方网软件app-AGE动漫无广告纯净版下载v1.4安卓版-西西软件下载...
  20. 计算机提升反思的相关文档,反思教学论文,关于教学反思在提升高校计算机专业青年教师教学水平中的应用相关参考文献资料-免费论文范文...

热门文章

  1. Java千百问_03基本的语法(005)_二进制是如何做位运算的
  2. Linux Shell编程(5)——shell特殊字符(下)
  3. preg_match_all心得
  4. C专家编程--读书笔记十 再论指针
  5. 男人必看,男性排毒同样重要 - 生活至上,美容至尚!
  6. kali linux 编码,Kali Linux 2019.4解决中文乱码问题
  7. java课程设计进程管理_GitHub - Shadow-Java/OS: 操作系统课程设计,关键词:进程同步与互斥、进程死锁、LRU页面替换算法、时间片轮转算法、时钟等...
  8. php图片缩略图的方法,php生成图片缩略图的方法
  9. java内部类写法_Java学习-内部类
  10. Eclipse2020安装了最新版本的JDK却无法打开,提示版本太老的完美解决方法