之前也不乏介绍过关于excel的内容,日常工作应用,除了excel,pdf也是经常使用的一种,关于pdf的文本提取,下面也来详细介绍~

说明:从pdf文件中提取其他类型的数据,如文本或图像。将说明从pdf文件中提取数据表,然后将其转换为适合于进一步分析和构建模型的格式,以一个实例作为介绍。

使用Python从PDF文件中提取一个表格

1、将表复制到Excel并保存为table_1_raw.csv

数据以一维格式存储,必须进行重塑、清理和转换。

2、导入必要的库import pandas as pd

import numpy as np

3、导入原始数据,重新定义数据df=pd.read_csv("table_1_raw.csv", header=None)

df.values.shape

df2=pd.DataFrame(df.values.reshape(25,10))

column_names=df2[0:1].values[0]

df3=df2[1:]

df3.columns = df2[0:1].values[0]

df3.head()

4、使用字符串处理工具进行数据纠缠

我们从上面的表格中注意到,x5、x6和x7列是用百分比表示的,所以我们需要去掉percent(%)符号:df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))

df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))

df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))

5、将数据转换为数字形式

我们注意到列x5、x6和x7的列值数据类型为string,因此我们需要将它们转换为数值数据,如下所示:df4['x5']=[float(x) for x in df4['x5'].values]

df4['x6']=[float(x) for x in df4['x6'].values]

df4['x7']=[float(x) for x in df4['x7'].values]

6、查看转换数据的最终形式df4.head(n=5)

7、最后导出最终数据到一个csv文件df4.to_csv('table_1_final.csv',index=False)

从第一步开始内容就很不简单,大家边看边动手就很容易理解哦~如需了解更多python实用知识,点击进入PyThon学习网教学中心。

python对excel筛选提取文本中数字_详解利用python提取pdf文本数字相关推荐

  1. python提取pdf的数字_详解利用python提取pdf文本数字

    之前也不乏介绍过关于excel的内容,日常工作应用,除了excel,pdf也是经常使用的一种,关于pdf的文本提取,下面也来详细介绍~ 说明:从pdf文件中提取其他类型的数据,如文本或图像.将说明从p ...

  2. python zxing 识别条码_详解利用python识别图片中的条码(pyzbar)及条码图片矫正和增强...

    前言 这周和大家分享如何用python识别图像里的条码.用到的库可以是zbar.希望西瓜6辛苦码的代码不要被盗了.(zxing的话,我一直没有装好,等装好之后再写一篇) 具体步骤 前期准备 用open ...

  3. 用python3做学生管理系统_详解用python实现基本的学生管理系统(文件存储版)(python3)...

    详解用python实现基本的学生管理系统(文件存储版)(python3) 来源:中文源码网    浏览: 次    日期:2019年11月5日 详解用python实现基本的学生管理系统(文件存储版)( ...

  4. python selenium爬虫_详解基于python +Selenium的爬虫

    详解基于python +Selenium的爬虫 一.背景 1. Selenium Selenium 是一个用于web应用程序自动化测试的工具,直接运行在浏览器当中,支持chrome.firefox等主 ...

  5. python编写数据库连接工具_详解使用Python写一个向数据库填充数据的小工具(推荐)...

    一. 背景 公司又要做一个新项目,是一个合作型项目,我们公司出web展示服务,合作伙伴线下提供展示数据. 而且本次项目是数据统计展示为主要功能,并没有研发对应的数据接入接口,所有展示数据源均来自数据库 ...

  6. python 窗口控件变大变小_详解:用Python+AutoIt实现界面工具开发过程

    前言: 今天为大家带来的内容是,详解:Python+AutoIt实现界面工具开发过程!(部分代码用图片方式呈现出来,方便各位观看与收藏) AutoIt简述 AutoIt一个使用类似BASIC脚本语言的 ...

  7. 利用python处理dna序列_详解基于python的全局与局部序列比对的实现(DNA)

    程序能实现什么 a.完成gap值的自定义输入以及两条需比对序列的输入 b.完成得分矩阵的计算及输出 c.输出序列比对结果 d.使用matplotlib对得分矩阵路径的绘制 一.实现步骤 1.用户输入步 ...

  8. python middleware模块_详解利用django中间件django.middleware.csrf.CsrfViewMiddleware防止csrf攻击...

    一.在django后台处理 1.将django的setting中的加入django.contrib.messages.middleware.MessageMiddleware,一般新建的django项 ...

  9. python解释器在哪里_详解查看Python解释器路径的两种方式

    进入python的安装目录, 查看python解释器 进入bin目录 # ls python(看一下是否有python解释器版本) # pwd (查看当前目录) 复制当前目录即可 1. 通过脚本查看 ...

最新文章

  1. 将一维数组的值逆序输出
  2. ubuntu下Tomcat7的安装和配置
  3. 修改xampp的mysql默认密码
  4. MySQL乱码问题解决步骤详解
  5. Matplotlib-barh-绘制水平条形图
  6. android 4.0.3固件,Vi30豪华版_Android4.0.3-1.0测试版固件刷机教程【MM刷机】
  7. Creative Cloud启动不了
  8. ABP框架使用 Swagger
  9. jquery源码抽丝剥茧--把jquery最小化
  10. 前端为什么要工程化?
  11. 144Hz和60Hz显示器差别很大吗?
  12. AcWing 859. Kruskal算法求最小生成树(稀疏图)
  13. android studio运行项目快捷键,Android Studio 快捷键大全
  14. 饥荒显示服务器建立时遇到问题,饥荒联机版建立服务器出现问题怎么回事 | 手游网游页游攻略大全...
  15. 北京邮电大学计算机网络教材,北京邮电大学《计算机网络》4.pdf
  16. Java下载excel模板
  17. 图文解析如何配置网络交换机配置
  18. xpath.extract() 的使用
  19. 企业中系统间的几种对接方式
  20. 解决m2e插件maven-dependency-plugin问题

热门文章

  1. 【教程】美团联盟个人怎么注册推广做外卖cps红包
  2. 硬盘安装linux系统步骤分区,Linux系统“分区”方法再谈安装!(一)
  3. Farkas'Lemma 和 S-Lemma
  4. 通过PS调出胶片色调的古风照片
  5. 周星驰搞笑电影中的BT角色大全(100位)
  6. sgsn与ggsn的区别与联系
  7. [Unity][FairyGUI]富文本改变颜色
  8. 财富管理技术服务商NewBanker完成千万级美元 Pre-C 轮融资
  9. contiki学习笔记(三)contiki系统
  10. 云渲染和渲染农场有什么区别?看完你就明白了