python对excel筛选提取文本中数字_详解利用python提取pdf文本数字
之前也不乏介绍过关于excel的内容,日常工作应用,除了excel,pdf也是经常使用的一种,关于pdf的文本提取,下面也来详细介绍~
说明:从pdf文件中提取其他类型的数据,如文本或图像。将说明从pdf文件中提取数据表,然后将其转换为适合于进一步分析和构建模型的格式,以一个实例作为介绍。
使用Python从PDF文件中提取一个表格
1、将表复制到Excel并保存为table_1_raw.csv
数据以一维格式存储,必须进行重塑、清理和转换。
2、导入必要的库import pandas as pd
import numpy as np
3、导入原始数据,重新定义数据df=pd.read_csv("table_1_raw.csv", header=None)
df.values.shape
df2=pd.DataFrame(df.values.reshape(25,10))
column_names=df2[0:1].values[0]
df3=df2[1:]
df3.columns = df2[0:1].values[0]
df3.head()
4、使用字符串处理工具进行数据纠缠
我们从上面的表格中注意到,x5、x6和x7列是用百分比表示的,所以我们需要去掉percent(%)符号:df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))
df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))
df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))
5、将数据转换为数字形式
我们注意到列x5、x6和x7的列值数据类型为string,因此我们需要将它们转换为数值数据,如下所示:df4['x5']=[float(x) for x in df4['x5'].values]
df4['x6']=[float(x) for x in df4['x6'].values]
df4['x7']=[float(x) for x in df4['x7'].values]
6、查看转换数据的最终形式df4.head(n=5)
7、最后导出最终数据到一个csv文件df4.to_csv('table_1_final.csv',index=False)
从第一步开始内容就很不简单,大家边看边动手就很容易理解哦~如需了解更多python实用知识,点击进入PyThon学习网教学中心。
python对excel筛选提取文本中数字_详解利用python提取pdf文本数字相关推荐
- python提取pdf的数字_详解利用python提取pdf文本数字
之前也不乏介绍过关于excel的内容,日常工作应用,除了excel,pdf也是经常使用的一种,关于pdf的文本提取,下面也来详细介绍~ 说明:从pdf文件中提取其他类型的数据,如文本或图像.将说明从p ...
- python zxing 识别条码_详解利用python识别图片中的条码(pyzbar)及条码图片矫正和增强...
前言 这周和大家分享如何用python识别图像里的条码.用到的库可以是zbar.希望西瓜6辛苦码的代码不要被盗了.(zxing的话,我一直没有装好,等装好之后再写一篇) 具体步骤 前期准备 用open ...
- 用python3做学生管理系统_详解用python实现基本的学生管理系统(文件存储版)(python3)...
详解用python实现基本的学生管理系统(文件存储版)(python3) 来源:中文源码网 浏览: 次 日期:2019年11月5日 详解用python实现基本的学生管理系统(文件存储版)( ...
- python selenium爬虫_详解基于python +Selenium的爬虫
详解基于python +Selenium的爬虫 一.背景 1. Selenium Selenium 是一个用于web应用程序自动化测试的工具,直接运行在浏览器当中,支持chrome.firefox等主 ...
- python编写数据库连接工具_详解使用Python写一个向数据库填充数据的小工具(推荐)...
一. 背景 公司又要做一个新项目,是一个合作型项目,我们公司出web展示服务,合作伙伴线下提供展示数据. 而且本次项目是数据统计展示为主要功能,并没有研发对应的数据接入接口,所有展示数据源均来自数据库 ...
- python 窗口控件变大变小_详解:用Python+AutoIt实现界面工具开发过程
前言: 今天为大家带来的内容是,详解:Python+AutoIt实现界面工具开发过程!(部分代码用图片方式呈现出来,方便各位观看与收藏) AutoIt简述 AutoIt一个使用类似BASIC脚本语言的 ...
- 利用python处理dna序列_详解基于python的全局与局部序列比对的实现(DNA)
程序能实现什么 a.完成gap值的自定义输入以及两条需比对序列的输入 b.完成得分矩阵的计算及输出 c.输出序列比对结果 d.使用matplotlib对得分矩阵路径的绘制 一.实现步骤 1.用户输入步 ...
- python middleware模块_详解利用django中间件django.middleware.csrf.CsrfViewMiddleware防止csrf攻击...
一.在django后台处理 1.将django的setting中的加入django.contrib.messages.middleware.MessageMiddleware,一般新建的django项 ...
- python解释器在哪里_详解查看Python解释器路径的两种方式
进入python的安装目录, 查看python解释器 进入bin目录 # ls python(看一下是否有python解释器版本) # pwd (查看当前目录) 复制当前目录即可 1. 通过脚本查看 ...
最新文章
- 将一维数组的值逆序输出
- ubuntu下Tomcat7的安装和配置
- 修改xampp的mysql默认密码
- MySQL乱码问题解决步骤详解
- Matplotlib-barh-绘制水平条形图
- android 4.0.3固件,Vi30豪华版_Android4.0.3-1.0测试版固件刷机教程【MM刷机】
- Creative Cloud启动不了
- ABP框架使用 Swagger
- jquery源码抽丝剥茧--把jquery最小化
- 前端为什么要工程化?
- 144Hz和60Hz显示器差别很大吗?
- AcWing 859. Kruskal算法求最小生成树(稀疏图)
- android studio运行项目快捷键,Android Studio 快捷键大全
- 饥荒显示服务器建立时遇到问题,饥荒联机版建立服务器出现问题怎么回事 | 手游网游页游攻略大全...
- 北京邮电大学计算机网络教材,北京邮电大学《计算机网络》4.pdf
- Java下载excel模板
- 图文解析如何配置网络交换机配置
- xpath.extract() 的使用
- 企业中系统间的几种对接方式
- 解决m2e插件maven-dependency-plugin问题
热门文章
- 【教程】美团联盟个人怎么注册推广做外卖cps红包
- 硬盘安装linux系统步骤分区,Linux系统“分区”方法再谈安装!(一)
- Farkas'Lemma 和 S-Lemma
- 通过PS调出胶片色调的古风照片
- 周星驰搞笑电影中的BT角色大全(100位)
- sgsn与ggsn的区别与联系
- [Unity][FairyGUI]富文本改变颜色
- 财富管理技术服务商NewBanker完成千万级美元 Pre-C 轮融资
- contiki学习笔记(三)contiki系统
- 云渲染和渲染农场有什么区别?看完你就明白了