文本字符串中提取数据进行分析
需求
在进行数据分析的时候,有时候会碰到需要从文本字符串中提取需要的数据来进行分析的情况,这种需求在网络爬虫数据分析非常常见。
比如,需要下列表格“基础薪资规则”字段中提取阶梯单量和价格。而且表格中,大部分规则是4档单量和价格,也有部分是3档规则和价格。
格式为:
第1档单量 | 第2档单量 | 第3档单量 | 第4档单量 | 第1档价格 | 第2档价格 | 第3档价格 | 第4档价格 |
200 | 250 | 300 | 9999 | 3.8 | 4.8 | 5.0 | 5.2 |
200 | 250 | 300 | 9999 | 3.8 | 4.8 | 5.0 | 5.2 |
方法
使用Python中档re模块, 能够从一串有规律文本字符串中提取所需要档数据,配合正则表达式,功能非常强大。
# 提取特征数字,由于存在多个数字,findall()会返回一个列表
# 数据的pattern特征,注意到[0,200)单中需要提取数字200,前面是一个逗号,后面是一个括号+单,提取的内容放在()里,200后的括号,要识别“)”需要用到转义符号\
def find_orderNum(x):patt = ',(.*?)\)单' pattern = re.compile(patt)return pattern.findall(x)
df['档位单量'] = df['基础薪资规则'].apply(find_orderNum)# 现有档位数
def find_step_num(x):return len(x)
df['现档位数'] = df['档位价格'].apply(find_step_num)# 拆分阶梯单量
def find_orderNum1(x):return eval(x[0])
def find_orderNum2(x):return eval(x[1])
def find_orderNum3(x):return eval(x[2])
def find_orderNum4(x):if len(x)>3:return eval(x[3])else:return eval(x[2])df['现一档单量'] = df['档位单量'].apply(find_orderNum1)
df['现二档单量'] = df['档位单量'].apply(find_orderNum2)
df['现三档单量'] = df['档位单量'].apply(find_orderNum3)
df['现四档单量'] = df['档位单量'].apply(find_orderNum4)
结果如下:
文本字符串中提取数据进行分析相关推荐
- python文本分析 提取数据含义_从文本字符串中提取数据进行分析
需求 在进行数据分析的时候,有时候会碰到需要从文本字符串中提取需要的数据来进行分析的情况,这种需求在网络爬虫数据分析非常常见. 比如,需要下列表格"基础薪资规则"字段中提取阶梯单量 ...
- c语言如何将字符串中的数字提取出来,从含有数字的文本字符串中提取出数字...
图1 可以使用数组公式: =1*MID(A1,MATCH(TRUE,ISNUMBER(1*MID(A1,ROW($1:$20),1)),0),COUNT(1*MID(A1,ROW($1:$20),1) ...
- PHP开发小技巧①⑥—提取富文本字符串中的文本内容
综述 富文本在我们平常的项目中应用已经很广泛了,并逐渐发展成了一个行业.最近在项目中遇到需要提取富文本字符串中的文本内容,本篇博文就是记述如何重富文本字符串中提取出文本内容,欢迎大家相互学习. 富文本 ...
- python从字符串中提取数字并转换为相应数据类型_python从PDF中提取数据的示例
01 前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都 ...
- android字符串获取数字索引,从字符串中提取特定数据(Extract specific data from a string)...
从字符串中提取特定数据(Extract specific data from a string) 我有一个带有描述的长字符串. 我想从字符串中提取一些信息. 但我无法弄明白该怎么做. 这是字符串: C ...
- python处理pdf提取指定数据_python从PDF中提取数据的示例
01 前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都 ...
- 从字母数字字符串中提取数字
http://office.microsoft.com/zh-cn/excel-help/HA001154901.aspx 本文的作者是 Ashish Mathur,是一位 Microsoft MVP ...
- gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- 使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
最新文章
- JavaScript-2(数组与字符串的方法)
- Django创建项目后,项目文件夹下的组成部分
- 依赖注入之针对不同类型变量的几种注入方式
- ServiceComb的开放性设计
- deletefile失败 代码5怎么办_Go语言高级窍门与技巧,看完你也能写出高质量代码...
- 二哥杂货铺matlab安装步骤,Matlab2017a软件安装教程
- Ubuntu下编译vtk(java版本)【超详细-带过程截图】
- title属性,显示出提示文字;alt属性,在浏览器无法显示图片的时候,用alt中的文字替代。不要把title和alt的作用混乱了~
- 民国歌曲 - 毛毛雨
- python获取四六级成绩单
- G2、D3 绘制维恩图
- 中国脑与语言认知领域研究学者
- 2020 语音识别领域最具商业合作价值企业盘点
- Redis工具类封装RedisUtils
- wkhtmltopdf使用指南,html转图片,转pdf
- 怎么知道客户痛点在哪里?
- matlab兼职可以做什么的,我开始做兼职了
- 前端跨域问题汇总及解决方案
- 硅谷钢铁侠:埃隆 · 马斯克告诉你这个残酷的世界规则
- zynq DMA 函数XAxiDma_SimpleTransfer的用法