pandas 分列(二)之不规则字符串及str.extract()
pandas 分列(二)之不规则字符串及str.extract()
转载地址:https://www.jianshu.com/p/2e9b0a56405a
分列的一种方式:当所有行在需要的分列的地方都是相同的字母、符号、空格等等的时候,我们可以使用str.split()直接将所有行分成两列。
然而在实际工作中,有可能有并不是所有的行都有用于分列的键。今天再总结两种:
上面这组数据中的Latitude是我们需要分列的列。每个数据中都有前缀ab,这是我们不需要的。我们要做的是从第三位开始将订单号切下来,就像对字符串进行的切片操作一样。
很简单吧,先使用.str将‘Latitude'这一列转换为类似字符串数据类型,然后再用[ ]切片器就行了。跟字符串一样,切片器可以切前面、后面、中间任一位置。
切好的数据可以通过简单赋值放到原数据里面:
这样的方法只能对整齐的数值进行切片,图中的Latitude里的数字与字母的数量不一样,这样进行切片的话就会出错。
像这种数字和字母混合的字符串在处理的时候会比较麻烦,加入我们只需要数字或者字母要怎么处理呢?
这时候就要用到str.extract()函数和正则表达式了。
提取数据:
提取字母:
由于提取的字母占用了两行,因此要进行拼接:
注意书写格式:要提取的部分正则表达式要用引号引起来。抽取多个数字或者字母的话要在后面加上'+'。
加入之后的数据并不是数值格式的(属于字符串格式的),因此不能跟正常的数值一样进行运算,需要计算的时候要进行格式的转换。
http://www.taodudu.cc/news/show-6739442.html
相关文章:
- 如何高效清洗数据?试试这款神器
- python pyquery不规则数据的抓取_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...
- linux机器上线流程 简单说明解析
- WordPress博客程序建站 安装教程
- 业内公认的 OLAP 数据库黑马 ClickHouse 有哪些复合类型
- MATLAB图像加密三算法案例
- 调用RTMP_SendPacket经常会出现阻塞现象
- MATLAB图片加密
- MySql调优时:必须掌握的慢查询语句排查命令
- 超全的关于UITabview 使用介绍
- 一个很好的解释mp4的文章--mp4info 解析mp4的好工具
- ubuntu 14 编译视频第三方库ijkplayer,能够在winows下使用
- 【老生谈算法】matlab实现图片加密算法源码——图片加密算法
- 原创:tar 解压安装zabbix-agentyum源安装zabbix-agent
- WordPress反弹攻击那点事儿
- WordPress固定链接怎么设置为伪静态设置教程
- 记录:数据库(MySQL)之多表查询
- model.train()和model.eval()的用法及model.eval()可能导致测试准确率的下降
- python argsparse_如何创建Python命名空间(argparse.parse_args值)?
- Microsoft365有用吗?2023最新版office有哪些新功能?
- 正版商城 -Microsoft Office 365 家庭版拼团(1用户) 安全可靠,有保障。
- 图形学进阶——深度与模板测试
- CTR预估AUC=0.99问题记录
- PyG OGB 使用过程记录
- openprompt使用记录:分类,生成案例
- ProxmoxVE 之 创建centos7基础镜像模板
- Linux压缩与解压命令的使用
- Docker在CentOS7上的安装及常用命令
- Android开发 华为手机读取相册闪退问题
- linux 下 任务管理器,Linux下的任务管理器
pandas 分列(二)之不规则字符串及str.extract()相关推荐
- pandas 字符串切片后保存_pandas的分列之不规则字符串及str.extract()
在上一篇文章中,我们总结了分列的一种方式:当所有行在需要的分列的地方都是相同的字母.符号.空格等等的时候,我们可以使用str.split()直接将所有行分成两列. 然而在实际工作中,有可能有并不是所有 ...
- Python 数据分析三剑客之 Pandas(二):Index 索引对象以及各种索引操作
CSDN 课程推荐:<迈向数据科学家:带你玩转Python数据分析>,讲师齐伟,苏州研途教育科技有限公司CTO,苏州大学应用统计专业硕士生指导委员会委员:已出版<跟老齐学Python ...
- pandas.Series.str.extract 正则提取数据
pandas.Series.str.extract ¶ Series.str.extract(self,pat,flags = 0,expand = True )[来源] 提取的正则表达式捕获组拍作为 ...
- python pandas 分割DataFrame中的字符串及元组
python pandas 分割DataFrame中的字符串类型数据的方法 文章目录 1.使用str.split()方法 2.使用join()与split()方法结合 3. 使用apply方法分割元组 ...
- 使用pandas清洗数据(中文字符串的正则使用)
对于之前的从链家网爬取下来的福田区二手房的数据,只是为了提取信息.但是如果要进行数据分析必须对数据进行清理和转换.python的pandas库可以说是中等规模数据处理最好用的工具.下面我就来演示如何对 ...
- 用Numpy和Pandas分析二维数据笔记
用Numpy和Pandas分析二维数据 上节课,我们利用numpy和pandas分析了一维数据.在这节课中,你将学到这两种库的更多特性.并用它们来分析 二维数据,这节课后,你将能够使用pandas重新 ...
- Python基本数据类型(二)——String(字符串)
文章目录 String(字符串) 一. Unicode 字符串 二. 创建字符串 三. 字符串表示 四. 字符串操作 五. 转义字符 六. 字符串运算符 七. 字符串格式化 1. 字符串格式化符号 2 ...
- 文件压缩(二)——英文字符串的处理
文件压缩(一)--Huffman树的构建 在前一篇文章中,我们已经构建了一棵Huffman树了,今天我们将利用这棵Huffman树来实现英文字符串的压缩和解压缩. 一.字符串在JAVA中的储存 Str ...
- python-for循环-数字类型-字符串类型str
文章目录 一.for循环 二.数字类型 三.字符串类型str 一.for循环 while循环 vs for 循环 while循环:称之为条件循环,循环的次数取决于条件何时为False for循环:称之 ...
最新文章
- jupyter笔记本_如何为Jupyter笔记本电脑设置PySpark
- 交换机与路由器大战已结束,超大规模计算公司胜出
- 基于机器学习的web异常检测
- aop+注解 实现对实体类的字段校验_SpringBoot实现通用的接口参数校验
- 前端学习(2400):关于aixos的create方法
- Oracle数据库的启动与关闭
- oracle数据库插入多表,在Oracle数据库中插入嵌套表
- 一篇报告了解国内首个针对加密流量的检测引擎
- 知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架
- Docker--docker ps 命令与结果解析
- MATLAB 调用百度云文字识别的具体应用
- 链家程序员删库跑路失败!被判 7 年
- MAC笔记本下Android 反编译apk文件最新版本
- android手机相册多张上传,一键批量上传手机照片到QQ相册功能 节省手机流量
- MIP实操指南,你真的需要配置吗?
- 猴子排序算法_猴子排序-有史以来最慢的排序算法?
- 如何对APP进行重新签名(使用命令签名)
- 苹果部分机型被禁销售 股价下跌2% 苹果高通专利大战究竟为何?
- 盘点百度搜索算法大全(2022最新版)
- [设计模式] - 代理模式(静态代理与动态代理)
热门文章
- 知人知心-DISC的理解
- 虚拟化服务器虚拟出的gpu的驱动,微软虚拟机显卡及驱动的设置
- 真正搞懂hashCode和hash算法
- 输入一个字符串,内有数字和非数字字符,例如: A123x456 17960?302tab5876 将其中连续的数字作为一个整数,依次存放到一数组a中。例如,123放在a[0],456放在a[1]……统
- 言必信,行必果,硁硁然小人哉
- 微型计算机的选型,《微型计算机》编辑的选择——升技IS7-E
- 张迈机器人_第一季度“新时代好少年”事迹简介
- 科学解析wifi过敏症
- 选择器(标签、类、多类名、id、通配符、伪类)
- 计算机网络-Tcp复习提纲