pandas 分列(二)之不规则字符串及str.extract()

转载地址:https://www.jianshu.com/p/2e9b0a56405a

分列的一种方式:当所有行在需要的分列的地方都是相同的字母、符号、空格等等的时候,我们可以使用str.split()直接将所有行分成两列。

然而在实际工作中,有可能有并不是所有的行都有用于分列的键。今天再总结两种:

数据源

上面这组数据中的Latitude是我们需要分列的列。每个数据中都有前缀ab,这是我们不需要的。我们要做的是从第三位开始将订单号切下来,就像对字符串进行的切片操作一样。

用str函数进行切片

很简单吧,先使用.str将‘Latitude'这一列转换为类似字符串数据类型,然后再用[ ]切片器就行了。跟字符串一样,切片器可以切前面、后面、中间任一位置。

切片1

切片2

切好的数据可以通过简单赋值放到原数据里面:

切片后的数据加入源数据里

这样的方法只能对整齐的数值进行切片,图中的Latitude里的数字与字母的数量不一样,这样进行切片的话就会出错。

像这种数字和字母混合的字符串在处理的时候会比较麻烦,加入我们只需要数字或者字母要怎么处理呢?

这时候就要用到str.extract()函数和正则表达式了。

提取数据:

只匹配数字

提取字母:

只匹配字母

由于提取的字母占用了两行,因此要进行拼接:

只提取字母并进行拼接

注意书写格式:要提取的部分正则表达式要用引号引起来。抽取多个数字或者字母的话要在后面加上'+'。

将提取的数据加入到数据源

加入之后的数据并不是数值格式的(属于字符串格式的),因此不能跟正常的数值一样进行运算,需要计算的时候要进行格式的转换。

提取的数据不是数值类型

转换为浮点型


http://www.taodudu.cc/news/show-6739442.html

相关文章:

  • 如何高效清洗数据?试试这款神器
  • python pyquery不规则数据的抓取_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...
  • linux机器上线流程 简单说明解析
  • WordPress博客程序建站 安装教程
  • 业内公认的 OLAP 数据库黑马 ClickHouse 有哪些复合类型
  • MATLAB图像加密三算法案例
  • 调用RTMP_SendPacket经常会出现阻塞现象
  • MATLAB图片加密
  • MySql调优时:必须掌握的慢查询语句排查命令
  • 超全的关于UITabview 使用介绍
  • 一个很好的解释mp4的文章--mp4info 解析mp4的好工具
  • ubuntu 14 编译视频第三方库ijkplayer,能够在winows下使用
  • 【老生谈算法】matlab实现图片加密算法源码——图片加密算法
  • 原创:tar 解压安装zabbix-agentyum源安装zabbix-agent
  • WordPress反弹攻击那点事儿
  • WordPress固定链接怎么设置为伪静态设置教程
  • 记录:数据库(MySQL)之多表查询
  • model.train()和model.eval()的用法及model.eval()可能导致测试准确率的下降
  • python argsparse_如何创建Python命名空间(argparse.parse_args值)?
  • Microsoft365有用吗?2023最新版office有哪些新功能?
  • 正版商城 -Microsoft Office 365 家庭版拼团(1用户) 安全可靠,有保障。
  • 图形学进阶——深度与模板测试
  • CTR预估AUC=0.99问题记录
  • PyG OGB 使用过程记录
  • openprompt使用记录:分类,生成案例
  • ProxmoxVE 之 创建centos7基础镜像模板
  • Linux压缩与解压命令的使用
  • Docker在CentOS7上的安装及常用命令
  • Android开发 华为手机读取相册闪退问题
  • linux 下 任务管理器,Linux下的任务管理器

pandas 分列(二)之不规则字符串及str.extract()相关推荐

  1. pandas 字符串切片后保存_pandas的分列之不规则字符串及str.extract()

    在上一篇文章中,我们总结了分列的一种方式:当所有行在需要的分列的地方都是相同的字母.符号.空格等等的时候,我们可以使用str.split()直接将所有行分成两列. 然而在实际工作中,有可能有并不是所有 ...

  2. Python 数据分析三剑客之 Pandas(二):Index 索引对象以及各种索引操作

    CSDN 课程推荐:<迈向数据科学家:带你玩转Python数据分析>,讲师齐伟,苏州研途教育科技有限公司CTO,苏州大学应用统计专业硕士生指导委员会委员:已出版<跟老齐学Python ...

  3. pandas.Series.str.extract 正则提取数据

    pandas.Series.str.extract ¶ Series.str.extract(self,pat,flags = 0,expand = True )[来源] 提取的正则表达式捕获组拍作为 ...

  4. python pandas 分割DataFrame中的字符串及元组

    python pandas 分割DataFrame中的字符串类型数据的方法 文章目录 1.使用str.split()方法 2.使用join()与split()方法结合 3. 使用apply方法分割元组 ...

  5. 使用pandas清洗数据(中文字符串的正则使用)

    对于之前的从链家网爬取下来的福田区二手房的数据,只是为了提取信息.但是如果要进行数据分析必须对数据进行清理和转换.python的pandas库可以说是中等规模数据处理最好用的工具.下面我就来演示如何对 ...

  6. 用Numpy和Pandas分析二维数据笔记

    用Numpy和Pandas分析二维数据 上节课,我们利用numpy和pandas分析了一维数据.在这节课中,你将学到这两种库的更多特性.并用它们来分析 二维数据,这节课后,你将能够使用pandas重新 ...

  7. Python基本数据类型(二)——String(字符串)

    文章目录 String(字符串) 一. Unicode 字符串 二. 创建字符串 三. 字符串表示 四. 字符串操作 五. 转义字符 六. 字符串运算符 七. 字符串格式化 1. 字符串格式化符号 2 ...

  8. 文件压缩(二)——英文字符串的处理

    文件压缩(一)--Huffman树的构建 在前一篇文章中,我们已经构建了一棵Huffman树了,今天我们将利用这棵Huffman树来实现英文字符串的压缩和解压缩. 一.字符串在JAVA中的储存 Str ...

  9. python-for循环-数字类型-字符串类型str

    文章目录 一.for循环 二.数字类型 三.字符串类型str 一.for循环 while循环 vs for 循环 while循环:称之为条件循环,循环的次数取决于条件何时为False for循环:称之 ...

最新文章

  1. jupyter笔记本_如何为Jupyter笔记本电脑设置PySpark
  2. 交换机与路由器大战已结束,超大规模计算公司胜出
  3. 基于机器学习的web异常检测
  4. aop+注解 实现对实体类的字段校验_SpringBoot实现通用的接口参数校验
  5. 前端学习(2400):关于aixos的create方法
  6. Oracle数据库的启动与关闭
  7. oracle数据库插入多表,在Oracle数据库中插入嵌套表
  8. 一篇报告了解国内首个针对加密流量的检测引擎
  9. 知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架
  10. Docker--docker ps 命令与结果解析
  11. MATLAB 调用百度云文字识别的具体应用
  12. 链家程序员删库跑路失败!被判 7 年
  13. MAC笔记本下Android 反编译apk文件最新版本
  14. android手机相册多张上传,一键批量上传手机照片到QQ相册功能 节省手机流量
  15. MIP实操指南,你真的需要配置吗?
  16. 猴子排序算法_猴子排序-有史以来最慢的排序算法?
  17. 如何对APP进行重新签名(使用命令签名)
  18. 苹果部分机型被禁销售 股价下跌2% 苹果高通专利大战究竟为何?
  19. 盘点百度搜索算法大全(2022最新版)
  20. [设计模式] - 代理模式(静态代理与动态代理)

热门文章

  1. 知人知心-DISC的理解
  2. 虚拟化服务器虚拟出的gpu的驱动,微软虚拟机显卡及驱动的设置
  3. 真正搞懂hashCode和hash算法
  4. 输入一个字符串,内有数字和非数字字符,例如: A123x456 17960?302tab5876 将其中连续的数字作为一个整数,依次存放到一数组a中。例如,123放在a[0],456放在a[1]……统
  5. 言必信,行必果,硁硁然小人哉
  6. 微型计算机的选型,《微型计算机》编辑的选择——升技IS7-E
  7. 张迈机器人_第一季度“新时代好少年”事迹简介
  8. 科学解析wifi过敏症
  9. 选择器(标签、类、多类名、id、通配符、伪类)
  10. 计算机网络-Tcp复习提纲