经常被人忽视的:Pandas 文本数据处理!
毋庸置疑,Pandas是使用最广泛的 Python 库之一,它提供了许多功能和方法来执行有效的数据处理和数据分析。
我们平时的操作,大多围绕着数字的处理,这是因为大家习惯将表格数据与数字联系起来。然而我们无论是使用Excel还是Pandas,其实都离不开文本类型的数据。
今天,我们会通过一个例子,总结这些常用的Pandas处理文本数据的操作。
首先,先创建一个带有模拟数据的DataFrame。
import pandas as pd
df = pd.DataFrame({"姓": ["王","仲","宝", "王", "朱"],"名": ["玉环","觅晴","清俊", "鸿博", "小五"],"户籍地址": ["黑龙江省·哈尔滨市", "黑龙江省·哈尔滨市", "黑龙江省·佳木斯市", "广西·柳州市", "湖北省·武汉市"],"微信": ["Tomout", "Sm857", "Adamshffhhjfj", "Tull88", "ZPW505"],"邮箱": ["tom02@163.com", "smitt@163.com", "adams@163.com", "tull03@163.com", "five@163.com"]
})
df
一共五列文本数据:姓、名、户籍地址、微信id、邮箱地址。
讲个冷知识:微信id是不区分大小写的。
如果将微信id这列的文本数据,全部转换为小写,在Pandas中可以这样操作。
df["微信"] = df["微信"].str.lower()
df
我们可以通过组合姓氏和名字,来创建姓名这列。
df["姓名"] = df["姓"] + df["名"]
df
但是在默认情况下,新列会被添加在末尾。
想要更多的自定义选择,可以参考下面的代码。既可以在特定位置插入创建新列,也可以使用 cat 方法组合字符串(此处还可设置分隔符sep,这里并未设置)。
df.insert(2, "姓名", df["姓"].str.cat(df["名"], sep=""))
df
对字符串的一个常见操作是拆分,当文本数据包含多条信息时,它就派上用场啦。
例如,户籍地址这列包括省份和城市,我们可以通过拆分此列来提取城市的信息。
df["城市"] = df["户籍地址"].str.split("·", expand=True)[1]
df
对字符串的另一个常见操作是筛选过滤,那么在Pandas中如何操作呢?
如果想筛选“王”字开头的姓名,既可以直接筛选 姓 这一列,也可以使用startswith()
来过滤。
startswith()
和endswith()
这两个函数,是分别基于字符串的第一个或最后一个字母进行筛选。
df[df["姓名"].str.startswith("王")]
注意:
startswith()
和endswith()
这两个函数,还可以通过设置参数,既能检测多个字符,又能设置字符串检测的起始和结束位置。
如果想直接筛选包含特定字符的字符串,可以使用contains()
这个方法。
例如,筛选户籍地址列中包含“黑龙江”这个字符的所有行。
df[df["户籍地址"].str.contains("黑龙江")]
replace()
方法可用于替换字符串中的字符序列,通过该方法可以修改Pandas中的文本数据。
df["户籍地址"] = df["户籍地址"].str.replace("广西", "广西壮族自治区")
df
最后,我们还可以使用字符串的索引。
例如,我们可以用“str[:5]”
表达式选择前8个字符,用“str[-8:]”
选择后8个字符。
df["邮箱"].str[:5]
df["邮箱"].str[-8:]
本文已经罗列了在Pandas中比较常用文本数据处理操作,欢迎大家在评论区补充!
各位伙伴们好,詹帅本帅搭建了一个个人博客和小程序,汇集各种干货和资源,也方便大家阅读,感兴趣的小伙伴请移步小程序体验一下哦!(欢迎提建议)推荐阅读牛逼!Python常用数据类型的基本操作(长文系列第①篇)
牛逼!Python的判断、循环和各种表达式(长文系列第②篇)牛逼!Python函数和文件操作(长文系列第③篇)牛逼!Python错误、异常和模块(长文系列第④篇)
经常被人忽视的:Pandas 文本数据处理!相关推荐
- 【Python】相当全面的Pandas文本数据处理,干货多多
今天我们来谈论一下pandas库当中文本数据的操作,希望大家再看完本篇文章之后会有不少的收获,我们大致会讲 创建一个包含文本数据的DataFrame 常用处理文本数据的方法的总结 正则表达式与Data ...
- 20+Pandas文本数据处理,干货多多
今天我们来谈论一下pandas库当中文本数据的操作,希望大家再看完本篇文章之后会有不少的收获,我们大致会讲 创建一个包含文本数据的DataFrame 常用处理文本数据的方法的总结 正则表达式与Data ...
- 100天精通Python(数据分析篇)——第71天:Pandas文本数据处理方法之str/object类型转换、大小写转换、文本对齐、获取长度、出现次数、编码
文章目录 1. 文本数据类型介绍 1)类型介绍 2)类型转换 3)类型区别 区别1:统计字符串时 区别2:检查字符串时 2. Python字符串内置方法 1) 大小写转换 2) 文本对齐 3)获取长度 ...
- 100天精通Python(数据分析篇)——第72天:Pandas文本数据处理方法之判断类型、去除空白字符、拆分和连接
文章目录 每篇前言 一.Python字符串内置方法 1. 判断类型 2. 去除空白字符 3. 拆分和连接 二.Pandas判断类型 1. str.isspace() 2. str.isalnum() ...
- 文本数据处理的终极指南-[NLP入门]
上海站 | 高性能计算之GPU CUDA培训 4月13-15日 三天密集式学习 快速带你晋级 阅读全文 > 正文共10202个字,13张图,预计阅读时间26分钟. 简介 实现任何程度或者级别的 ...
- Python小案例(一)非结构化文本数据处理
Python小案例(一)非结构化文本数据处理 日常业务需求中,仅凭SQL一招鲜是没法吃遍天的,这个时候就需要更为强大的Python进行支持了.这个系列主要分享一些Python小案例,都是根据笔者日常工 ...
- python 取反_自从用了这招pandas 空数据处理方法,python编程速度提升了不少
今天为大家带来的内容是:自从用了这招pandas 空数据处理方法,python编程速度提升了不少 文章内容主要介绍了pandas 空数据处理方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工 ...
- Python之pandas:pandas中数据处理常用函数(与空值相关/去重和替代)简介、具体案例、使用方法之详细攻略
Python之pandas:pandas中数据处理常用函数(与空值相关/去重和替代)简介.具体案例.使用方法之详细攻略 目录 pandas中数据处理常用函数(isnull/dropna/fillna/ ...
- 推荐系统-应用Pandas进行数据处理
1. PANDAS PANDAS是一个包,它使我们能够访问高性能.易于使用的工具和数据结构,以便在Python中进行数据分析. Python是一种运行很慢的语言.PANDAS通过使用C编程语言实现大量 ...
最新文章
- php5.6 和apache2.2的相互配置
- sublime text 3 使用过程总结记录
- git 使用详解(5)—— get log 查看提交历史
- python数学计算_初学者Python学习笔记--数学计算
- 针对新手的Java EE7和Maven项目-第3部分-定义ejb服务和jpa实体模块
- 2018.9.15,Matlab实验三:字符串、单元数组和结构体
- ES6学习(八)—Promise对象 超鸡重要
- 联想拯救者Y7000P的一些功能键
- python的string与Unicode转换,gbk字符串编码
- 树莓派引脚介绍与GPIO的初步认识与应用
- 输入两个正整数m和n,求其最大公约数及最小公倍数
- 申请Apple ID
- pycharm typo
- 阿里生鲜布局重要抓手!它如何解决全球生鲜商家痛点?
- 汇编 INT 10H功能
- Apple Catching
- 写给那些进步缓慢却全然不知的IT人
- word文档太大怎么压缩到最小
- JetBrains各版本全家桶工具 编程开发全套永久软件!IDE也能免费用
- 【论文笔记_知识蒸馏_2022】Knowledge Distillation with the Reused Teacher Classifier
热门文章
- Asp.net在线统计人数
- 计算机windows多用户,windows Server 2012 专业版配置多用户远程桌面连接
- 通过nginx访问.html出现Access Denied提示怎么解决(亲测)
- Vi经典插件ctags(转)
- PHPStorm的命令行配置成为Git bash的
- PHP之composer遇见Your requirements could not be resolved to an installable set of packages
- stata 导出 相关系数表_Stata: 空间权重矩阵的构建
- php中get_featured_posts()是什么意思,php – 在WP_Query中获取WooCommerce特色产品
- js md5 过滤表情 数据签名
- snoopy(强大的PHP采集类) 详细介绍