毋庸置疑,Pandas是使用最广泛的 Python 库之一,它提供了许多功能和方法来执行有效的数据处理和数据分析。

我们平时的操作,大多围绕着数字的处理,这是因为大家习惯将表格数据与数字联系起来。然而我们无论是使用Excel还是Pandas,其实都离不开文本类型的数据。

今天,我们会通过一个例子,总结这些常用的Pandas处理文本数据的操作。

首先,先创建一个带有模拟数据的DataFrame。

import pandas as pd
df = pd.DataFrame({"姓": ["王","仲","宝", "王", "朱"],"名": ["玉环","觅晴","清俊", "鸿博", "小五"],"户籍地址": ["黑龙江省·哈尔滨市", "黑龙江省·哈尔滨市", "黑龙江省·佳木斯市", "广西·柳州市", "湖北省·武汉市"],"微信": ["Tomout", "Sm857", "Adamshffhhjfj", "Tull88", "ZPW505"],"邮箱": ["tom02@163.com", "smitt@163.com", "adams@163.com", "tull03@163.com", "five@163.com"]
})
df

一共五列文本数据:姓、名、户籍地址、微信id、邮箱地址。

讲个冷知识:微信id是不区分大小写的。

如果将微信id这列的文本数据,全部转换为小写,在Pandas中可以这样操作。

df["微信"] = df["微信"].str.lower()
df

我们可以通过组合姓氏和名字,来创建姓名这列。

df["姓名"] = df["姓"] + df["名"]
df

但是在默认情况下,新列会被添加在末尾。

想要更多的自定义选择,可以参考下面的代码。既可以在特定位置插入创建新列,也可以使用 cat 方法组合字符串(此处还可设置分隔符sep,这里并未设置)。

df.insert(2, "姓名", df["姓"].str.cat(df["名"], sep=""))
df

对字符串的一个常见操作是拆分,当文本数据包含多条信息时,它就派上用场啦。

例如,户籍地址这列包括省份和城市,我们可以通过拆分此列来提取城市的信息。

df["城市"] = df["户籍地址"].str.split("·", expand=True)[1]
df

对字符串的另一个常见操作是筛选过滤,那么在Pandas中如何操作呢?

如果想筛选“王”字开头的姓名,既可以直接筛选 姓 这一列,也可以使用startswith()来过滤。

startswith()endswith() 这两个函数,是分别基于字符串的第一个或最后一个字母进行筛选。

df[df["姓名"].str.startswith("王")]

注意:startswith()endswith() 这两个函数,还可以通过设置参数,既能检测多个字符,又能设置字符串检测的起始和结束位置。

如果想直接筛选包含特定字符的字符串,可以使用contains()这个方法。

例如,筛选户籍地址列中包含“黑龙江”这个字符的所有行。

df[df["户籍地址"].str.contains("黑龙江")]

replace()方法可用于替换字符串中的字符序列,通过该方法可以修改Pandas中的文本数据。

df["户籍地址"] = df["户籍地址"].str.replace("广西", "广西壮族自治区")
df

最后,我们还可以使用字符串的索引。

例如,我们可以用“str[:5]”表达式选择前8个字符,用“str[-8:]”选择后8个字符。

df["邮箱"].str[:5]
df["邮箱"].str[-8:]

本文已经罗列了在Pandas中比较常用文本数据处理操作,欢迎大家在评论区补充!

各位伙伴们好,詹帅本帅搭建了一个个人博客和小程序,汇集各种干货和资源,也方便大家阅读,感兴趣的小伙伴请移步小程序体验一下哦!(欢迎提建议)推荐阅读牛逼!Python常用数据类型的基本操作(长文系列第①篇)
牛逼!Python的判断、循环和各种表达式(长文系列第②篇)牛逼!Python函数和文件操作(长文系列第③篇)牛逼!Python错误、异常和模块(长文系列第④篇)

经常被人忽视的:Pandas 文本数据处理!相关推荐

  1. 【Python】相当全面的Pandas文本数据处理,干货多多

    今天我们来谈论一下pandas库当中文本数据的操作,希望大家再看完本篇文章之后会有不少的收获,我们大致会讲 创建一个包含文本数据的DataFrame 常用处理文本数据的方法的总结 正则表达式与Data ...

  2. 20+Pandas文本数据处理,干货多多

    今天我们来谈论一下pandas库当中文本数据的操作,希望大家再看完本篇文章之后会有不少的收获,我们大致会讲 创建一个包含文本数据的DataFrame 常用处理文本数据的方法的总结 正则表达式与Data ...

  3. 100天精通Python(数据分析篇)——第71天:Pandas文本数据处理方法之str/object类型转换、大小写转换、文本对齐、获取长度、出现次数、编码

    文章目录 1. 文本数据类型介绍 1)类型介绍 2)类型转换 3)类型区别 区别1:统计字符串时 区别2:检查字符串时 2. Python字符串内置方法 1) 大小写转换 2) 文本对齐 3)获取长度 ...

  4. 100天精通Python(数据分析篇)——第72天:Pandas文本数据处理方法之判断类型、去除空白字符、拆分和连接

    文章目录 每篇前言 一.Python字符串内置方法 1. 判断类型 2. 去除空白字符 3. 拆分和连接 二.Pandas判断类型 1. str.isspace() 2. str.isalnum() ...

  5. 文本数据处理的终极指南-[NLP入门]

    上海站 | 高性能计算之GPU CUDA培训 4月13-15日 三天密集式学习  快速带你晋级 阅读全文 > 正文共10202个字,13张图,预计阅读时间26分钟. 简介 实现任何程度或者级别的 ...

  6. Python小案例(一)非结构化文本数据处理

    Python小案例(一)非结构化文本数据处理 日常业务需求中,仅凭SQL一招鲜是没法吃遍天的,这个时候就需要更为强大的Python进行支持了.这个系列主要分享一些Python小案例,都是根据笔者日常工 ...

  7. python 取反_自从用了这招pandas 空数据处理方法,python编程速度提升了不少

    今天为大家带来的内容是:自从用了这招pandas 空数据处理方法,python编程速度提升了不少 文章内容主要介绍了pandas 空数据处理方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工 ...

  8. Python之pandas:pandas中数据处理常用函数(与空值相关/去重和替代)简介、具体案例、使用方法之详细攻略

    Python之pandas:pandas中数据处理常用函数(与空值相关/去重和替代)简介.具体案例.使用方法之详细攻略 目录 pandas中数据处理常用函数(isnull/dropna/fillna/ ...

  9. 推荐系统-应用Pandas进行数据处理

    1. PANDAS PANDAS是一个包,它使我们能够访问高性能.易于使用的工具和数据结构,以便在Python中进行数据分析. Python是一种运行很慢的语言.PANDAS通过使用C编程语言实现大量 ...

最新文章

  1. php5.6 和apache2.2的相互配置
  2. sublime text 3 使用过程总结记录
  3. git 使用详解(5)—— get log 查看提交历史
  4. python数学计算_初学者Python学习笔记--数学计算
  5. 针对新手的Java EE7和Maven项目-第3部分-定义ejb服务和jpa实体模块
  6. 2018.9.15,Matlab实验三:字符串、单元数组和结构体
  7. ES6学习(八)—Promise对象 超鸡重要
  8. 联想拯救者Y7000P的一些功能键
  9. python的string与Unicode转换,gbk字符串编码
  10. 树莓派引脚介绍与GPIO的初步认识与应用
  11. 输入两个正整数m和n,求其最大公约数及最小公倍数
  12. 申请Apple ID
  13. pycharm typo
  14. 阿里生鲜布局重要抓手!它如何解决全球生鲜商家痛点?
  15. 汇编 INT 10H功能
  16. Apple Catching
  17. 写给那些进步缓慢却全然不知的IT人
  18. word文档太大怎么压缩到最小
  19. JetBrains各版本全家桶工具 编程开发全套永久软件!IDE也能免费用
  20. 【论文笔记_知识蒸馏_2022】Knowledge Distillation with the Reused Teacher Classifier

热门文章

  1. Asp.net在线统计人数
  2. 计算机windows多用户,windows Server 2012 专业版配置多用户远程桌面连接
  3. 通过nginx访问.html出现Access Denied提示怎么解决(亲测)
  4. Vi经典插件ctags(转)
  5. PHPStorm的命令行配置成为Git bash的
  6. PHP之composer遇见Your requirements could not be resolved to an installable set of packages
  7. stata 导出 相关系数表_Stata: 空间权重矩阵的构建
  8. php中get_featured_posts()是什么意思,php – 在WP_Query中获取WooCommerce特色产品
  9. js md5 过滤表情 数据签名
  10. snoopy(强大的PHP采集类) 详细介绍