3000 字详解 Pandas 数据查询,建议收藏
作者 | 俊欣
来源 | 关于数据分析与可视化
今天小编来和大家说一说怎么从DataFrame
数据集中筛选符合指定条件的数据,希望会对读者朋友有所帮助。
导入数据集和模块
我们先导入pandas
模块,并且读取数据,代码如下
import pandas as pd
df = pd.read_csv("netflix_titles.csv")
df.head()
根据文本内容来筛选
首先我们可以根据文本内容直接来筛选,返回的是True
如果文本内容是相匹配的,False
如果文本内容是不匹配的,代码如下
mask = df['type'].isin(['TV Show'])
mask.head()
output
0 False
1 True
2 True
3 True
4 True
Name: type, dtype: bool
然后我们将这个mask
作用到整个数据集当中,返回的则是满足与True
条件的数据
df[mask].head()
output
当然我们也可以和.loc
方法来相结合,只挑选少数的几个指定的列名,代码如下
df.loc[mask, ['title','country','duration']].head()
output
title country duration
1 Blood & Water South Africa 2 Seasons
2 Ganglands NaN 1 Season
3 Jailbirds New Orleans NaN 1 Season
4 Kota Factory India 2 Seasons
5 Midnight Mass NaN 1 Season
当然要是我们所要筛选的文本内容并不仅仅只有1个,就可以这么来操作,代码如下
mask = df['type'].isin(['Movie','TV Show'])
结果返回的是True
,要是文本内容全部都匹配,要是出现一个不匹配的现象则返回的是False
根据关键字来筛选
我们可以根据某个关键字来筛选数据,数据集当中的listed-in
包含的是每部电影的种类,当然很多电影并不只有一个种类,而是同时涉及到很多个种类,例如某一部电影既有“科幻”元素,也有“爱情”元素同时还包含了部分“动作片”的元素。
我们按照某个关键字来筛选,例如筛选出包含了“horror”这个关键字的影片,代码如下
mask = df['listed_in'].str.contains('horror', case=False, na=False)
其中的case=False
表明的是忽略字母的大小写问题,na=False
表明的是对于缺失值返回的是False
,
df[mask].head()
output
而要是文本数据当中包含了一些特殊符号,例如+
、^
以及=
等符号时,我们可以将regex
参数设置成False
(默认的是True
),这样就不会被当做是正则表达式的符号,代码如下
df['a'].str.contains('^', regex=False)
#或者是
df['a'].str.contains('\^')
根据多个关键字来筛选
当关键字不仅仅只有一个的时候,就可以这么来操作
pattern = 'horror|stand-up'
mask = df['listed_in'].str.contains(pattern, case=False, na=False)
df[mask].sample(5)
output
我们用了|
来表示“或”的意思,将电影类别包含“horror”或者是“stand-up”这两类的电影筛选出来
除此之外,我们还可以这么来做
mask1 = df['listed_in'].str.contains("horror", case=False)
mask2 = df['listed_in'].str.contains("stand-up", case=False)
df[mask1 | mask2].sample(5)
出来的结果和上述一样,只不过过程可能稍加繁琐,除了|
表示的是“或”之外,也有表示的是和,也就是&
标识符,意味着条件全部都需要满足即可,例如
mask1 = (df['listed_in'].str.contains('horror', case=False, na=False))
mask2 = (df['type'].isin(['TV Show']))
df[mask1 & mask2].head(3)
output
我们可以添加多个条件在其中,多个条件同时满足,例如
mask1 = df['rating'].str.contains('tv', case=False, na=False)
mask2 = df['listed_in'].str.contains('tv', case=False, na=False)
mask3 = df['type'].str.contains('tv', case=False, na=False)
df[mask1 & mask2 & mask3].head()
output
正则表达式在pandas
筛选数据中的应用
我们同时也可以将正则表达式应用在如下的数据筛选当中,例如str.contains('str1.*str2')
代表的是文本数据是否以上面的顺序呈现,
pattern = 'states.*mexico'
mask = data['country'].str.contains(pattern, case=False, na=False)
data[mask].head()
output
其中.*
在正则表达式当中表示匹配除换行符之外的所有字符,我们需要筛选出来包含states
以及mexico
结尾的文本数据,我们再来看下面的例子
pattern = 'states.*mexico|mexico.*states'
mask = data['country'].str.contains(pattern, case=False, na=False)
data[mask].head()
output
我们筛选出来的文本数据满足两个条件当中的一个即可
lambda
方法来筛选文本数据中的应用
有一些筛选数据的方式可能稍显复杂,因此需要lambda
方法的介入,例如
cols_to_check = ['rating','listed_in','type']
pattern = 'tv'
mask = data[cols_to_check].apply(lambda col:col.str.contains(pattern, na=False, case=False)).all(axis=1)
我们需要在rating
、listed_in
以及type
这三列当中筛选出包含tv
的数据,我们来看一下结果如何
df[mask].head()
output
我们再来看下面的这个例子,
mask = df.apply(lambda x: str(x['director']) in str(x['cast']), axis=1)
上面的例子当中是来查看director
这一列是否被包含在了cast
这一列当中,结果如下
df[mask].head()
output
filter
方法
我们还可以通过filter
方法来筛选文本的数据,例如筛选出列名包含in
的数据,代码如下
df.filter(like='in', axis=1).head(5)
output
当然我们也可以用.loc
方法来实现,代码如下
df.loc[:, df.columns.str.contains('in')]
出来的结果和上述的一样
要是我们将axis
改成0
,就意味着是针对行方向的,例如筛选出行索引中包含Love
的影片,代码如下
df_1 = df.set_index('title')
df_1.filter(like='Love', axis=0).head(5)
output
当然我们也可以通过.loc
方法来实现,代码如下
df_1.loc[df_1.index.str.contains('Love'), :].head()
筛选文本数据的其他方法
我们可以使用query
方法,例如我们筛选出国家是韩国的影片
df.query('country == "South Korea"').head(5)
output
例如筛选出影片的添加时间是11月的,代码如下
mask = df["date_added"].str.startswith("Nov")
df[mask].head()
output
那既然用到了startswith
方法,那么就会有endswith
方法,例如
df['col_name'].str.endswith('2019')
除此之外还有这些方法可以用来筛选文本数据
df['col_name'].str.len()>10
df['col_name'].str.isnumeric()
df[col_name].str.isupper()
df[col_name].str.islower()
往
期
回
顾
资讯
IEEE发布年终总结,AI奇迹不是故事
资讯
Log4j还没完事,新的漏洞又来
资讯
AI语言模型是否越大越好?
资讯
这个AI模型火上GitHub热榜
分享
点收藏
点点赞
点在看
3000 字详解 Pandas 数据查询,建议收藏相关推荐
- 3000字详解Pandas数据查询,建议收藏
今天来和大家说一说怎么从DataFrame数据集中筛选符合指定条件的数据,希望会对读者朋友有所帮助. 导入数据集和模块 我们先导入pandas模块,并且读取数据,代码如下 import pandas ...
- ❤️pandas df.loc[] 与 df.iloc[] 详解及其区别,建议收藏❤️
文章目录 思维导图 一.df.loc[]与df.iloc[]区别 二.df.loc[]详解 df.loc[] 允许输入 三.df.iloc[]详解 df.iloc[] 允许输入 df.loc[]与df ...
- ❤️思维导图整理大厂面试高频数组: 两万字详解各种数组求和(建议收藏)❤️
此专栏文章是对力扣上算法题目各种方法的总结和归纳, 整理出最重要的思路和知识重点并以思维导图形式呈现, 当然也会加上我对导图的详解. 目的是为了更方便快捷的记忆和回忆算法重点(不用每次都重复看题解), ...
- 全文2500字 详解Pandas与Lambda结合进行高效数据分析
这篇文章小编来讲讲lambda方法以及它在pandas模块当中的运用,熟练掌握可以极大地提高数据分析与挖掘的效率 导入模块与读取数据 我们第一步需要导入模块以及数据集 import pandas as ...
- 8000字详解银行业数据治理架构体系搭建
为引导银行业金融机构加强数据治理,充分发挥数据价值,全面向高质量发展转变,银监会于2018年发布了<银行业金融机构数据治理指引>,主要内容如下: 近年来银行业金融机构在业务快速发展过程中, ...
- 3000字详解,“会裂变”的小程序产品设计案例
在互联网流量越来越贵的今天,获取精准用户或种子用户成了产品经理或运营同学最渴望不可求的事.近期带着团队做了几次裂变案例后,发现裂变不仅是针对于社群,针对小程序这样的产品若在设计考虑了裂变机制,则可以借 ...
- 【node节点版本管理器NVM,详解安装教程,建议收藏】
平常我们在做开发时,可能会用到不同的nodejs版本,如果每次都进行下载安装,就很麻烦了.而nvm刚好帮助我们解决了这一问题. 1.下载nvm nodejs官网:http://nodejs.cn/ n ...
- 【SQL】一文详解嵌入式SQL(建议收藏)
- C#虚方法详解(一切尽有,建议收藏!!!)
前言:通过这篇文章可以将C#中的虚方法理解透彻,讲的非常详细,十分推荐刚入门的小伙伴收藏嗷!!! 目录: 一.虚方法的概念 二.虚方法的特点 三.虚方法的作用 四.虚方法的声明 五.虚方法的执行 六. ...
最新文章
- 多节锂电串联保护板ic_两节锂电池保护IC,芯片电路图如何设计
- AGG第十一课 agg::ellipse 渲染椭圆和多边形
- AAAI2020 | SNERL:抛开mention级别的监督,实体链接、关系抽取我都行
- 秒秒钟揪出张量形状错误,这个工具能防止ML模型训练白忙一场
- unity hub是什么东西_Unity可编程渲染管线(SRP)教程:一、自定义管线
- 如何去除Eclipse Maven插件里关于Managed version的警告消息
- 实验四+116+陈洁
- mac查看进程 总是忘记
- SQL Server 聚合函数算法优化技巧
- c++中的stl容器——map的介绍与常用用法
- 克鲁赛德战记服务器无响应,克鲁赛德战记闪退黑屏登不上怎么办 解决方法
- MyBatis可视化代码生成工具
- Mobile-Unet
- 如何查看服务器证书过期时间,如何看ssl证书过期
- 高德地图很详细的用法 定位 搜索 添加小蓝点marker 移动地图实时定位
- 基于php+mysql的校园木本植物检索查询统
- IT新渠道眼中的高价值增长如何实现?
- 是否能够成为真正的编程高手,主要是在于是否有毅力坚持学习和练习。输出名言“贵有恒,何必三更起五更睡:最无益,只怕一日曝十日寒。”主要是想让读者激励自己,坚持学习C语言。
- Metinfo 5.3.17 前台SQL注入漏洞分析及实验
- Windows系统下R语言环境搭建及高级图表绘制
热门文章
- vue-cli3环境变量与分环境打包
- postgresql中COPY的用法
- 深入理解javascript中的立即执行函数(function(){…})()
- Redis集群两种配置方式
- 横向ListView(一) ——开篇,基础逻辑实现
- 《树莓派Python编程指南》——2.3 小结
- xtrabackup2.4 备份Precona5.6数据库,做增量备份与还原
- Hadoop集群安全性:Hadoop中Namenode单点故障的解决方案及详介AvatarNode
- 【杭电ACM】1097 A hard puzzle
- 大一新生,你为何逃课?