作者/俊欣

在Python当中模块Pandas在数据分析中以及可视化当中是被使用的最多的,也是最常见的模块,模块当中提供了很多的函数和方法来应对数据清理数据分析数据统计,今天小编就通过20个常用的函数方法来为大家展示一下其中的能力,希望大家能有所收获。

1.读取数据

Pandas当中的read_csv的方法能够去读取csv类型的文件,然后转化成类似于表格形式的dataframe,

marketing = pd.read_csv("DirectMarketing.csv")
groceries = pd.read_csv("Groceries_dataset.csv")
df = pd.read_csv("Churn_Modelling.csv")

要是我们只想展示一部分,比方说其中几行的数据,当然也可以这么来操作

df = pd.read_csv("Churn_Modelling.csv", nrows = 5000)
df.shape
(5000,14)

当然其中几列的数据,也可以这么来操作,例如下面的代码选中“Gender”、“Age”以及“Tensure”等几列

df1 = pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance'])

2.查看缺失值

要是我们想要看一下数据集当中的缺失值的话,可以,

groceries.isna().sum()Member_number      0
Date               0
itemDescription    0
dtype: int64

3. 填充缺失值

下面我们来填充数据集当中的缺失值,我们有很多种方式方法来填充数据集当中的缺失值,比方说中位数、平均数、众数等等

# 这里用的是众数来填充,当然也可以用平均数mean,中位数median
groceries['itemDescription'].fillna(value=groceries['itemDescription'].mode()[0], inplace=True)# 或者是用"fillna"这个方法
groceries["Date"].fillna(method = "ffill", inplace = True)

假若我们想把这些缺失值给抹去,也很好来操作,使用“drop”方法,“inplace=True”表明原数组内容直接被改变

groceries.drop(axis = 0, how = 'any', inplace = True)

4. 查看某一列的数据类型

首先我们来查看一下数据集当中每一列的数据类型,

groceries.dtypesMember_number       int64
Date               object
itemDescription    object
dtype: object

我们看到的是,“Date”这一列的数据类型是“object”,我们可以通过“astype”这个方法来改变这一列的数据类型

groceries['Date'] = groceries['Date'].astype("datetime64")

当然还有“to_datetime”这个方法来尝试

groceries['Date'] = pd.to_datetime(groceries['Date'])

除此之外,我们在读取数据的时候,也可以通过里面的参数“parse_dates”来改变这一列的数据类型

groceries = pd.read_csv("Groceries_dataset.csv", parse_dates=['Date'])
groceries.dtypesMember_number               int64
Date               datetime64[ns]
itemDescription            object
dtype: object

5. 筛选出数据

通常来说有很多种方式方法来筛选数据以得出我们想要的结果,比方说我们可以通过一些逻辑符号“==”、“!=”或者是“>”“<”等方式,例如下面的代码便是挑选出“itemDescription”等于是“pip fruit”的数据

groceries[groceries["itemDescription"] == "pip fruit"].head()

当然还有“isin”这个方法来从一定的范围内选出数据,我们能够传入一个列表,在列表中注明我们要筛选的数据,例如下面的代码,我们筛选出“Member_number”在这些范围当中的数据

groceries[groceries.Member_number.isin([3737, 2433, 3915, 2625])].head()

“query”这个方法也可以帮助到我们

groceries.query('3000 < Member_number < 5000').head()

“where”这个方法也行

groceries[['Member_number','Date', 'itemDescription']].where(groceries['Member_number'] > 2500, 0).head()

6. 排除数据

“~”符号用来表明我们需要筛选出不再我们给定的范围之内的数据,比方说下面的代码我们筛选出“Member_number”不再这些范围当中的数据

groceries[~groceries.Member_number.isin([3737, 2433, 3915, 2625])].head()

7. 数据统计

“value_counts”方法是被使用最广泛的工具,在数据统计和计数当中,计算一下该列当中每大类的离散值出现的频率

marketing["OwnHome"].value_counts()Own     516
Rent    484
Name: OwnHome, dtype: int64

要是我们将其中的参数“normalize”改成“True”,它也将以百分比的形式出现,

marketing.Catalogs.value_counts(normalize=True)12    0.282
6     0.252
24    0.233
18    0.233

除此之外,我们也可以用“nunique”这个方法来查看某一列离散值当中有几大类,例如下面的代码中“OwnHome”这一列只有两大类

marketing["OwnHome"].nunique()2

8. 将某一列作为索引

一般数据集中的索引大家可以理解为就是“行数”,也就是“第一行”、“第二行”,当然我们可以通过“set_index”这个方法来将任意某一列设置为我们需要的索引,比方说数据集中的“Date”字段被设置成了索引

groceries.set_index('Date', inplace=True)

9. 重新设置索引

当我们去除掉某几行数据之后,数据集当中的索引会出现“断裂”的情况,同理当我们合并两个数据集的时候,索引也不会被重新设置,要是上面的情况出现,数据集中的索引便不是“连续”的了,我们可以通过“reset_index”来重新设置索引,例如下面的数据集的索引并不是连续的

groceries.reset_index(drop=True, inplace=True)

10. 关于“loc”和“iloc”

“loc”方法和“iloc”方法用法想类似,其中比较重要的一点是“loc”方法一般可以接受标签,例如

groceries.loc[:,["Member_number", "Date"]].head()

而“iloc”里面要是放标签的话,则会报错,一般“iloc”里面放的则是索引,

# 取第一列和第二列两列的数据
groceries.iloc[:,[0, 1]].head()

11. 提取“月份”和“年份”

我们可以通过“dt”这个方法来提取时间类型的数据中的年份和月份,例如

groceries['Year'] = groceries['Date'].dt.year
groceries['Month'] = groceries['Date'].dt.month

12. 去除某几列的数据

要是碰到我们想去除掉某几列的数据的时候,可以使用“drop”方法,例如,我们去除掉“Year”和“Month”这两列

groceries.drop(['Year','Month'], axis=1, inplace=True)

13. 增加某几列的数据

要是想在数据集当中增加几列的时候,我们可以使用“insert”方法,例如,我们在第一列和第二列的位置插入“Month”数据和“Year”的数据

year = groceries['Date'].dt.year
month = groceries['Date'].dt.monthgroceries.insert(1, 'Month', month)
groceries.insert(2, 'Year', year)

14. 排名统计

我们可以为某一列数据做一个排名,使用“rank”这个方法

groceries['Member_number_rank'] = groceries['Member_number'].rank(method = 'first', ascending = False).astype('int')

15. 展示小数点后面的几位小数

数据集当中对于浮点型的数字,小数点后面可能仍然会有很多的数字,我们可以通过“round”方法来进行调整,例如我们保留一位小数

df.round(1).head()

16. 基于字符串去筛选数据

我们有时候需要基于字符串去进行数据的筛选,例如,我们要筛选出下面的数据集当中顾客的名字是以“Mi”开头的顾客,我们可以这么来做

df[df['Surname'].str.startswith('Mi')].head()

17. 基于字符串的长度来筛选数据

有时候我们也可以通过字符串的长度来筛选数据,例如我们通过下面的代码筛选出“itemDescription”这个字段长度大于20的数据

groceries[groceries.itemDescription.str.len() > 20].head()

18. 对离散值类型的数据进行分离

我们可以对离散值类型的某一列数据,当中是字符串的数据,进行分离,例如我们遇到“Date”这一列当中的数据是字符串,然后我们可以通过“split”这个方法来进行字符串的分离,例如下面的代码将“Date”这一列当中的月份数据给分离出来了

groceries['Month'] = groceries['Date'].str.split('-', expand=True)[1]

19. 画图

我们可以在已有数据集的基础上,通过“plot”这个方法以及里面的参数“kind”来进行可视化,例如我们想要画直方图的话

df['Balance'].plot(kind='hist', figsize=(10,6), title='Customer Balance')

20. 标注重点

我们有时候可能需要对数据集当中某些数据打标签,表上颜色来显示其重要性,在“Pandas”模块中有“style”这个方法可以使用,例如下面的代码将“Salary”以及“Catalogs”这两列的最大值标出来了

df_new.style.highlight_max(axis = 0, color = "yellow")

——END——

最近发现一个点外卖每顿饭都能少花5-20元的宝藏号。

就是她,↓点击下面名片关注公众号↓

进入公众号点击菜单领取红包最低5元,最高56元!

分享20个常用的Python函数,轻松玩转Pandas!!相关推荐

  1. 分享几个常用的Python函数,助你快速成为Pandas大神!!

    在Python当中模块Pandas在数据分析中以及可视化当中是被使用的最多的,也是最常见的模块,模块当中提供了很多的函数和方法来应对数据清理.数据分析和数据统计,今天小编就通过20个常用的函数方法来为 ...

  2. 你需要知道的20个常用的Python技巧

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|机器学习算法那些事 Python的可读性和简单性是其广受 ...

  3. 100多个常用的Python函数!(部分函数含代码解读)

    目录 一.前言 二.基础函数 三.流程控制 四.列表 五.元组 六.字符串 七.字典 八.函数 九.进程和线程 十.模块与包 十一.文件操作 十二.修饰器/装饰器 十三.正则 参考 一.前言 我记得我 ...

  4. 20个常用的Python小技巧

    2019 年第 73 篇文章,总第 97 篇文章 原题 | 20 Python Snippets You Should Learn Today 作者 | Chaitanya Baweja 原文 | h ...

  5. c++ cout头文件_C/C++知识分享:C++常用内置函数你会几个,使用过几次呢?

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:Regina520 在 C++ 中,除了可以创建各种函数,还包含了各 ...

  6. 我常用的python函数(part2)--executemany方法

    学习笔记 executemany()方法 pymysql的executemany()方法,在一次数据库的IO操作中,可以插入多条记录.在大量数据传输中,它相比于execute()方法,不仅方便,而且提 ...

  7. C/C++知识分享:C++常用内置函数你会几个,使用过几次呢?

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:Regina520 在 C++ 中,除了可以创建各种函数,还包含了各 ...

  8. c 输出空格_C/C++知识分享:C++常用内置函数你会几个,使用过几次呢?

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:Regina520 在 C++ 中,除了可以创建各种函数,还包含了各 ...

  9. 【技术分享】PHP常用的数组函数

    数组中元素指针的移动 next:向后移动,指向下一个元素 prev:向前移动,指向前一个元素 end:指向最后一个元素 reset:复位,重新指向第一个元素 键.值的相关操作 key:获取数组当前元素 ...

最新文章

  1. 某程序员毕业进UC,被阿里收购!跳去优酷土豆,又被阿里收购!再跳去饿了么,还被阿里收购!难道阿里想收购的是他?...
  2. Add Binary
  3. 基于 Laravel Route 的 ThinkSNS+ Component
  4. 趣学python3(4)-数字,字符串,列表(1)
  5. 偏移出来的数据不准_独家解读!京东高可用分布式流数据存储的架构设计
  6. 生产系统服务器是啥意思,生产系统服务器主机名怎么看
  7. oracle数据库配置管理,Oracle配置管理
  8. 转载——网站转接支付宝解决方案
  9. 西南交大数据结构c语言版集合的并,交实验报告答案,数据结构(C语言版)实验报告 集合的交并差...
  10. python 实现将RGBA 转换为RGB
  11. 【超详细】随机变量及其分布——《概率论与数理统计》第二章学习笔记
  12. java写便签_JAVA编写便签纸
  13. CRM 安装不规范,亲人两行泪
  14. java实现三方登陆:微信登陆功能的实现
  15. 按键精灵定义全局变量_按键精灵2014全局数组变量传递(支持静态与动态)V2
  16. 【报名】RT-Thread师资培训,苏州大学王怀宜教授主讲!
  17. 亚马逊电商数据自动化管理接口平台JAVA SP-API接口开发(下)
  18. mac将远程linux服务器目录挂载(mount)到本地
  19. dell 工作站装linux_dell 工作站装linux_个人电脑只装Linux是怎样的体验?
  20. AD2018快速设计想要尺寸的PCB板(AD2018如何修改PCB板子形状)

热门文章

  1. Oracle Caused by: java.sql.SQLException: sql injection violation, syntax error: syntax error, expect
  2. 2-django进阶之日志功能(亲测)
  3. yum安装出现No package vim available解决办法
  4. PHP构建数据结构填充数据
  5. php自定义表单怎么导入excel,织梦dedeCMS将自定义表单数据导入到excel文档实现方法...
  6. CRMEBv3.0版本更新了什么?
  7. rar for android最新版,RAR for Android手机版下载-RAR for Android 安卓压缩软件v5.30 安卓版下载-腾牛安卓网...
  8. 树莓派 mysql集群_多树莓派集群服务器
  9. Linux多个端口组合,iptables使用multiport 添加多个不连续端口
  10. openmp 互斥锁 mysql_openMP 函数总结(并行程序设计导论)