介绍

在操作dataframe时,初学者有时甚至是更高级的数据科学家会对如何在pandas中使用inplace参数感到困惑。

更有趣的是,我看到的解释这个概念的文章或教程并不多。它似乎被假定为知识或自我解释的概念。不幸的是,这对每个人来说都不是那么简单,因此本文试图解释什么是inplace参数以及如何正确使用它。

让我们来看看一些使用inplace的函数的例子:

fillna()

dropna()

sort_values()

reset_index()

sort_index()

rename()

我已经创建了这个列表,可能还有更多的函数使用inplace作为参数。我没有记住所有这些函数,但是作为参数的几乎所有pandas DataFrame函数都将以类似的方式运行。这意味着在处理它们时,您将能够应用本文将介绍的相同逻辑。

创建一个示例DataFrame

为了说明inplace的用法,我们将创建一个示例DataFrame。

import pandas as pdimport numpy as npclient_dictionary = {'name': ['Michael', 'Ana', 'Sean', 'Carl', 'Bob'],                      'second name': [None, 'Angel', 'Ben', 'Frank', 'Daniel'],                     'birth place': ['New York', 'New York', 'Los Angeles', 'New York', 'New York'],                     'age': [10, 35, 56, None, 28],                     'number of children': [0, None, 2, 1, 1]}df = pd.DataFrame(client_dictionary)df.head()

我们创建了一个数据框架,该数据框架有5行,列如下: name, second name, birthplace,age,number of children。注意,age、second name和children列中有一些缺失值(nan)。

现在我们将演示dropna()函数如何使用inplace参数工作。因为我们想要检查两个不同的变体,所以我们将创建原始数据框架的两个副本。

df_1 = df.copy()df_2 = df.copy()

下面的代码将删除所有缺少值的行。

df_1.dropna(inplace=True)

如果您在Jupyter notebook中运行此操作,您将看到单元格没有输出。这是因为inplace=True函数不返回任何内容。它用所需的操作修改现有的dataframe,并在原始dataframe上"就地"(inplace)执行。

如果在dataframe上运行head()函数,应该会看到有两行被删除。

df_1.head()

现在我们用inplace = False运行相同的代码。注意,这次我们将使用df_2版本的df

df_2.dropna(inplace=False)

如果您在Jupyter notebook中运行此代码,您将看到有一个输出(上面的屏幕截图)。inplace = False函数将返回包含删除行的数据。

记住,当inplace被设置为True时,不会返回任何东西,但是原始数据被修改了。

那么这一次原始数据会发生什么呢?让我们调用head()函数进行检查。

df_2.head()

原始数据不变!那么发生了什么?

当您使用inplace=True时,将创建并更改新对象,而不是原始数据。如果您希望更新原始数据以反映已删除的行,则必须将结果重新分配到原始数据中,如下面的代码所示。

df_2 = df_2.dropna(inplace=False)

这正是我们在使用inplace=True时所做的。是的,最后一行代码等价于下面一行:

df_2.dropna(inplace=True)

后者更优雅,并且不创建中间对象,然后将其重新分配给原始变量。它直接改变原始数据框架,因此,如果需要改变原始数据,那么inplace=True是首选。

那么,为什么会有在使用inplace=True产生错误呢?我不太确定,可能是因为有些人还不知道如何正确使用这个参数。让我们看看一些常见的错误。

常见错误

使用inplace = True处理一个片段

如果我们只是想去掉第二个name和age列中的NaN,而保留number of children列不变,我们该怎么办?

我见过有人这样做:

df[['second name', 'age']].dropna(inplace=True)

这会抛出以下警告。

这个警告之所以出现是因为Pandas设计师很好,他们实际上是在警告你不要做你可能不想做的事情。该代码正在更改只有两列的dataframe,而不是原始数据框架。这样做的原因是,您选择了dataframe的一个片段,并将dropna()应用到这个片段,而不是原始dataframe。

为了纠正它,可以这样使用

df.dropna(inplace=True, subset=['second name', 'age'])df.head()

这将导致从dataframe中删除第二个name和age列中值为空的行。

将变量值赋给inplace= True的结果

df = df.dropna(inplace=True)

这又是你永远不应该做的事情!你只需要将None重新赋值给df。记住,当你使用inplace=True时,什么也不会返回。因此,这段代码的结果是将把None分配给df。

总结

我希望本文为您揭开inplace参数的神秘面纱,您将能够在您的代码中正确地使用它。

dataframe 如何选中某列的一行_快速解释如何使用pandas的inplace参数相关推荐

  1. pandas中dropna函数_快速解释如何使用pandas的inplace参数

    介绍 在操作dataframe时,初学者有时甚至是更高级的数据科学家会对如何在pandas中使用inplace参数感到困惑. 更有趣的是,我看到的解释这个概念的文章或教程并不多.它似乎被假定为知识或自 ...

  2. dataframe 如何选中某列的一行_带你领略pandas中多表之间如何处理

    但我们在处理Pandas多表数据时,我们需要将多个表之间进行表格的连接与合并,当连接完多表之后我们可能还需要对数据进行多重的索引,方便我们更快的找到数据,以及对数据进行做透视表,更加直观的去观察我们的 ...

  3. dataframe 如何选中某列的一行_如何用 Python 在笔记本上分析 100GB 数据?

    许多组织都想尽可能多地收集和利用数据,从而改进业务.增加收入和提升影响力.因此,数据科学家们要面对 50GB,甚至 500GB 数据集的场景变得越来越普遍. 目前,这些数据集处理起来有点麻烦.就大小而 ...

  4. 谈谈对python的理解_浅谈对python pandas中 inplace 参数的理解

    这篇文章主要介绍了对python pandas中 inplace 参数的理解,具有很好的参考价值,希望对大家有所帮助.一起跟随小编过来看看吧 pandas 中 inplace 参数在很多函数中都会有, ...

  5. dataframe 如何选中某列的一行_PySpark和SparkSQL基础:如何利用Python编程执行Spark(附代码)

    作者:Pinar Ersoy 翻译:孙韬淳 校对:陈振东 本文约2500字,建议阅读10分钟 本文通过介绍Apache Spark在Python中的应用来讲解如何利用PySpark包执行常用函数来进行 ...

  6. python按列输出字符_如何根据条件在Pandas中构建新列(新列应输出字符串)

    我尝试在pandas中创建一个专栏,使用条件来创建一个定性观察.在 例如,如果数据帧如下所示:Distance 1 1 2 5 3 40 4 15 我想创建一个新列(我们称之为df['length'] ...

  7. qt 表格中插入一行_在EXCEL表格中,快速插入多行、多列的技巧

    在使用Excel过程中,我们会遇到需要插入相同格式的多行或多列,如果一行行或一列列的插入,对于插入的数量较少的情况还是适用的.可是如果需要插入上百的行或列,使用此方法就比较费时费力啦.分享几个小技巧实 ...

  8. 同一列两行数据怎么合并成一行_经常加班怎么办?两分钟学会这4招,让同事刮目相看!...

    刚放完小长假回来,面对满屏幕铺天盖地的表格,我只能痛苦地哀号--「救命啊!新年第一次加班就要开始了!」 真的是工作量大吗?不!是我被下面这些问题都纠缠了三四个小时了-- 公式一直在报错? 算不出正确结 ...

  9. excel表格末尾添加一行_在EXCEL表格中,快速插入多行、多列的技巧

    在使用Excel过程中,我们会遇到需要插入相同格式的多行或多列,如果一行行或一列列的插入,对于插入的数量较少的情况还是适用的.可是如果需要插入上百的行或列,使用此方法就比较费时费力啦.分享几个小技巧实 ...

最新文章

  1. 使用傅里叶变换进行图像边缘检测
  2. Go 语言编程 — Context 上下文
  3. go 函数参数nil_go内置函数make
  4. setInterval 和setTimeout 清空定时器,返回值,赋值为null的区别
  5. c++多线程——同步并发
  6. VC ODBC使用总结
  7. .Net Framework3.5 的 NetFx3.cab 资源
  8. 计算机组策略无法编辑,win7系统无法打开本地组策略编辑器的解决方法
  9. 男人,得有足够征服女人的本钱
  10. 企业微信客户端API分享微信朋友圈使用过程及总结
  11. win11家庭版 安卓虚拟机
  12. 什么是TPS,什么是QPS,区别是什么?
  13. 进程已结束,退出代码-1073740791(0xC0000409)
  14. Antelope与 Barracude MYSQL 文件格式
  15. php中的m方法的区别吗,php中的M方法
  16. 欧拉函数定义及其性质
  17. 【微信小程序|组件库】首页功能模块界面
  18. linux驱动设备开发1——字符设备驱动
  19. 阿里短信发送报错 InvalidTimeStamp.Expired
  20. Unity3d之ULua与XLua应用

热门文章

  1. 实现多线程的几种方式
  2. json字符串、json对象、数组之间的转换
  3. img标签中alt和title属性的正确使用
  4. 利用VBS合并Excel中相同单元格
  5. leetcode - Minimum Depth of Binary Tree
  6. Asp.net(C#)给图片加上水印效果
  7. SQL in和exists 比较
  8. 英语阅读测试,很神奇吧~
  9. (转)Hibernate的配置详解
  10. HTML元素 - input type=hidden