异常值处理 - iterrows()对 DataFrame 进行遍历，并修改遍历中的异常值

先要有一个很简单的被命名为 data 的表：

第三列是一个名曰周杰伦的人历年来每个月的月薪，其中2016年月薪10万，纵观他历年来的月薪基本不超过3万（显然他不是我的偶像胖伦），因此对于这个人来说月薪10万是有些异常的。

有些人可能会说，这不简单？直接：【 data[monthly_pay] [data[monthly_pay] >= 10] = null 】就好了啊，可是你忘记了，周杰伦挣不了10万，可是库克完全没压力啊。你这么一句python运行下去，表里关于库克的月薪数据都要被删掉了。

那么，怎么识别到这个10万的数据，进而修改它呢？

我们采用每年和去年的月薪相比的方式，即：若今年的月薪超过去年的 2 倍，且去年的月薪在 5 万以下的，我们将修改今年的月薪为去年月薪的 2 倍值。

首先需要用 iterrows() 遍历这个表，找出异常值，然后修改就好了，下面是 python 代码：

# -*- coding:utf-8 -*-
import pandas as pd
import numpy as np
from pandas import DataFrame,Seriesdatafile = u'D:\\pythondata\\learn\\iterrows.xlsx'
data = pd.read_excel(datafile)
data = DataFrame(data)#首先将每一年对应的去年的月薪生成一列新的数据，匹配到最后一列
data_q1 = data[['name', 'year', 'monthly_pay']].copy()
data_q1['year'] = data['year']+1
data_q1.rename(columns={'monthly_pay':'monthly_pay_q1'}, inplace = True)
data = pd.merge(data, data_q1, how='left', left_on=['name','year'], right_on=['name','year'])for index,row in data.iterrows():if ((row['monthly_pay']) >= (2 * (row['monthly_pay_q1']))) & (row['monthly_pay_q1']<= 5):data.at[index, 'monthly_pay'] = (2 * (data.at[index,'monthly_pay_q1'])).astype(int)
data = data[['name', 'year', 'monthly_pay']]

更改后的data表：

iterrows()返回值为元组(index,row) ，for循环定义了两个变量，index, row，那么返回的元组(index,row)，index=index，row=row。如果for循环中只定义一个变量 row ，则 row 就是整个元组。论方便的话还是定义两个变量吧。

很简单的功能对吧，代码也很简单，大神们就用不着了，新手们可以了解一下。

iterrows()的官网地址：

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iterrows.htm

异常值处理 - iterrows()对 DataFrame 进行遍历，并修改遍历中的异常值 - Python代码相关推荐

stata怎么判断是否存在异常值_利用统计方法，辨别和处理数据中的异常值
在建模时,清理数据样本非常重要,这样做可以确保观察结果充分代表问题.有时,数据集可能包含超出预期范围之外的极端值.这通常被称为异常值,通过理解甚至去除这些异常值,能够改进机器学习建模和模型技能. 在本 ...
pandas遍历dataframe的行：迭代遍历dataframe的数据行、iterrows函数、itertuple函数
pandas遍历dataframe的行:迭代遍历dataframe的数据行.iterrows函数.itertuple函数目录 pandas遍历dataframe的行:迭代遍历dataframe的数据 ...
python 遍历_python中使用iterrows()对dataframe进行遍历的示例
假设我们有一个很简单的OTU表: 现在对这个表格进行遍历,一般写法为: import pandas as pd otu = pd.read_csv("otu.txt",sep=&q ...
pandas 遍历并修改_Pandas循环提速7万多倍！Python数据分析攻略
乾明编译整理量子位报道 | 公众号 QbitAI 用Python和Pandas进行数据分析,很快就会用到循环. 但在这其中,就算是较小的DataFrame,使用标准循环也比较耗时. 遇到较大的 ...
Java实现无向图的邻接列表表示，深度遍历及广度遍历
图 1. 图的表示 2. 图的分类 3. 图的表示 4. 图的遍历 5. 源码 5.1 图的邻接列表表示 5.1 邻接列表宽度优先.深度优先遍历 1. 图的表示图用 G = (V,E)表示.V表示顶 ...
数据结构与算法（7-2）图的遍历（深度优先遍历DFS、广度优先遍历BFS）（分别用邻接矩阵和邻接表实现）
目录深度优先遍历(DFS)和广度优先遍历(BFS)原理 1.自己的原理图 2.官方原理图一.邻接矩阵的深度优先遍历(DFS) 1.原理图 2. 过程: 3.总代码二.邻接表的深度优先遍历(DFS ...
python数据结构与算法：二叉树及三种遍历方式（先序遍历/中序遍历/后序遍历）
树的实现采用queue的形式: 树的三种遍历方式(广度优先白能力法):先序遍历(根左右),中序遍历(左根右)以及后序遍历(左右根) ######################P6.4 数据结构### ...
循环遍历和迭代器遍历如何选择
对于数据的遍历,常见的操作方式有两种:循环遍历和迭代器遍历.有时候,我们容易混淆这两种遍历方式,误以为这两种方式并没有根本就没有什么大的区别. 1.定义 (1)循环遍历:一般而言,我们常见的while ...
pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column)
pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column and generate n ...

异常值处理 - iterrows()对 DataFrame 进行遍历，并修改遍历中的异常值 - Python代码

异常值处理 - iterrows()对 DataFrame 进行遍历，并修改遍历中的异常值 - Python代码相关推荐

最新文章

热门文章