六、数据(分组)计算

1 常用统计函数：

df['xxx'].mean() # 均值
df.mean().mean() # 全体平均数
df[xxx'].median() # 中位数
df[xxx'].var() # 方差
df[xxx'].std() # 标准差
max(),min() # 最大(小)值

2 diff()函数：计算上下行差值：

# 方法一：Series.diff()
df['xxx'].diff()# 方法二：shift(1)
diff = df['xxx'] - df['xxx'].shift(1)

3 pct_change()函数：计算上下行变化率：

# 方法一：Series.pct_change()
df['xxx'].pct_change()# 方法二：shift(1)
df['xxx']/df['xxx'].shift(1) - 1

4 shft()函数：将数据往后(前)移动x天：

shift(x)
shift(-x)

5 rolling()函数：以5个数据作为滑动窗口，取均值/总和：

df['xxx'].rolling(5).mean()
df['xxx'].rolling(10).sum()

# 应用：将收盘价5日均线、20日均线与原始数据绘制再同一个图上#方法一：
mean_5 = data['收盘价(元)'].rolling(5).mean()
mean_20 = data['收盘价(元)'].rolling(20).mean()font = {'family':'MicroSoft YaHei', 'weight':'bold', 'size': 12}
matplotlib.rc('font', **font)plt.rc('figure', figsize=(16,6), dpi=150) #设置图的大小
plt.plot(data['收盘价(元)'], label='原始数据')
plt.plot(mean_5, label='5日均线')
plt.plot(mean_20, label='20日均线')plt.legend(loc='upper right')
plt.show()#方法二：
data['收盘价(元)'].plot()
data['收盘价(元)'].rolling(5).mean().plot()
data['收盘价(元)'].rolling(20).mean().plot()

6 expanding()函数：

DataFrame.expanding(min_periods = 1，center = False，axis = 0)

# 计算某列的移动窗口均值：
df['xxx'].expanding(min_periods = 1).mean()

rolling()函数，是固定窗口大小，进行滑动计算，expanding()函数只设置最小的观测值数量，不固定窗口大小，实现累计计算，即不断扩展；

Pandas进阶之窗口函数rolling()和expanding()：https://www.jianshu.com/p/b8c795345e93

7 agg()函数：

（1）同时对xx1, xxx2两列进行计算：

df[['xxx1', 'xxx2']].agg([np.sum, np.mean, np.median, np.min, np.max, np.std, np.var])
df[['xxx1', 'xxx2']].agg(['sum', 'mean', 'median', 'min', 'max', 'std', 'var'])

（2）对'xxx1'列求平均，对'xxx2'列求和：

# 方法一：分开再汇总
salary_mean = df['salary'].mean()
score_sum = df['score'].sum()
salary_mean, score_sum# 方法二：agg()函数
df.agg({'xxx1' : np.sum, 'xxx2' : np.mean})

8 分组计算：

（1）根据某列元素分组后计算平均值/中位数：

df.groupby('xxx').mean()
df.groupby('xxx').median()

（2）按'xxx1'分组后，'xxx2'列元素最多的是：

# 方法一：head()取行
df[['xxx1', 'xxx2']].groupby('xxx1').sum().sort_values(by='xxx2', ascending=False).head(1)# 方法二：iloc取行
pd.DataFrame(df[['xxx1', 'xxx2']].groupby('xxx1').sum().sort_values(by='xxx2', ascending=False).iloc[0,:])# 方法三：分组后采用agg函数求和
df[['xxx1', 'xxx2']].groupby('xxx1').agg({'xxx2':'sum'}).sort_values(by='xxx2', ascending=False).head(1)

（3）自定义函数修正日期：

def change_year(x):year = x.year - 100 if x.year > 1999 else x.yearreturn datetime.date(year, x.month, x.day)df['Yr_Mo_Dy'] = df['Yr_Mo_Dy'].apply(change_year).astype('datetime64[ns]')
df.head()

9 query()函数：df.query('month == 1')等同于df[df.month==1]

（1）计算一月份('month ==1')的平均值：

df['date'] = df.indexdf['year'] = df['date'].apply(lambda x: x.year)
df['month'] = df['date'].apply(lambda x: x.month)
df['day'] = df['date'].apply(lambda x: x.day)january_df = df.query('month==1')  #query等同于df[df.month==1]
january_df.mean()

（2）按年为频率取样：

df.query('month == 1 and day == 1')

（3）按月为频率取样：

df.query('day == 1')

六、数据(分组)计算相关推荐

python中数据分组计算_python3数据聚合与分组运算（二）
数据聚合对于聚合,这里指的是任何能够从数组产生标量值的数据转换过程.之前的例子中已经用过一些,比如mean.count.min以及sum等.我们可能想知道在GroupBy对象上调用mean()时究竟 ...
pbi 度量值计算列+日期表+层次结构+数据分组+交互式分析+横向纵向可视化选择+轴、图例、值拖拽
目录一.度量值和计算列二.日期表三.层级结构 1.直接拖 2.创建层次结构四.数据分组 1.知晓分组规则 2.不知晓分组规则五.交互式分析 1.第一个按钮无,不与其它图形进行交互 2.层次 ...
python数据科学包第三天（索引、分组计算、数据聚合、分组运算和转换、载入数据、日期范围、数据可视化）
索引行索引列索引索引的分类重复索引的处理 s = pd.Series(np.random.rand(5), index=list('abcde')) s a 0.566924 b 0.6034 ...
如何使用熵值法分组计算核心指标权重，并为项目打分
计算核心指标权重是一种常见的分析方法,常见的计算权重的方法的原理及使用条件可参考https://baijiahao.baidu.com/s?id=1661019965038118642&wfr ...
【大数据实时计算框架】Storm框架
一.大数据实时计算框架 1.什么是实时计算?流式计算? (一)什么是Storm? Storm为分布式实时计算提供了一组通用原语,可被用于"流处理"之中,实时处理消息并更新数据库.这 ...
MySQL:基础—数据分组
MySQL:基础-数据分组 1.为什么要分组: 比如一个表中有多条订单记录,如上图,每条记录对应着一个商品,现在我要查询每个商品被订购的单数准备出货?也就是找到每个商品被订购的数量. 如果只找一个 ...
python库学习笔记——分组计算利器：pandas中的groupby技术
最近处理数据需要分组计算,又用到了groupby函数,温故而知新. 分组运算的第一阶段,pandas 对象(无论是 Series.DataFrame 还是其他的)中的数据会根据你所提供的一个或多个键被 ...
pandas（七） -- 数据分组
数据分组官方文档分组统计 - groupby功能根据某些条件将数据拆分成组对每个组单独使用函数将结果合并到一个数据结构中根据单列或多列分组 .groupby() 分组后的对象执行数值计算函数 ...
机器学习实战（十）利用K-means算法对未标注数据分组
第十章利用K-means算法对未标注数据分组 10.1 K-均值聚类算法 10.2 使用后处理来提高聚类性能 10.3 二分K-均值算法 10.4 总结第十章利用K-means算法对未标注数据分 ...