基本的统计分析函数

适用于Series和DataFrame类型

方法	说明
.sum()	计算数据的总和，按0轴计算，下同
.count()	非NaN值的数量
.mean() .median()	计算数据的算术平均值、算术中位数
.var() .std()	计算数据的方差、标准差
.min().max()	计算数据的最小值、最大值
.describe()	针对0轴（各列）的统计汇总

适用于Series类型

方法	说明
.argmin() .argmax()	计算数据最大值、最小值所在位置的索引位置（自动索引）
.idxmin() .idxmax()	计算数据最大值、最小值所在位置的索引（自定义索引）

数据的累计统计分析

适用于Series和DataFrame类型，累计计算

方法	说明
.cumsum()	依次给出前1、2、…、n个数的和
.cumprod()	依次给出前1、2、…、n个数的积
.cummax()	依次给出前1、2、…、n个数的最大值
.cummin()	依次给出前1、2、…、n个数的最小值

适用于Series和DataFrame类型，滚动计算（窗口计算）

方法	说明
.rolling(w).sum()	依次计算相邻w个元素的和
.rolling(w).mean()	依次计算相邻w个元素的算术平均值
.rolling(w).var()	依次计算相邻w个元素的方差
.rolling(w).std()	依次计算相邻w个元素的标准差
.rolling(w).min() .max()	依次计算相邻w个元素的最小值和最大值

数据的相关性分析

两个事物，表示为X和Y，如何判断它们之间的存在相关性？

协方差

•协方差>0, X和Y正相关
•协方差<0, X和Y负相关
•协方差=0, X和Y独立无关

pearson相关系数

0.8‐1.0 极强相关
•0.6‐0.8 强相关
•0.4‐0.6 中等程度相关
•0.2‐0.4 弱相关
•0.0‐0.2 极弱相关或无相关
r取值范围[‐1,1]

适用于Series和DataFrame类型

方法	说明
.cov()	计算协方差矩阵
.corr()	计算相关系数矩阵, Pearson、Spearman、Kendall等系数

pandas数据特征分析小结

一组数据的摘要

方法	说明
排序	.sort_index() .sort_values()
基本统计函数	.describe()
累计统计函数	.cum() .rolling().()
相关性分析	.corr() .cov()

代码实例

# -*- coding: utf-8 -*-# @File    : pandas_func.py
# @Date    : 2018-05-20# pandas基本的统计分析函数import pandas as pd
import numpy as np# Series对象
s = pd.Series([9, 8, 7, 6], index=["a", "b", "c", "d"])
print(s)
"""
a    9
b    8
c    7
d    6
dtype: int64
"""# 数据概要
print(s.describe())
"""
count    4.000000
mean     7.500000
std      1.290994
min      6.000000
25%      6.750000
50%      7.500000
75%      8.250000
max      9.000000
dtype: float64
"""# 类型
print(type(s.describe()))
# <class 'pandas.core.series.Series'># 从概要中取数据
print(s.describe()["count"])
# 4.0print(s.describe()["max"])
# 9.0# DataFrame对象
fd = pd.DataFrame(np.arange(12).reshape(3, 4), index=["a", "b", "c"])
print(fd)
"""0  1   2   3
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
"""# 概要
print(fd.describe())
"""0    1     2     3
count  3.0  3.0   3.0   3.0
mean   4.0  5.0   6.0   7.0
std    4.0  4.0   4.0   4.0
min    0.0  1.0   2.0   3.0
25%    2.0  3.0   4.0   5.0
50%    4.0  5.0   6.0   7.0
75%    6.0  7.0   8.0   9.0
max    8.0  9.0  10.0  11.0
"""# 类型
print(type(fd.describe()))
# <class 'pandas.core.frame.DataFrame'># 取出列概要信息
print(fd.describe()[2])
"""
count     3.0
mean      6.0
std       4.0
min       2.0
25%       4.0
50%       6.0
75%       8.0
max      10.0
Name: 2, dtype: float64
"""# 获取行
print(fd.describe().ix["count"])
"""
0    3.0
1    3.0
2    3.0
3    3.0
Name: count, dtype: float64
"""# 数据的累计统计分析print(fd)
"""0  1   2   3
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
"""# 依次给出前1、2、…、n个数的和
print(fd.cumsum())
"""0   1   2   3
a   0   1   2   3
b   4   6   8  10
c  12  15  18  21
"""# 依次给出前1、2、…、n个数的积
print(fd.cumprod())
"""0   1    2    3
a  0   1    2    3
b  0   5   12   21
c  0  45  120  231
"""# 依次给出前1、2、…、n个数的最大值
print(fd.cummax())
"""0  1   2   3
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
"""# 依次给出前1、2、…、n个数的最小值
print(fd.cummin())
"""0  1  2  3
a  0  1  2  3
b  0  1  2  3
c  0  1  2  3
"""print(fd)
"""0  1   2   3
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
"""# 相邻2个数求和
print(fd.rolling(2).sum())
"""0     1     2     3
a   NaN   NaN   NaN   NaN
b   4.0   6.0   8.0  10.0
c  12.0  14.0  16.0  18.0
"""# 相邻3个数求和
print(fd.rolling(3).sum())
"""0     1     2     3
a   NaN   NaN   NaN   NaN
b   NaN   NaN   NaN   NaN
c  12.0  15.0  18.0  21.0
"""# 实例，房价增幅与M2增幅的相关性
hprice = pd.Series([3.04, 22.93, 12.75, 22.6, 12.33],index=["2008", "2009", "2010", "2011", "2012"])
m2 = pd.Series([8.18, 18.38, 9.13, 7.82, 6.69],index=["2008", "2009", "2010", "2011", "2012"])print(hprice.corr(m2))
# 0.5239439145220387
"""
## pearson相关系数
0.8‐1.0 极强相关
•0.6‐0.8 强相关
•0.4‐0.6 中等程度相关
•0.2‐0.4 弱相关
•0.0‐0.2 极弱相关或无相关
"""# 绘制成图
from matplotlib import pyplot as pltplt.plot(hprice)
plt.plot(m2)
plt.savefig("price", dpi=600)
plt.show()

Python数据分析与展示：pandas库统计分析函数-13相关推荐

python数据分析与展示--Pandas库入门
一.Pandas库的引用 Pandas是python第三方库,通过了高性能易用的数据类型和分析工具;Pandas库包含了Series,DataFrame两个数据类型,基于这两个数据类型可以实现基本,运 ...
python数据分析的钥匙——pandas库
目录系列文章目录一. 关于pandas库: 二. pandas库的安装三. pandas的两种基本数据结构--Series 与 DataFrame(附代码) 四. pandas库的应用(附代码) ...
azw3 python数据分析活用pandas库_Python数据分析活用Pandas库数据科学教程数据分析入门图书 Python编程入门数据处理...
内容介绍本书是Python数据分析入门书,每个概念都通过简单实例来阐述,便于读者理解与上手.具体内容包括:Python及Pandas基础知识,加载和查看数据集,Pandas的DataFrame对象和 ...
Python数据分析之：pandas拓展数据分析函数（cum / rolling ） / 作图功能
文章目录 1. pandas拓展数据分析函数 1.1 .cum() 1.1.1 .cumsum():累加 1.1.2 .cumprod():累乘 1.1.3 .cummax():前n个数依次求最大值 ...
python数据分析活用pandas库_Python数据分析:活用Pandas库:Pandas for everyone
序 iv 前言 v 致谢 xi 关于作者 xiv 第一部分简介 1 第 1章 Pandas DataFrame基础知识 2 1.1 简介 2 1.2 加载数据集 3 1.3 查看列.行.单元格 5 ...
python数据分析活用pandas库 pdf_Python数据分析：活用Pandas库
献词 iii 序 iv 前言 v 致谢 xi 关于作者 xiv 第一部分简介 1 第 1章 Pandas DataFrame基础知识 2 1．1 简介 2 1．2 加载数据集 3 1．3 查看列. ...
Python数据分析与展示——Pandas基本操作
1.Pandas介绍 Pandas 一个强大的分析结构化数据的工具集,基础是 [Numpy](提供高性能的矩阵运算). Pandas 可以从各种文件格式比如 CSV.JSON.SQL.Microsof ...
Python 数据分析与展示笔记4 -- Pandas 库基础
Python 数据分析与展示笔记4 – Pandas 库基础 Python 数据分析与展示系列笔记是笔者学习.实践Python 数据分析与展示的相关笔记课程链接: Python 数据分析与展示参考 ...
Python 数据分析与展示笔记3 -- Matplotlib 库基础
Python 数据分析与展示笔记3 – Matplotlib 库基础 Python 数据分析与展示系列笔记是笔者学习.实践Python 数据分析与展示的相关笔记课程链接: Python 数据分析与展 ...

Python数据分析与展示：pandas库统计分析函数-13