基本的统计分析函数

适用于Series和DataFrame类型

方法 说明
.sum() 计算数据的总和,按0轴计算,下同
.count() 非NaN值的数量
.mean() .median() 计算数据的算术平均值、算术中位数
.var() .std() 计算数据的方差、标准差
.min().max() 计算数据的最小值、最大值
.describe() 针对0轴(各列)的统计汇总

适用于Series类型

方法 说明
.argmin() .argmax() 计算数据最大值、最小值所在位置的索引位置(自动索引)
.idxmin() .idxmax() 计算数据最大值、最小值所在位置的索引(自定义索引)

数据的累计统计分析

适用于Series和DataFrame类型,累计计算

方法 说明
.cumsum() 依次给出前1、2、…、n个数的和
.cumprod() 依次给出前1、2、…、n个数的积
.cummax() 依次给出前1、2、…、n个数的最大值
.cummin() 依次给出前1、2、…、n个数的最小值

适用于Series和DataFrame类型,滚动计算(窗口计算)

方法 说明
.rolling(w).sum() 依次计算相邻w个元素的和
.rolling(w).mean() 依次计算相邻w个元素的算术平均值
.rolling(w).var() 依次计算相邻w个元素的方差
.rolling(w).std() 依次计算相邻w个元素的标准差
.rolling(w).min() .max() 依次计算相邻w个元素的最小值和最大值

数据的相关性分析

两个事物,表示为X和Y,如何判断它们之间的存在相关性?

相关性

•X增大,Y增大,两个变量正相关
•X增大,Y减小,两个变量负相关
•X增大,Y无视,两个变量不相关

协方差

•协方差>0, X和Y正相关
•协方差<0, X和Y负相关
•协方差=0, X和Y独立无关

pearson相关系数

0.8‐1.0 极强相关
•0.6‐0.8 强相关
•0.4‐0.6 中等程度相关
•0.2‐0.4 弱相关
•0.0‐0.2 极弱相关或无相关
r取值范围[‐1,1]

适用于Series和DataFrame类型

方法 说明
.cov() 计算协方差矩阵
.corr() 计算相关系数矩阵, Pearson、Spearman、Kendall等系数

pandas数据特征分析小结

一组数据的摘要

方法 说明
排序 .sort_index() .sort_values()
基本统计函数 .describe()
累计统计函数 .cum*() .rolling().*()
相关性分析 .corr() .cov()

代码实例

# -*- coding: utf-8 -*-# @File    : pandas_func.py
# @Date    : 2018-05-20# pandas基本的统计分析函数import pandas as pd
import numpy as np# Series对象
s = pd.Series([9, 8, 7, 6], index=["a", "b", "c", "d"])
print(s)
"""
a    9
b    8
c    7
d    6
dtype: int64
"""# 数据概要
print(s.describe())
"""
count    4.000000
mean     7.500000
std      1.290994
min      6.000000
25%      6.750000
50%      7.500000
75%      8.250000
max      9.000000
dtype: float64
"""# 类型
print(type(s.describe()))
# <class 'pandas.core.series.Series'># 从概要中取数据
print(s.describe()["count"])
# 4.0print(s.describe()["max"])
# 9.0# DataFrame对象
fd = pd.DataFrame(np.arange(12).reshape(3, 4), index=["a", "b", "c"])
print(fd)
"""0  1   2   3
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
"""# 概要
print(fd.describe())
"""0    1     2     3
count  3.0  3.0   3.0   3.0
mean   4.0  5.0   6.0   7.0
std    4.0  4.0   4.0   4.0
min    0.0  1.0   2.0   3.0
25%    2.0  3.0   4.0   5.0
50%    4.0  5.0   6.0   7.0
75%    6.0  7.0   8.0   9.0
max    8.0  9.0  10.0  11.0
"""# 类型
print(type(fd.describe()))
# <class 'pandas.core.frame.DataFrame'># 取出列概要信息
print(fd.describe()[2])
"""
count     3.0
mean      6.0
std       4.0
min       2.0
25%       4.0
50%       6.0
75%       8.0
max      10.0
Name: 2, dtype: float64
"""# 获取行
print(fd.describe().ix["count"])
"""
0    3.0
1    3.0
2    3.0
3    3.0
Name: count, dtype: float64
"""# 数据的累计统计分析print(fd)
"""0  1   2   3
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
"""# 依次给出前1、2、…、n个数的和
print(fd.cumsum())
"""0   1   2   3
a   0   1   2   3
b   4   6   8  10
c  12  15  18  21
"""# 依次给出前1、2、…、n个数的积
print(fd.cumprod())
"""0   1    2    3
a  0   1    2    3
b  0   5   12   21
c  0  45  120  231
"""# 依次给出前1、2、…、n个数的最大值
print(fd.cummax())
"""0  1   2   3
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
"""# 依次给出前1、2、…、n个数的最小值
print(fd.cummin())
"""0  1  2  3
a  0  1  2  3
b  0  1  2  3
c  0  1  2  3
"""print(fd)
"""0  1   2   3
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
"""# 相邻2个数求和
print(fd.rolling(2).sum())
"""0     1     2     3
a   NaN   NaN   NaN   NaN
b   4.0   6.0   8.0  10.0
c  12.0  14.0  16.0  18.0
"""# 相邻3个数求和
print(fd.rolling(3).sum())
"""0     1     2     3
a   NaN   NaN   NaN   NaN
b   NaN   NaN   NaN   NaN
c  12.0  15.0  18.0  21.0
"""# 实例,房价增幅与M2增幅的相关性
hprice = pd.Series([3.04, 22.93, 12.75, 22.6, 12.33],index=["2008", "2009", "2010", "2011", "2012"])
m2 = pd.Series([8.18, 18.38, 9.13, 7.82, 6.69],index=["2008", "2009", "2010", "2011", "2012"])print(hprice.corr(m2))
# 0.5239439145220387
"""
## pearson相关系数
0.8‐1.0 极强相关
•0.6‐0.8 强相关
•0.4‐0.6 中等程度相关
•0.2‐0.4 弱相关
•0.0‐0.2 极弱相关或无相关
"""# 绘制成图
from matplotlib import pyplot as pltplt.plot(hprice)
plt.plot(m2)
plt.savefig("price", dpi=600)
plt.show()

Python数据分析与展示:pandas库统计分析函数-13相关推荐

  1. python数据分析与展示--Pandas库入门

    一.Pandas库的引用 Pandas是python第三方库,通过了高性能易用的数据类型和分析工具;Pandas库包含了Series,DataFrame两个数据类型,基于这两个数据类型可以实现基本,运 ...

  2. python数据分析的钥匙——pandas库

    目录 系列文章目录 一. 关于pandas库: 二. pandas库的安装 三. pandas的两种基本数据结构--Series 与 DataFrame(附代码) 四. pandas库的应用(附代码) ...

  3. azw3 python数据分析 活用pandas库_Python数据分析 活用Pandas库 数据科学教程数据分析入门图书 Python编程入门数据处理...

    内容介绍 本书是Python数据分析入门书,每个概念都通过简单实例来阐述,便于读者理解与上手.具体内容包括:Python及Pandas基础知识,加载和查看数据集,Pandas的DataFrame对象和 ...

  4. Python数据分析之:pandas拓展数据分析函数(cum / rolling ) / 作图功能

    文章目录 1. pandas拓展数据分析函数 1.1 .cum() 1.1.1 .cumsum():累加 1.1.2 .cumprod():累乘 1.1.3 .cummax():前n个数依次求最大值 ...

  5. python数据分析 活用pandas库_Python数据分析:活用Pandas库:Pandas for everyone

    序 iv 前言 v 致谢 xi 关于作者 xiv 第 一部分 简介 1 第 1章 Pandas DataFrame基础知识 2 1.1 简介 2 1.2 加载数据集 3 1.3 查看列.行.单元格 5 ...

  6. python数据分析活用pandas库 pdf_Python数据分析:活用Pandas库

    献词 iii 序 iv 前言 v 致谢 xi 关于作者 xiv 第 一部分 简介 1 第 1章 Pandas DataFrame基础知识 2 1.1 简介 2 1.2 加载数据集 3 1.3 查看列. ...

  7. Python数据分析与展示——Pandas基本操作

    1.Pandas介绍 Pandas 一个强大的分析结构化数据的工具集,基础是 [Numpy](提供高性能的矩阵运算). Pandas 可以从各种文件格式比如 CSV.JSON.SQL.Microsof ...

  8. Python 数据分析与展示笔记4 -- Pandas 库基础

    Python 数据分析与展示笔记4 – Pandas 库基础 Python 数据分析与展示系列笔记是笔者学习.实践Python 数据分析与展示的相关笔记 课程链接: Python 数据分析与展示 参考 ...

  9. Python 数据分析与展示笔记3 -- Matplotlib 库基础

    Python 数据分析与展示笔记3 – Matplotlib 库基础 Python 数据分析与展示系列笔记是笔者学习.实践Python 数据分析与展示的相关笔记 课程链接: Python 数据分析与展 ...

最新文章

  1. 2019谷歌学术指标出炉,影响因子何去何从?
  2. Golang——HTTP编程请求和响应实现
  3. 软件工程模块开发卷宗_数据科学家应该了解的软件工程实践
  4. intel服务器修复两个漏洞,英特尔处理器漏洞怎么修复 Intelcpu漏洞修复方法
  5. TensorFlow-RNN循环神经网络 Example 1:预测Sin函数
  6. DirectSound学习笔记(2):创建设备对象
  7. Class.forName()、Class.forName().newInstance() 、New 三者区别!
  8. 在Windows XP/2000下拒强行关机
  9. JVM Learning Note 4 -- HotSpot JVM Options List
  10. 《2022年中国网络安全市场全景图》
  11. App上实现用户手写签名保存为透明PNG格式图片
  12. thinkphp使用ajax、jquery、Mysql实现了简单的客户端通信功能
  13. 怎么区分zh和ch_怎样区分zh,ch,sh与z,c,s
  14. sat考试用计算机,SAT考试怎么选择计算器
  15. 用xbrowser登陆linux远程桌面,如何使用Xmanager及VNC登录远程桌面
  16. 多因子选股模型python_A题通过机器学习优化股票多因子模型
  17. 现货跟期货有什么区别(现货和期货交易区别)
  18. char *const p ,char const *p,const char *p的区别
  19. IOS APP获取证书、打包、发布蒲公英详解
  20. 创新的时机 – 黄金点游戏

热门文章

  1. win10自动登录不见了
  2. 抹杀员工积极性的8个事情
  3. 帝国导航栏如何实现高亮显示
  4. 快递代收告别野蛮生长 “蓝店模式”正当时
  5. mysql declare浮点数_MySQL - Belong_yucl - 博客园
  6. 仿拼多多拼单成功的弹幕队列消息提示
  7. Android开机画面的具体修改方法
  8. 土的渗透系数计算c语言程序,岩土层渗透系数K的经验值
  9. npskins 可直接取回CSGO饰品皮肤网页开箱子网站
  10. ——mysql数据库基础