描述性统计分析(Description Statistics)是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。描述性统计分析分为集中趋势分析和离中趋势分析。

提到用python来进行描述性统计分析,第一反应就是用:dataframe.describe(), 我们不妨用一组数据来展示:

# 读取数据
df = pd.read_csv('sanguo_data.csv',header = 0,encoding="utf-8")
df.head()

这是一组三国人物的数据,有姓名、性别、统御、武力等字段(数据下载地址见文末)。

下面我们用python当中的dataframe.describe()来进行描述性统计分析:

#描述性分析
df.describe()

运行可得到上图,可以看到最大值、最小值、平均数、标准差、中位数等基本的描述性统计指标都有,但是为了更好深地掌握知识,下面还是继续用python挨个指标复习一下。

集中趋势分析

  • 平均数

  1. 简单算数平均数,这里没什么好说的

  2. 加权平均数,应用最广泛。这里举个栗子:武力值高不代表带领军队时的战力,不然关羽岂不是无敌,所以这时候用统御能力加权平均更合适。

  3. 几何平均数,多用于流程转化中的平均,比如多步骤的转化率求平均值

data = df['武力']
#简单算数平均数
np.average(data)
#加权平均数
np.average(data,weights=df['统御'])
#几何平均数
pow(np.prod(data),1/len(data))

  • 众数

是一组数据中出现次数最多的数值,可能没有,也有可能有多个。

counts = np.bincount(data)
np.argmax(counts)

  • 分位数

分位数是指用分割点将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。

# 中位数
np.median(data)
# 四分位数
np.percentile(data, (25, 50, 75), interpolation='midpoint')

箱线图是分位数的直接应用:主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。

我平时喜欢用的小提琴图(violin plot)用于显示数据分布及其概率密度。它结合了箱形图和密度图的特征,主要用来显示数据的分布形状。中间的黑色粗条表示四分位数范围,从其延伸的幼细黑线代表 95% 置信区间,而白点则为中位数。

离中趋势分析

  • 极差

极差又被称为全距,是指数据集合中最大值与最小值的差值

# 极差
np.max(df['武力'])-np.min(df['武力'])

  • 方差、标准差

方差是度量随机变量和其数学期望(即均值)之间的偏离程度。

标准差:方差的开方

# 方差
np.var(df['武力'])
# 标准差
np.std(df['武力'])

  • 平均差

各个变量值同平均数的离差绝对值的算术平均数。

  • 异众比率

是总体中非众数次数与总体全部次数之比。

  • 偏态系数

以平均值与中位数之差对标准差之比率来衡量偏斜的程度。偏态系数小于 0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于 0,因为均值在众数之右,是一种右偏的分布,又称为正偏。

  • 峰态系数

是对数据分布平峰或尖峰程度的测度:峰态系数与众数概率的高低有直接关系,众数概率越高,峰态系数越大。

正态分布的峰态系数是 3,常常计算出来的峰态系数会跟 3 作比较,如果小于 3 则具有不足的峰度,如果大于 3 则具有过度的峰度。

#偏度、峰度
from scipy import stats
x = df_wu['武力']
skew = stats.skew(x)
kurtosis = stats.kurtosis(x)

实战演练

现在我们再将这组数据按国家区分,来看看描述性统计分析能得出什么样的结论?

df_wei = df.loc[(df['国家'] == '魏国')]
df_shu = df.loc[(df['国家'] == '蜀国')]
df_wu  = df.loc[(df['国家'] == '吴国')]
data = df_wu['武力']
plt.hist(data,20,normed=True,facecolor='g',alpha=0.9)
plt.show()

做出三国人物的武力值分布图,以及利用前文的python代码计算各种描述性统计分析指标,如下图所示:

  1. 从平均值看,蜀国武将的平均武力在三个国家之上

  2. 从标准差看,吴>蜀>魏,这说明吴国人物间武力差距更大一些,而魏国人物武力分布较为均匀。

  3. 从偏度上看:三国偏态系数均小于0,平均数在众数之左,是一种左偏的分布,又称为负偏。 从上面三个图中也可以看出:其中蜀国的武力分布众数偏在右侧更明显一点,长尾拖在左边。 从峰度上看:三国偏态系数均小于0,均是低峰态,相对来说蜀国人物武力分布较另外两国人物武将武力分布更窄一些。

PS:大家可能注意到求出的偏态系数为负数,这是因为在实际应用中,通常将峰度值做减3处理。


数据代码分享:

公众号后台回复“统计分析”,获取Python代码。

参考资料:

[1]《数据茶水间》-木东居士

[2]《从零进阶!数据分析的统计基础》

[3]《深入浅出统计学》

—————————————

往期精彩:

  • 小红书,“黄”了

  • 苹果谷歌双双被曝,你的手机正在窃听你的生活

  • 遇事不决赖毛子,美国这次打算封杀变脸APP

用python重温统计学基础:描述性统计分析相关推荐

  1. python数据分析学习——1.描述性统计分析

    描述性分析 描述性统计分析是关于数据的描述和汇总.它使用两种主要方法: 定量方法以数值方式描述和汇总数据. 可视化方法通过图表,曲线图,直方图和其他图形来说明数据. 一般在数据分析的过程中,拿到数据不 ...

  2. 数据分析师一定要掌握的基础——描述性统计分析

    申明:文章内容是作者自己的学习笔记,教学来源是开课吧讲师梁勇老师. 以下博客内容讲解了描述性统计分析的所有知识点,以及利用鸢尾花数据集的分析加强对各个统计量的理解. 数理统计基础-描述性统计分析 1. ...

  3. 统计学:描述性统计分析

    本文是对<Excel统计分析与应用>第3章的内容梳理,后续将会在此基础上进行知识应用拓展的补充. 1.概述 拿到一份数据,怎样去把握这份数据的分布特征呢?首先需要知道有哪些统计指标可以反映 ...

  4. 数据之路 - 统计学基础 - 推断统计分析

    一 转载于:https://www.cnblogs.com/Iceredtea/p/11297680.html

  5. Part 4 描述性统计分析(占比 10%)——上

    文章目录 [后续会持续更新CDA Level I&II备考相关内容,敬请期待] [考试大纲] [考试内容] [备考资料] 1.统计基本概念 1.1.统计学的含义及应用 1.1.1.统计学的含义 ...

  6. 金融时间序列描述性统计分析【python复现】

    金融时间序列描述性统计分析 前言 金融时间序列是金融市场的一个重要组成部分.在研究金融市场的各种现象以及对进行建模时,金融时间序列的描述性统计分析都是一项基础的且必不可少的工作. 本章主要介绍描述性统 ...

  7. 【Python数据分析】实践编写篇1:用Python程序完成描述性统计分析需求

    目录 一.前言 1.1 关于描述性统计分析 1.2 本篇目的 1.3 提示 二.程序内容的编写 2.1 导入数据与前期处理 2.2 描述性统计分析所要计算的数据 2.3 数据可视化 2.3.1 概述 ...

  8. 统计学基础1:描述性统计(数据的离散度、极差、方差、标准差)

    python 统计学基础1:描述性统计 一.频数 二.数据的位置(平均数.中位数.众数.百分位数) 三.数据的离散度(极差.偏差.方差.标准差) 3.1.极差(Range) 3.2 .平均绝对偏差(M ...

  9. 【4.1 统计学基本概念】(描述性统计分析)——CDA

    1.大纲 此部分占10% 1.1 统计学含义 统计学是关于数据的科学.统计学是一门收集.处理.分析.解释数据并从数据中得出结论的科学. 统计学的对象是数据. 数据的形式:分数字和文字. (1) 阿拉伯 ...

  10. 如何在Python中进行描述性统计分析?

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

最新文章

  1. python装饰器-python中的装饰器常用于哪些应用场景
  2. 华为路由器 android,华为智能路由器app
  3. html native code is rendered from xml configuration
  4. tonardo做web服务器播放大视频内存泄露问题的解决
  5. python中的累乘积_Python中的连续元素最大乘积
  6. ecmall挂件开发
  7. I2C 协议分析和学习
  8. 电脑强制打开手机usb调试_手机、电脑录屏的5种正确打开方式,简直太快了!网友:实用...
  9. 华为认证的好处是什么?考试费是多少?
  10. VMware ESXi6.0注入8060阵列卡驱动过程记录
  11. 拉格朗日插值的优缺点_拉格朗日插值法与牛顿插值法比较
  12. css 动态设定div背景颜色
  13. STM32与串口屏交互(USART HMI)
  14. 个人陈述怎么写计算机专业自招,自主招生个人陈述范文
  15. 木棒拼图(有一个由很多木棒构成的集合,每个木棒有对应的长度,请问能否用集合中的这些木棒以某个顺序首尾相连构成一个面积大于 0 的简单多边形且所有木棒都要用上,简单多边形即不会自交的多边形。)
  16. RSH-810微机智能母线电弧光保护装置
  17. “安卓僵尸”变种木马
  18. Android中3D gallary的实现
  19. python超声成像仿真_超声合成孔径成像
  20. 响应式五金机械网站pbootcms模板,蓝色营销型五金配件网站源码下载

热门文章

  1. 根据数据库中的数据构造treeview
  2. Photoshop操作秘籍
  3. modal 弹出层后禁止底层滚动
  4. 这样的代码才是好代码
  5. 有些人,理他就输了!
  6. 喜提 300w 硬核资产!
  7. 情人节,给你们发点福利。
  8. 实现Eureka注册发现的高可用
  9. 五秒原则,做一件事之前数 5 秒,1,2,3,4,5 立马去做。比如睡觉:数五秒,立马放下手机,闭眼。...
  10. js 难点之原型理解