原标题:关于偏度与峰度的一些探索

毫无疑问,数据的集中趋势和离散趋势是数据分布的最主要两个特征。因此,我们常常会借助算术平均数,中位数,方差,四分位数等指标进行描述性的统计分析,就正如我们经常讨论的正态分布,两个参数均值和标准差正是对应了集中趋势指标和离散趋势指标。

但实际上,数据的分布形态各异,很可能偏离于我们原有的假设分布,例如可能数据分布并不对称,例如数据分布较为“陡峭”,而为了研究这些特征以及与正态分布的偏离程度,我们还需要其他的判定指标,偏度和峰度。

一些预备知识

对于随机变量X,假若

存在,则称它为随机变量X的k阶原点矩;若

存在,则称它为随机变量X的k阶中心矩;一般,我们使用矩来描述随机变量的特征,例如随机变量的数学期望就是一阶原点矩

,方差则是二阶中心矩

1. 偏度

偏度,Skewness,是研究数据分布对称的统计量。通过对偏度系数的测量,我们能够判定数据分布的不对称程度以及方向。

具体来说,对于随机变量X,我们定义偏度为其的三阶标准中心矩:

而对于样本的偏度,我们一般简记为SK,我们可以基于矩估计,得到有:

但考虑到,上式的分子分母都不是无偏估计量,因此也有计算公式为:

值得注意的是,上述两种样本偏度的最后计算结果都属于有偏估计。

偏度的衡量是相对于正态分布来说,正态分布的偏度为0。因此我们说,若数据分布是对称的,偏度为0.若偏度>0,则可认为分布为右偏,即分布有一条长尾在右;若偏度<0,则可认为分布为左偏,即分布有一条长尾在左,同时偏度的绝对值越大,说明分布的偏移程度越严重。

另外,偏度>0,分布右偏,长尾在右,高峰在左,这似乎与一般认知不太一致。但其实我们可以发现偏度实际上是三阶标准中心矩,而一个数据距离“中心”越远,对中心矩的计算影响越大。而当数据长尾在右,即有更多正偏的离群值,因此偏度>0;

2.峰度

峰度,Kurtosis,是研究数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据分布相对于正态分布而言是更陡峭还是平缓。

具体来说,对于随机变量X,我们定峰度为其的四阶标准中心矩:

而对于样本的峰度,我们一般简记为K,可通过如下公式计算样本的峰度系数:

同样考虑到,上式的分子分母都不是无偏估计量,因此也有计算公式为:

特别需要注意的是,峰度其实也是一个相对于正态分布的对比量,正态分布的峰度系数为0,而均匀分布的峰度为-1.2,指数分布的峰度为6。

当峰度系数>0,从形态上看,它相比于正态分布要更陡峭或尾部更厚;而峰度系数<0,从形态山看,则它相比于正态分布更平缓或尾部更薄。在实际环境当中,如果一个分部是厚尾的,这个分布往往比正态分布的尾部具有更大的“质量”,即含又更多的极端值。

从下图可以看到,拉帕拉斯,双曲正割,逻辑斯底分布的峰度系数均大于0,且他们的峰更陡峭,同时尾部也更厚。而像升余弦分布,半圆形分布,以及均匀分布则是峰度系数<0,同时也可以看到他们更加的平缓。

3.峰度的影响实验

为了进一步验证分布中各处的值如何影响峰度变化,浩彬老撕构造了如下实验:

(1)新增数据加在尾部:原有总体分布:N(0,3^2),1000000样本+新增数据N(9,3^2),1000个样本。新增比例为原有的0.001,峰度从0增加为0.073;

(2)新增数据加在尾部:原有总体分布:N(0,3^2),1000000样本+新增数据N(9,3^2),20000个样本。新增比例为原有的0.02,峰度从0增加为0.996;

(3)新增数据加在峰部(高峰更高):原有总体分布:N(0,3^2),1000000样本+新增数据N(0,1),1000个样本。新增比例为原有的0.001,峰度从0增加为0.004;

(4)新增数据加在峰部:原有总体分布:N(0,3^2),1000000样本+新增数据N(0,1),20000个样本。新增比例为原有的0.02,峰度从0增加为0.049;

(5)新增数据加在山腰中部位置:原有总体分布:N(0,3^2),1000000样本+新增数据N(4.5,1),1000个样本。新增比例为原有的0.001,峰度从0降低为-0.003;

(6)新增数据加在山腰中部位置:原有总体分布:N(0,3^2),1000000样本+新增数据N(4.5,1),20000个样本。新增比例为原有的0.02,峰度从0降低为-0.084;

从上述实验可知,尾部或离群点对峰度影响为正向,且影响程度最大。而高概率区对峰度影响也为正向,但是比较少;而山腰位置,中等概率区域则影响为负向。

近期热门文章精选(点击标题即可阅读):

1.

2

3.

4.

5.

作者简介:浩彬老撕

好玩的IBM数据工程师,

立志做数据科学界的段子手,

致力知识分享,每月至少一次送书活动返回搜狐,查看更多

责任编辑:

正态分布的峰度和偏度分别为_关于偏度与峰度的一些探索相关推荐

  1. 正态分布的峰度和偏度分别为_科学网—峰度(Kurtosis)与偏态(Skewness) - 李旭的博文...

    我们在应用ArcGIS提供的克里格(Kriging)插值工具之前,经常要对数据的分布情况进行考察,这是因为克里格插值的前提假设之一就是数据服从正态分布.峰度(Kurtosis)与偏态(Skewness ...

  2. R语言使用moments包计算偏度(Skewness)和峰度(Kurtosis)实战:计算偏度(Skewness)和峰度(Kurtosis)、确定样本数据是否具有与正态分布匹配的偏度和峰度(假设检验)

    R语言使用moments包计算偏度(Skewness)和峰度(Kurtosis)实战:计算偏度(Skewness)和峰度(Kurtosis).确定样本数据是否具有与正态分布匹配的偏度和峰度(假设检验) ...

  3. 样本偏度(skewness)与随机变量的偏度及三阶统计量之间的关系和计算估计

    偏度skewness 1. 随机变量的偏度定义 随机变量X{X}X的偏度γ1\gamma_1γ1​为三阶标准矩,标准定义为: γ1=E[(X−μσ)3]=μ3σ3=E[(X−μ)3](E[(X−μ)2 ...

  4. 正态分布的峰度和偏度分别为_服从正态分布 偏度、峰度要满足什么要求?

    展开全部 正态分布具有两个参数μ和62616964757a686964616fe59b9ee7ad9431333431366333σ^2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值 ...

  5. 正态分布某一点的概率怎么算_笔记|复习金融计量中概率随笔1(样本推整体)

    写的时候也从互联网找了一些资料,参考链接放在文章中间了. 一些稀碎的东西: 卡方分布的n是用来查表的关键要素. variance:方差 standard deviation:标准差 本文其实重点是用样 ...

  6. 正态分布某一点的概率怎么算_统计基础篇之十三:怎么理解正态分布(二)

    本篇着重谈一下正态分布的各种计算. 对于连续数据分布来说,给出的都是概率密度函数,要想计算概率,就要用到积分. 假设一个随机变量服从正态分布N(μ,σ^2)分布,求a<X≤b的概率P.于是有 其 ...

  7. 对pca降维后的手写体数字图片数据分类_机器学习:数据的准备和探索——特征提取和降维...

    在数据的预处理阶段,特征提取和数据降维是提升模型表示能力的一种重要手段. 特征提取主要是从数据中找到有用的特征,用于提升模型的表示能力,而数据降维主要是在不减少模型准确率的情况下减少数据的特征数量. ...

  8. python 相关性检验怎么计算p值_机器学习:数据的准备和探索——数据假设检验...

    图 | 源网络文 | 5号程序员 数据假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法. 那我们啥时候会用到假设检验呢? 大多数情况下,我们无法分辨事物的真伪或者某种说法是否正确,这时就 ...

  9. matlab机械臂工作空间代码_【ROS-Moveit!】机械臂控制探索(3)——基于python的API示例代码分析...

    本文参考Moveit!官方文档. 系统:ubuntu 18.04 / 16.04 ROS:Melodic / Kinetic 概述 基于python的运动组API是最简单的MoveIt!用户接口.其中 ...

  10. matplotlib的默认字体_浅谈matplotlib默认字体设置探索

    控制默认字体的设置 根据官方文档https://matplotlib.org/tutorials/text/text_props.html#default-font可知: The base defau ...

最新文章

  1. 【Arduino】开发入门教程【一】什么是Arduino
  2. 老公趴下!62图给你讲Docker
  3. python计算机体系三层结构_Python tkinter 实现简单登陆注册 基于B/S三层体系结构,实现用户身份验证...
  4. 【Linux 内核】线程调度示例一 ② ( 获取指定调度策略的最大和最小优先级 | 代码示例 )
  5. int *p,cons int *p,int const *p,int * const p,const int * const p,int const * const p的区别
  6. 一步步编写操作系统 40 内存分页下用户程序与操作系统的关系
  7. redis超时原因排查
  8. iw命令 linux 没有_linux学习笔记(实验楼) 实验2 基本概念和操作
  9. 埃氏筛法求质数(例如:200以内的质数)
  10. docker_6 Docker 网络
  11. html 放到底部,html – 将元素放在页面底部
  12. Eclipse简明使用教程(java集成开发环境)
  13. 微信小程序中播放视频 例子
  14. JavaEE项目 Web聊天室(JSP实现)
  15. 记录第一次面试的体会(字节跳动实习生招聘)
  16. 大白菜u盘装win10步骤图解
  17. position的五种方式
  18. redis 客户端 -- lettuce 介绍
  19. 如何计算每个月有多少天
  20. Echarts折线图X轴Y轴图例位置调整

热门文章

  1. win10系统进行电脑分盘
  2. 【企业】全球顶级思维模式:建立思维模式,把握人性管理
  3. python中算法是什么意思_什么是算法?Python中的基础算法有几种?
  4. 微信公众号网页分享设置及问题
  5. 心里窝火无语的图片_很无语的心情说说图片
  6. 在线 IDE,支持 C-sharp, PHP, JavaScript - CodeRun
  7. VUE 批量导出、导入Excel
  8. 用极限定义证明微积分基本定理
  9. Unity 风吹草的实现
  10. Shell 脚本:DDNS for aliyun