点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

本文转自:机器学习算法那些事

 偏度与峰度的正态性分布判断

当我们应用统计方法对数据进行分析时,会发现许多分析方法如T检验、方差分析、相关分析以及线性回归等等,都要求数据服从正态分布或近似正态分布,正态分布在机器学习的重要性后期会讲述。上一篇文章用Q-Q图来验证数据集是否符合正态分布,本文首先介绍了偏度与峰度的定义,然后用偏度与峰度检测数据集是否符合正态分布,最后分析该检测算法的适用条件以及SPSS的结果分析。

1、 偏度与峰度

(1) 偏度(Skewness)

偏度衡量随机变量概率分布的不对称性,是相对于平均值不对称程度的度量,通过对偏度系数的测量,我们能够判定数据分布的不对称程度以及方向。

具体来说,对于随机变量X,我们定义偏度为其的三阶标准中心距:

对于样本的偏度,我们一般记为SK,我们可以基于矩估计,得到有:

偏度的衡量是相对于正态分布来说,正态分布的偏度为0,即若数据分布是对称的,偏度为0。若偏度大于0,则分布右偏,即分布有一条长尾在右;若偏度小于0,则分布为左偏,即分布有一条长尾在左(如下图);同时偏度的绝对值越大,说明分布的偏移程度越严重。

【注意】数据分布的左偏或右偏,指的是数值拖尾的方向,而不是峰的位置。

(2) 峰度(Kurtosis)

峰度,是研究数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据相对于正态分布而言是更陡峭还是平缓。比如正态分布的峰度为0,均匀分布的峰度为-1.2(平缓),指数分布的峰度为6(陡峭)。

峰度,定义为四阶中心距除以方差的平方减3。

若峰度≈0,分布的峰态服从正态分布;

若峰度>0,分布的峰态陡峭(高尖);

若峰度<0,分布的峰态平缓(矮胖);

2、 正态性检验

利用变量的偏度和峰度进行正态性检验时,可以分别计算偏度和峰度的Z评分(Z-score)。

偏度Z-score = 偏度值 ÷偏度值的标准差

峰度Z-score = 峰度值 ÷峰度值的标准差

在α=0.05的检验水平下,偏度Z-score和峰度Z-score是否满足假设条件所限制的变量范围,若都满足则可认为服从正态分布,若一个不满足则认为不服从正态分布。

3、 正态性检验的适用条件

样本的增加会减小偏度值和峰度值的标准差,相应的Z-score会变大,最终会拒绝条件假设,会给正确判断样本数据的正态性情况造成一定的干扰。因此,当样本量小于100时,用偏度和峰度来判断样本的正态分布性比较合理。

4、 SPSS结果分析

峰度Z-score = 5.166/0.425 > Z(α),α=0.05;因此该特征不符合正态分布。

参考:

https://www.sohu.com/a/125526669_609133

https://www.sohu.com/a/140979052_489312

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

偏度与峰度的正态性分布判断相关推荐

  1. 用 BOX-COX 变换进行数据正态性处理

    笔者之前写了题为<用Python讲解偏度和峰度>的文章,在那篇文章里,笔者介绍了偏度.峰度以及如何基于二者进行数据正态性的判断,而今天笔者将介绍一下如何将数据进行正态性转换. 在我们进行数 ...

  2. 【应用统计学】分布的偏度和峰度

    一.统计动差 统计动差又称为矩,可以分为原点动差和中心动差. 二.偏度 偏度(skewness)也称为偏态.偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征.如果分布是 ...

  3. skewness and kurtosis偏态和峰度的解释和演示、数据的偏度和峰度——df.skew()、df.kurt()

    skewness (偏态) 正偏态分布(positive skewness distribution)是指频数分布的高峰偏于左侧,偏态系数为正值的频数分布形态.偏态分布分为正偏态和负偏态.当均值大于众 ...

  4. 金融数据分析(四)-------矩,偏度,峰度

    (1)矩 (2)--偏度+峰度   原文链接: 「量学堂-12」统计动差:偏度和峰度 https://baijiahao.baidu.com/s?id=1569732797373513&wfr ...

  5. python求偏度系数_用 Python 讲解偏度和峰度

    之前笔者在做一个金融数据项目时,有朋友问我,衡量股票收益率有没有什么好的方法.这个问题让笔者也思索了好久,其实股票的收益率如果我们从本质来看不就是数据吗,无非就是收益率我们就想让其越高越好,也就是让这 ...

  6. cif t t操作流程图_Danish:STATA 操作正态检验、卡方检验和T检验

    STATA 操作正态检验.卡方检验和T检验 图示和基本概念 Coef. :回归分析系数.在回归方程中表示自变量x 对因变量y 影响大小的参数.回归系数越大表示x 对y 影响越大. Std. Err.  ...

  7. matlab 正态输入信号,用matlab或者spss做正态检验(转载)

    2.5 总体分布正态性检验 进行参数估计和假设检验时,通常总是假定总体服从正态分布,虽然在许多情况下这个假定是合理的,但是当要以此为前提进行重要的参数估计或假设检验,或者人们对它有较大怀疑的时候,就确 ...

  8. 如何检验数据样本的正态性?

    正态分布是自然界中最常见的也是一种最重要的分布.因此,人们在使用统计分析方法时,总是乐于正态假定,但该假定是否成立,就需要进行正态性检验了. 定义: 指如果一组观测值来自正态总体.具有正态分布的特性, ...

  9. 如何把密度函数化为标准正态二维分布_高中就开始学的正态分布,原来如此重要...

    选自Medium 作者:Farhad Malik 机器之心编译 参与:李诗萌.张倩 我们从高中就开始学正态分布,现在做数据分析.机器学习还是离不开它,那你有没有想过正态分布有什么特别之处?为什么那么多 ...

最新文章

  1. IIS7.5 HTTP 错误 500 调用loadlibraryex失败的解决方法
  2. 77所教育部直属高校公布2020年预算,清华超300亿!
  3. 看我用汉语编程(汉语Visual Basic编程软件发布)
  4. [Luogu] P4198 楼房重建
  5. 十六、“心念田园穿古镇,足踏古岸望潭汀。”(2021.5.15)
  6. SAP CRM和C4C的产品主数据price维护
  7. Centos7更新 SQLite3至版本3.29.0
  8. linux中timer的作用,linux - linux / timer.h setup_timer()到期功能不起作用? - 堆栈内存溢出...
  9. oracle 查看服务器密码修改,如何修改oracle用户密码
  10. SQL Server 2016 新功能之综述
  11. NGUI中的Table自定义排序
  12. Row generator
  13. 开启memcached日志
  14. m4s格式转换mp3_amr转换mp3格式文件
  15. 【新手】网络拓扑图要这样画
  16. 裸金属服务器跟云服务器区别有哪些?裸金属应用在哪些场景中?
  17. 帆软 大屏BI模板(含报表滚动,图表联动等)下载
  18. Photoshop设计网站原型图
  19. 动态代理[JDK]机制解析
  20. 我,35岁程序员,离职前是这么做的

热门文章

  1. 100+Python编程题给你练~(附答案)
  2. 干货 | 转型人工智能,你需要掌握的八大神经网络
  3. 深度学习框架哪家强?MXNet称霸CNN、RNN和情感分析,TensorFlow仅擅长推断特征提取
  4. 神经网络要从原子抓起:原来白花花的银子才是神经芯片的未来
  5. 字节跳动一面:i++ 是线程安全的吗?
  6. 浅析 VO、DTO、DO、PO 的概念、区别和用处!
  7. 盘点开发中那些常用的MySQL优化
  8. 你知道为什么Java的main方法必须是public static void?
  9. 【廖雪峰python入门笔记】tuple_“元素可变”
  10. LSTM之父:吐槽了两年,来划划重点:“这5篇最高引论文都源于我们。”