2018博客之星评选,如果喜欢我的文章,请投我一票,编号:No.009 支持连接 ,万分感谢!!!

python 检验数据分布,KS-检验(Kolmogorov-Smirnov test) – 检验数据是否符合某种分布
Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max| f(x)- g(x)|,当实际观测值D>D(n,α)则拒绝H0,否则则接受H0假设。
KS检验与t-检验之类的其他方法不同是KS检验不需要知道数据的分布情况,可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布事,KS检验的灵敏度没有相应的检验来的高。在样本量比较小的时候,KS检验最为非参数检验在分析两组数据之间是否不同时相当常用。
PS:t-检验的假设是检验的数据满足正态分布,否则对于小样本不满足正态分布的数据用t-检验就会造成较大的偏差,虽然对于大样本不满足正态分布的数据而言t-检验还是相当精确有效的手段。
KS检验是如何工作的?

首先观察下分析数据
对于以下两组数据:
controlB={1.26, 0.34, 0.70, 1.75, 50.57, 1.55, 0.08, 0.42, 0.50, 3.20, 0.15, 0.49, 0.95, 0.24, 1.37, 0.17, 6.98, 0.10, 0.94, 0.38}
treatmentB= {2.37, 2.16, 14.82, 1.73, 41.04, 0.23, 1.32, 2.91, 39.41, 0.11, 27.44, 4.51, 0.51, 4.50, 0.18, 14.68, 4.66, 1.30, 2.06, 1.19}
对于controlB,这些数据的统计描述如下:
Mean = 3.61
Median = 0.60
High = 50.6 Low = 0.08
Standard Deviation = 11.2
可以发现这组数据并不符合正态分布, 否则大约有15%的数据会小于均值-标准差(3.61-11.2),而数据中显然没有小于0的数。

观察数据的累计分段函数(Cumulative Fraction Function)
对controlB数据从小到大进行排序:
sorted controlB={0.08, 0.10, 0.15, 0.17, 0.24, 0.34, 0.38, 0.42, 0.49, 0.50, 0.70, 0.94, 0.95, 1.26, 1.37, 1.55, 1.75, 3.20, 6.98, 50.57}。10%的数据(2/20)小于0.15,85%(17/20)的数据小于3。所以,对任何数x来说,其累计分段就是所有比x小的数在数据集中所占的比例。下图就是controlB数据集的累计分段图

可以看到大多数数据都几种在图片左侧(数据值比较小),这就是非正态分布的标志。为了更好的观测数据在x轴上的分布,可以对x轴的坐标进行非等分的划分。在数据都为正的时候有一个很好的方法就是对x轴进行log转换。下图就是上图做log转换以后的图:
将treatmentB的数据也做相同的图(如下),可以发现treatmentB和controlB的数据分布范围大致相同(0.1 - 50)。但是对于大部分x值,在controlB数据集中比x小的数据所占的比例比在treatmentB中要高,也就是说达到相同累计比例的值在treatment组中比control中要高。KS检验使用的是两条累计分布曲线之间的最大垂直差作为D值(statistic D)作为描述两组数据之间的差异。在此图中这个D值出现在x=1附近,而D值为0.45(0.65-0.25)。

值得注意的是虽然累计分布曲线的性状会随着对数据做转换处理而改变(如log转换),但是D值的大小是不会变的。
3.百分比图(percentile plot)
估算分布函数肩形图(Estimated Distribution Function Ogive)是一种累计分段图的替代方式。其优势在于可以让你使用概率图纸作图(坐标轴经过特殊分段处理,y轴上的数值间隔符合正态分布),从而根据概率在y轴上的分布可以直观的判断数据到底有多符合正态分布,因为正态分布的数据在这种坐标上是呈一条直线。
那么这种图是如何画的呢?
假设我们有这5个数{-0.45, 1.11, 0.48, -0.82, -1.26},从小到大对它们进行排序,{ -1.26, -0.82, -0.45, 0.48, 1.11 }。0.45是中位数,百分比为0.5,而0.45的累计分布函数中占了0.4到0.6的区间。根据数据x在数据集(N)中排位r可以计算x的百分数(percentile)为r/(N+1)。将上述数据与他们的百分数配对,得到{ (-1.26,.167), (-0.82,.333), (-0.45,.5), (0.48,.667), (1.11,.833) }。然后将各点之间用直线连接就是百分比图了。如下图中红线所示(另一条线为累计分段曲线)。

treatmentB的数据近似对数正态分布,其几何均值为2.563,标准差为6.795。该数据的百分图(红)与其近似的对数正态分布曲线(蓝)如下。

由于数据近似正态分布,所以对其采用t-检验是最佳的检验方法。

如何使用KS检验
在R中可以使用ks.test()函数。

与类似的分布检验方式比较

经常使用的拟合优度检验和Kolmogorov-Smirnov检验的检验功效较低,在许多计算机软件的Kolmogorov-Smirnov检验无论是大小样本都用大样本近似的公式,很不精准,一般使用Shapiro-Wilk检验和Lilliefor检验。
Kolmogorov-Smirnov检验只能检验是否一个样本来自于一个已知样本,而Lilliefor检验可以检验是否来自未知总体。
Shapiro-Wilk检验和Lilliefor检验都是进行大小排序后得到的,所以易受异常值的影响。
Shapiro-Wilk检验只适用于小样本场合(3≤n≤50),其他方法的检验功效一般随样本容量的增大而增大。
拟合优度检验和Kolmogorov-Smirnov检验都采用实际频数和期望频数进行检验,前者既可用于连续总体,又可用于离散总体,而Kolmogorov-Smirnov检验只适用于连续和定量数据。
拟合优度检验的检验结果依赖于分组,而其他方法的检验结果与区间划分无关。
参考链接:
http://www.physics.csbsju.edu/stats/KS-test.html
http://blog.sina.com.cn/s/blog_403aa80a01019ly5.html

https://www.cnblogs.com/chaosimple/p/4090456.html

python KS-检验(Kolmogorov-Smirnov test) -- 检验数据是否符合某种分布相关推荐

  1. python ks检验_python KS-检验(Kolmogorov-Smirnov test) -- 检验数据是否符合某种分布...

    python 检验数据分布,KS-检验(Kolmogorov-Smirnov test) – 检验数据是否符合某种分布 Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x) ...

  2. python非参数检验的区别_python KS-检验(Kolmogorov-Smirnov test) -- 检验数据是否符合某种分布...

    python 检验数据分布,KS-检验(Kolmogorov-Smirnov test) – 检验数据是否符合某种分布 Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x) ...

  3. KS-检验(Kolmogorov-Smirnov test) -- 检验数据是否符合某种分布

    Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法.其原假设H0:两个数据分布一致或者数据符合理论分布.D=max| f(x)- g(x)|, ...

  4. 柯尔莫可洛夫-斯米洛夫检验(Kolmogorov–Smirnov test,K-S test)

    柯尔莫哥洛夫-斯米尔诺夫检验(Колмогоров-Смирнов检验)基于累计分布函数,用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同. 在进行cumulative probab ...

  5. ks检验正态分布结果_KS检验及其在机器学习中的应用

    KS检验及其在机器学习中的应用 什么是KS检验 Kolmogorov–Smirnov 检验,简称KS检验,是统计学中的一种非参数假设检验,用来检测单样本是否服从某一分布,或者两样本是否服从相同分布.在 ...

  6. Kolmogorov–Smirnov test

    柯尔莫可洛夫-斯米洛夫检验(K-S test) 在统计学中,柯尔莫可洛夫-斯米洛夫检验基于累计分布函数,用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同. 在进行累计概率(cumul ...

  7. python ks检验_在python scipy中实现Kolmogorov Smirnov检验

    您的数据是以mu = 0.07和sigma = 0.89生成的. 您正在使用平均值0和标准偏差1的正态分布来测试此数据. 零假设(H0)是您的数据是样本的分布等于标准正态分布,平均值为0,标准偏差为1 ...

  8. matlab的k s检验,K-S 检验(Kolmogorov–Smirnov  kurtosis-skewness)

    本文与普通的讲述 K-S 检验的文章略有不同,分为两部分: (1). 针对大部分分布的 Kolmogorov–Smirnov 检验(真正的K-S检验) (2). 仅适用于高斯分布的基于分布曲线形状的  ...

  9. Kolmogorov–Smirnov test(K-S检验)

    20220502:已经很长时间不用 CSDN 写博客了,今天偶然看到自己以前写的这篇,发现存在一些错误和讲的不清楚的地方,修改一下以免误人子弟.(当然可能改后还是有错的,请读者不要尽信,如果实在不能理 ...

最新文章

  1. JDK1.8新特性之时间和日期的使用
  2. 小程序 返回多条图文,类似新闻或者博客的展示,其中遇到的bug
  3. JMS学习十 ActiveMQ支持的传输协议
  4. ue4 运行禁用鼠标_从零开始——三:关闭电脑无用服务提高运行速度
  5. 聊一聊 java8 中的 Optional
  6. 重新学习操作系统的知识
  7. c++ maps使用
  8. mysql64位机安装和配置_MySQL学习第二天 安装和配置mysql winx64
  9. DOM-window下的常用子对象-location-刷新页面
  10. .net程序逆向之de4dot的使用
  11. 解决SAP PI Cluster系统故障
  12. 计算机导论课程思政,《计算机导论》课程教学中的思政教育.doc
  13. 三阶矩阵的lu分解详细步骤_lu分解(笔算矩阵lu分解步骤)
  14. tp交换机管理页面_tplink交换机设置步骤使用方法
  15. 四色定理java_四色定理中公理的证明
  16. 4k纸是几厘米乘几厘米_几厘米?4k的纸多大?
  17. Win10问题篇之——WIN2016和WIN10关闭同步主机服务,节省磁盘频繁读取,并关闭自动维护
  18. 一招教你如何提高分销平台分账效率
  19. buu刷题记录 [PWNHUB 公开赛 2018]傻 fufu 的工作日
  20. 牛人整理的一些查询国内外文献资料的实用网站,专业啊,吐血推荐!

热门文章

  1. 启用Kerberos后,如何使用Tez UI
  2. 微信公众平台开发过程
  3. 多彩HUAWEI nova 2系列手机炫丽亮相 自拍功能抢眼
  4. 数据库String字符串
  5. 灰色预测模型及其代码
  6. 云原生到底是什么?一文了解云原生四要素!
  7. 利用python进行数据分析学习笔记
  8. 【Python数据分析与可视化】期末复习笔记整理(不挂科)
  9. 笨方法学Python3复习
  10. 设为首页,收藏本站代码