前一篇说了卡方分布的定义和来由,以及卡方统计量,这次介绍下如何像卡尔·皮尔逊(Karl·Pearson)一样通过卡方统计量来做分布拟合优度检验Goodness-of-fit Test for Distribution

  • 卡方检验:

先来回顾一下卡尔·皮尔逊(Karl·Pearson)所提出的卡方统计量:数据的分布与理想分布之间的差异的度量,

其中:

  • fo为实际观测的频度Observed Frequency
  • fe为期望的事件频度Expected Frequency

从卡方统计量的公式可以得出,如果观测的结果与期望的完全一致则χ2 = 0,说明拟合度处于完美情况;当χ2大到一定程度时,也就是累计卡方贡献度超出设定的置信度范围(通常默认为α = 0.05,置信度为1 - α = 95%),就可以得到统计意义上显著差异的结论,所以卡方检验通常采用的是右尾检验。

另外,卡方检验的原假设和备择假设为:

- H0:观测频度分布与期望频度分布没有差异- Ha:观测频度分布与期望频度分布存在差异

如下图所示为df = 5时,χ2判定的临界值为11.07:

  • 当实际χ2 < 11.07, 右尾检验P-value > 0.05, 卡方检验结论为H0成立。
  • 当实际χ2 > 11.07, 右尾检验P-value < 0.05, 卡方检验结论为Ha成立

由于卡方分布取决于自由度,按照常用的α = 0.05,可以得到χ2 临界值(Excel公式:=ChiInv(α,df))与自由度的相关曲线,接近于线性。

  • 分布拟合优度检验χ2 Goodness-of-fit Test for Distribution:

我们通过投骰子的练习来理解如何用卡方统计量进行分布拟合检验。一个骰子有六个面,每次扔出来的点数在理论上是服从1 ~ 6的均匀分布。

步骤一:生成模拟数据。

先通过“Excel命令:数据>>数据分析”来生成100个1~6的随机均匀分布数据,然后用Round(data,0)命令将小数点后的尾数给四舍五入掉(非常时期在家窝着没事,也可以自己拿骰子扔个100次,然后将点数记录下来),我们记为fo

步骤二:对观测数据进行频次汇总fo,并计算对应分类的概率Probo以及累计概率Cumo

步骤三:计算均匀分布在对应分类的期望发生频次fe、事件概率Probe和累计概率Cume

步骤四:计算每一个分类的卡方统计量的贡献度。

步骤五:进行卡方检验。

这里需要注意的是自由度是根据分类数n来的,不是Ndf = n – 1 = 5;同时由于卡方检验为右尾检验,故 ExcelP-value计算公式为 = 1 – ChiDist(χ2, df, 1) = 0.310 > α = 0.05,结论为假设H0成立,该数据分布经分布拟合优度检验后服从均匀分布。

步骤六:观测值vs.期望值柱状图和概率图分析:

结合步骤四和步骤五的计算过程拟合优度检验的逻辑来看,是不是和方差分析、最小二乘法有异曲同工之处?(fo - fe)2 与离差平方(xi - xbar)2χ2 = ∑χi2 → 0∑εi2 → 0得到最完美无偏差模型。只不过一个是用在离散数据上,一个是用在连续型数据上。

这个例题我们也可以使用MiniTAB来检验是否服从均匀分布。“MiniTAB命令:统计>>表格>>卡方拟合优度检验(单变量)...”,检验里选择“相等比率”。

  • 泊松分布的卡方拟合优度检验:

估计不少同学会说我用过泊松分布的卡方拟合优度检验,没用过均匀分布的卡方拟合优度检验。这里逻辑其实都是一样的,把期望的fe、Probe、Cume按照泊松分布的概率公式来计算就好了,具体过程就不细说了。

“MiniTAB命令:统计>>基本统计量>>Poisson分布的拟合优度检验...”

最后,同学们思考一下,可不可以通过卡方拟合优度检验的方法来判断一组连续型数据是否服从正态分布?

- Jeff整理于2020/02/02

[完]

微信公众号:Jeff_LSS

2×3卡方检验prism_抽样分布之卡方分布02 – 分布拟合优度检验相关推荐

  1. 概论第6章_正态总体的抽样分布_卡方分布_F分布_t分布

    一 卡方分布 定义 设 X 1 , X 2 , . . . , X n X_1, X_2,..., X_n X1​,X2​,...,Xn​ 独立同分布于标准正态分布N(0, 1), 则 χ 2 = X ...

  2. 2×3卡方检验prism_分类变量的相关性:五分钟掌握卡方检验「从理论到Python实战」...

    卡方检验 当衡量两个连续变量间的线性关系时,我们可以使用Pearson相关系数.那么当我们面对的数据是两个分类变量呢?没错,看过下面这张图的应该还记得,我们可以用列联表结合卡方检验来分析分类变量间的相 ...

  3. 2×3卡方检验prism_卡方独立性检验原理

    这篇文章主要讲了两个部分,一个是卡方检验的推导,一个是卡方检验应该取多少样本量. 卡方独立性检验是为了检验两个变量是否独立,我们先来回顾一下卡方独立性检验的流程: 1.统计列联表,计算观察值: 表一 ...

  4. 2×3卡方检验prism_卡方检验2python代码实现

    统计学,风控建模经常遇到卡方分箱算法ChiMerge.卡方分箱在金融信贷风控领域是逻辑回归评分卡的核心,让分箱具有统计学意义(单调性).卡方分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别 ...

  5. 2×3卡方检验prism_卡方检验在实际工作中的应用

    卡方检验是以χ2分布为基础的一种常用假设检验方法,统计样本的实际观测值与理论推断值之间的偏离程度,主要在分类数据资料统计推断中应用. 在电商平台中,广告图到处可见,引起用户兴趣,为商品或者店铺带去流量 ...

  6. 2×3卡方检验prism_卡方检验(最强总结)

    卡方检验最全总结 原创 Gently spss学习乐园 2019-05-28 卡方检验 我们通常采用T检验或方差分析来分析两个或多个样本总体均数之间的差异,但对于分类(定性)变量则采用非参数检验.其中 ...

  7. 2×3卡方检验prism_戏说卡方检验

    可以这样说,卡方检验是临床科研中最常用的统计学方法,没有之一.当然,卡方检验并不仅仅是我们常见的四格卡方检验形式,还有配对卡方检验.R×C列表卡方检验.分层卡方检验等.其中R×C卡方检验又分为双向无序 ...

  8. 2×3卡方检验prism_【SPSS数据分析】方差分析之多因素方差分析(3)Graphpad Prism绘制简单效应折线图...

    在上一期中我们详细的讲解了多因素方差分析中简单效应的SPSS操作方法,以及数据分析结果的解读.今天我们进一步讲解如何对简单效应的成对比较进行统计图形的绘制. 用到的是统计绘图软件GraphPad Pr ...

  9. [DataAnalysis]参数假设检验和分布拟合检验

    假设检验分为参数假设检验和分布拟合假设检验和分参数检验 一.假设检验的思想: 1.建立假设 2.选择检验统计量并给出拒绝域形式 3.选择显著性水平 4.给出拒绝域 5.做出判断 二.p值:利用样本观测 ...

最新文章

  1. 【Unity】publishing setting keystore作用
  2. Zxing二维码开源项目
  3. 【C语言】局部变量、全局变量,局部静态变量,全局静态变量,extern,static的区别...
  4. 【错误记录】Ubuntu 修改 hosts 文件 ( 使用 gedit /etc/hosts 命令打开并修改 hosts 文件 )
  5. UA MATH567 高维统计II 随机向量11 kernel的构造 用内积替换反三角函数
  6. 学计算机的男孩子怎么追女孩子,男孩子追女孩子的套路,原来有这么多,快来学一学...
  7. Steeltoe之Config客户端篇
  8. html页面根据分辨率缩放,html2Canvas根据不同分辨率,生成pdf内容自适应
  9. 帧内16*16模式的宏块数据传输顺序
  10. matlab单机带负荷系统模型,用MATLAB仿真实现电力系统静态稳定性分析
  11. 偏差-方差分解 Bias-Variance Decomposition(转载)
  12. IDEA插件jrebel的配置使用
  13. Ruby之父松本行弘:编程是可以干一辈子的
  14. 联想电脑 Windows10 20H2 32位64位 专业版 V2021【OEM原版镜像】
  15. 发现隐患里的自己,原来我是**人!
  16. 去哪儿笔试:身份证分组
  17. 使用 arp-scan 快速扫描局域网 IP -> raspberry pi ssh vnc
  18. 充电站网络安全风险危及电动汽车普及
  19. 让你瞬间理解HTTP状态码
  20. 网络安全——数据库基础知识

热门文章

  1. SD-WAN网络加速,开通游戏快车道
  2. Version 28 (intended for Android Pie and below) is the last version of the legacy support library, s
  3. C#开发ActiveX控件及指纹采集
  4. 括号画家(括号匹配)
  5. python练习题19:四叶玫瑰数
  6. 3.2 数值分析: Jacobi与Gauss-Seidel迭代法
  7. Python工程师是做什么的?如何学习Python
  8. Neo4j 学习笔记 1:属性图
  9. myeclipse10 用破解补丁或注册机不能成功破解原因解析
  10. U盘显示文件或目录损坏且无法读取(U盘提示无法访问解决方法)