假设检验:为什么是卡方分布?
假设检验:为什么是卡方分布?
- 基本原理
- 检验流程
- 实例
- 参考资料
卡方检验作为广为使用的假设检验方法,其在目前进行数据分析时的使用频率简直不要太多,但许多博文在介绍时仅焦距于展现公式与典型实例,缺乏从 需要解决什么问题 - 如何解决相应问题 的角度进行解释。近期看了些卡方分布与卡方检验的相关博文,希望可以从另一个方向理解这两个内容,也借机梳理一下其间的逻辑,如有不足之处还请指正。
基本原理
让我们由果溯因,首先从卡方检验的作用开始说起。作为常用的假设检验方法,卡方检验(Chi-Square Test)希望衡量样本所代表的实际情况与理论假设间的差异性。比如想判断喝牛奶对感冒发病率有无影响,而假设两者间并无影响,就需要作出由假设而得到的理论四格表,并将其与样本统计获得的四格表作对比,判断两个表格之间存在的差异性。
由此产生的第一个问题是,如何衡量两者之间的差异性?
毫无疑问,此处需要使用卡方检验计算公式,即著名的Pearson χ2\chi ^2χ2 ,先上公式:
χ2=∑(A−E)2E=∑i=1k(Ai−npi)2npi\chi ^2 =\sum \frac{(A-E)^2}{E}= \sum_{i=1}^{k}\frac{(A_i-np_i)^2}{np_i} χ2=∑E(A−E)2=i=1∑knpi(Ai−npi)2
式中,AiA_iAi 为 iii水平的观察频数,EiE_iEi 为 iii水平的期望频数,nnn为总频数,pip_ipi 为 iii水平的期望频率。卡方检验计算公式所做的,可理解为将样本数据与期望数据对应的数值求解残差平方和,而展现两者的差异程度(并不严谨)。至于分母上的 npinp_inpi ,个人理解是归一化因子,即通过同时除以 npinp_inpi 以获得相对误差。
接下来对卡方校验的理解需要涉及置信度与卡方分布,在这里简单介绍一下:
置信水平,通俗的讲,就是样本落在某分布一定区间内的概率大小,而此区间也称为置信区间。置信度的概念与置信水平类似,为样本落在置信区间外的概率大小。下图是正态分布的 3σ3\sigma3σ 原则中,每个 ±nσ\pm n\sigma±nσ 置信区间所对应的置信水平。真正使用时,我们既可以如 3σ3\sigma3σ 原则一样固定置信区间,观察随之对应的置信水平,也可以固定置信水平,观察随之对应的置信区间大小(如.95置信间距,.99置信间距)。
将置信度的概念应用于假设检验时,我们利用它判断样本的分布情况是否符合我们的假设所形成的分布。以正态分布为例:假设我们认为某一样本符合标准正态分布,即其均值 μ=0\mu = 0μ=0 , 方差 σ=1\sigma = 1σ=1 ,置信水平定为95.44%,即期望置信水平所对应的置信区间为2。实际采样时,样本会随机落在样本区间的各个位置,而根据假设,其理应在同样的置信水平时置信区间相似。若采样样本仅有少部分处于置信区间之外,使大于等于95.44%的样本落在区间在[-2,2]的区域中,我们则可以理所应当的认为这些样本的存在是受随机性影响导致;而若相反,我们就有理由相信“该样本符合标准正态分布的假设”是存在问题的!
而卡方分布(Chi-Square Distribution)作为连接样本差异性与置信区间估计的桥梁,就可以在这时发挥关键作用啦!
卡方分布的定义为:由 nnn 个独立标准正态分布随机变量的平方和所构成新的随机变量的分布规律,即:
X=∑i=1nxi2∼χ2(k)X=\sum_{i=1}^{n}x_{i}^{2} \sim \chi^2(k) X=i=1∑nxi2∼χ2(k)
其中, kkk 为分布的自由度,若无自由度限制时有 k=nk=nk=n。
卡方分布的概率密度曲线为:
同样的,也可将置信度与置信区间的概念应用于卡方分布:
问题到这里其实已经解决了。针对目标的样本数据与假设得到的期望数据,若建立的假设是正确的,卡方检验则认为样本数据与期望数据之间的差异性仅受随机噪声影响。因此,若这个噪声服从标准正态分布,则噪声样本的平方和也同样服从卡方分布。前面我们已经提到,在我们对某事件进行假设后,卡方校验公式会使用观察数 AAA 与期望数 EEE 求解残差平方和,并对数值进行归一化,而由此得到的数据 XXX 其实就是白噪声的平方和。确定分布自由度与置信水平大小后,通过查表,我们就可以获得一般的高斯白噪声所应处于的置信区间范围,即得到的数值为上图所示的 χ2\chi ^2χ2。将我们的假设计算值与 χ2\chi ^2χ2 作对比,就可知道计算值是否处于该区间内。若显著水平选择0.05,而 X≤χ2X \leq \chi ^2X≤χ2 时,则可接受该假设,并认为该假设成立的概率在 95%以上;若 X>χ2X > \chi ^2X>χ2,则拒绝该假设,认为这个假设并不成立。
检验流程
上文就是卡方分布的基本原理,现在我们重新梳理一下进行卡方检验的计算流程:
1.获得数据;
2.根据研究目标与数据特征进行假设
3.依据假设计算假设期望
4.使用卡方检验公式,计算残差平方和
5.选择置信水平,并根据置信水平与自由度查表得到临界值
6.对比残差平方和与临界值,判断假设是否成立
实例
例子太多,一搜一大把,在这里就不展开了。对着例子对比推导过程,卡方检验的原理就会非常清晰了。
参考资料
https://wiki.mbalib.com/wiki/卡方检验
https://www.jianshu.com/p/bb0bd72bc428
假设检验:为什么是卡方分布?相关推荐
- 卡方分布、F分布、t分布和正态分布的关系
这三个分布都是基于正态分布变形得到的,在实际中只能用来做假设检验.比如卡方分布(chi-square distribution, χ²-distribution,或写作χ²分布),已知样本X都是服从正 ...
- python数据分析 - T检验与F检验:二组数据那个更好?(一)
T检验,F检验 1.导语 2.假设检验 2.1 原假设与备择假设 2.2 接受域与拒绝域 2.3 两类错误 3.单样本的假设检验 3.1 选择零假设和对立假设 3.2 选择显著水平α 3.3 决定检验 ...
- 假设检验_python 重点
在统计学中,存在着数百种假设检验.而在数据分析.机器学习项目中,只有一小部分较常使用.本文介绍了17种常用的假设检验,包括适用场景及使用Python API的例子.让我们一起来学习吧! 正态分布检验 ...
- R假设检验之Jarque-Bera检验(Jarque-Bera Test)
R假设检验之Jarque-Bera检验(Jarque-Bera Test) Jarque-Bera检验(Jarque-Bera test )是一种拟合优度检验,它确定样本数据是否具有与正态分布相匹配的 ...
- 单个正态总体均值的区间估计_假设检验09---单个正态总体参数的假设检验
一个正态总体方差的检验 设总体 , 未知. 总体方差 是用样本方差 来估计的.根据抽样分布理论,检验统计量: 服从 .( 分布表见附录四)给定显著性水平 ,则有: (1) 检验规则为:当 或 时拒绝 ...
- 基于单样本单统计推断-假设检验
目录 假设检验单的要素 假设检验中的概率 假设检验的步骤 1. 确定目标检验参数 2.确定原假设H0和备选假设Ha 3. 计算检验统计量 4. 根据显著性水平α确定拒绝域 5. 将检验统计量计算值与拒 ...
- 讲讲大厂面试必考的假设检验
上次写了统计学里面的置信度与置信区间以后,文章反响还不错,这次再来试着写写统计学里面的假设检验.点击查看:聊聊置信度与置信区间 假设检验的核心其实就是反证法.反证法是数学中的一个概念,就是你要证明一个 ...
- 如何证明服从卡方分布_谈谈抽样分布定理
各位阿娜答,这个月就更新了一篇文章,这都月底了,还有两次自荐机会没用,所以最后这几天要更两篇文章,大家敬请期待!明明是夏天,但却是个多事之秋啊~(ง •_•)ง 2020年注定是不平凡的一年,注定要发 ...
- 简明易懂的c#入门指南_统计假设检验的简明指南
简明易懂的c#入门指南 介绍 (Introduction) One of the main applications of frequentist statistics is the comparis ...
最新文章
- linux 服务搭建DNS
- 团队开发经验:如何带领一个项目团队并做好项目总结 !!
- 【深度学习】初识tensorflow之分布式训练
- 掌握XML系列(四)---创建格式良好的XML文档
- FTP协议的分析和扩展
- 计算机学院迎新活动总结,大学迎新活动总结
- GET请求与POST请求的区别
- 为什么现在的手机用4个摄像头?越来越难看。就不能只用一个摄像头吗?
- 去黑边_Vegas pro 17导入的素材有黑边咋进行去除的3种方法
- mysql 远程 更改
- 最新 android 机型,安卓11支持哪些机型,Android11适配机型一览
- 一行Python代码玩转emoji表情,已经玩坏了都...
- linux设置双屏拼接_Linux 与Windows(A卡、N卡)下折腾双屏、3屏拼接
- 《tensorflow实战》6——强化学习之策略网络
- nagios监控安装配置
- [渝粤教育] 西南科技大学 仓储与配送管理 在线考试复习资料
- PyQt5在窗口上显示动态图表
- 使用Arduino和蓝牙实现语音控制LED指示灯
- 深度学习之迁移学习介绍与使用
- 当外面的容器的height使用百分比时,如何设置line-height可以使里面的文字垂直居中