假设检验：为什么是卡方分布？

基本原理
检验流程
实例
参考资料

卡方检验作为广为使用的假设检验方法，其在目前进行数据分析时的使用频率简直不要太多，但许多博文在介绍时仅焦距于展现公式与典型实例，缺乏从 需要解决什么问题 - 如何解决相应问题 的角度进行解释。近期看了些卡方分布与卡方检验的相关博文，希望可以从另一个方向理解这两个内容，也借机梳理一下其间的逻辑，如有不足之处还请指正。

基本原理

让我们由果溯因，首先从卡方检验的作用开始说起。作为常用的假设检验方法，卡方检验（Chi-Square Test）希望衡量样本所代表的实际情况与理论假设间的差异性。比如想判断喝牛奶对感冒发病率有无影响，而假设两者间并无影响，就需要作出由假设而得到的理论四格表，并将其与样本统计获得的四格表作对比，判断两个表格之间存在的差异性。

由此产生的第一个问题是，如何衡量两者之间的差异性？

毫无疑问，此处需要使用卡方检验计算公式，即著名的Pearson χ2\chi ^2χ2 ，先上公式：

χ2=∑(A−E)2E=∑i=1k(Ai−npi)2npi\chi ^2 =\sum \frac{(A-E)^2}{E}= \sum_{i=1}^{k}\frac{(A_i-np_i)^2}{np_i} χ2=∑E(A−E)2=i=1∑knpi(Ai−npi)2
式中，AiA_iAi 为 iii水平的观察频数，EiE_iEi 为 iii水平的期望频数，nnn为总频数，pip_ipi 为 iii水平的期望频率。卡方检验计算公式所做的，可理解为将样本数据与期望数据对应的数值求解残差平方和，而展现两者的差异程度（并不严谨）。至于分母上的 npinp_inpi ，个人理解是归一化因子，即通过同时除以 npinp_inpi 以获得相对误差。

接下来对卡方校验的理解需要涉及置信度与卡方分布，在这里简单介绍一下：

置信水平，通俗的讲，就是样本落在某分布一定区间内的概率大小，而此区间也称为置信区间。置信度的概念与置信水平类似，为样本落在置信区间外的概率大小。下图是正态分布的 3σ3\sigma3σ 原则中，每个 ±nσ\pm n\sigma±nσ 置信区间所对应的置信水平。真正使用时，我们既可以如 3σ3\sigma3σ 原则一样固定置信区间，观察随之对应的置信水平，也可以固定置信水平，观察随之对应的置信区间大小（如.95置信间距，.99置信间距）。

将置信度的概念应用于假设检验时，我们利用它判断样本的分布情况是否符合我们的假设所形成的分布。以正态分布为例：假设我们认为某一样本符合标准正态分布，即其均值 μ=0\mu = 0μ=0 , 方差 σ=1\sigma = 1σ=1 ，置信水平定为95.44%，即期望置信水平所对应的置信区间为2。实际采样时，样本会随机落在样本区间的各个位置，而根据假设，其理应在同样的置信水平时置信区间相似。若采样样本仅有少部分处于置信区间之外，使大于等于95.44%的样本落在区间在[-2,2]的区域中，我们则可以理所应当的认为这些样本的存在是受随机性影响导致；而若相反，我们就有理由相信“该样本符合标准正态分布的假设”是存在问题的！

而卡方分布（Chi-Square Distribution）作为连接样本差异性与置信区间估计的桥梁，就可以在这时发挥关键作用啦！

卡方分布的定义为：由 nnn 个独立标准正态分布随机变量的平方和所构成新的随机变量的分布规律，即：
X=∑i=1nxi2∼χ2(k)X=\sum_{i=1}^{n}x_{i}^{2} \sim \chi^2(k) X=i=1∑nxi2∼χ2(k)
其中， kkk 为分布的自由度，若无自由度限制时有 k=nk=nk=n。
卡方分布的概率密度曲线为：

同样的，也可将置信度与置信区间的概念应用于卡方分布：

问题到这里其实已经解决了。针对目标的样本数据与假设得到的期望数据，若建立的假设是正确的，卡方检验则认为样本数据与期望数据之间的差异性仅受随机噪声影响。因此，若这个噪声服从标准正态分布，则噪声样本的平方和也同样服从卡方分布。前面我们已经提到，在我们对某事件进行假设后，卡方校验公式会使用观察数 AAA 与期望数 EEE 求解残差平方和，并对数值进行归一化，而由此得到的数据 XXX 其实就是白噪声的平方和。确定分布自由度与置信水平大小后，通过查表，我们就可以获得一般的高斯白噪声所应处于的置信区间范围，即得到的数值为上图所示的 χ2\chi ^2χ2。将我们的假设计算值与 χ2\chi ^2χ2 作对比，就可知道计算值是否处于该区间内。若显著水平选择0.05，而 X≤χ2X \leq \chi ^2X≤χ2 时，则可接受该假设，并认为该假设成立的概率在 95%以上；若 X>χ2X > \chi ^2X>χ2，则拒绝该假设，认为这个假设并不成立。

检验流程

上文就是卡方分布的基本原理，现在我们重新梳理一下进行卡方检验的计算流程：

1.获得数据；

2.根据研究目标与数据特征进行假设

3.依据假设计算假设期望

4.使用卡方检验公式，计算残差平方和

5.选择置信水平，并根据置信水平与自由度查表得到临界值

6.对比残差平方和与临界值，判断假设是否成立

实例

例子太多，一搜一大把，在这里就不展开了。对着例子对比推导过程，卡方检验的原理就会非常清晰了。

参考资料

https://wiki.mbalib.com/wiki/卡方检验

https://www.jianshu.com/p/bb0bd72bc428