• 卡方检验;

卡方检验是一种用途很广的计数资料的假设检验方法。
它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。
其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;
多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

  • 卡方检验的核心思想:

    卡方检验是以χ2分布为基础的一种常用假设检验方法, 它的无效假设H0是:观察频数与期望频数没有差别。

    该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。
    根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。
    如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;
    否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。

  • 卡方值的计算与意义:

  χ2值表示观察值与理论值之问的偏离程度。计算这种偏离程度的基本思路如下。

  (1)设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差。

  (2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。

  (3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。

  进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ2,其计算公式为

\[\chi^{2}=\sum \frac{(A-E)^{2}}{E}=\sum_{i=1}^{K} \frac{\left(A_{i}-E_{i}\right)^{2}}{E_{i}}=\sum_{i=1}^{K} \frac{\left(A_{i}-n p_{i}\right)^{2}}{n p_{i}} \quad(i=1,2,3, \ldots, k) \]

  其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ei等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。

由卡方的计算公式可知,当观察频数与期望频数完全一致时,χ2值为0;观察频数与期望频数越接近,两者之间的差异越小,χ2值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,χ2值越大。换言之,大的χ2值表明观察频数远离期望频数,即表明远离假设。小的χ2值表明观察频数接近期望频数,接近假设。因此,χ2是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的

  • 卡方检验的样本量要求

  卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者间的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。

  • 适用于四格表应用条件:

  1. 随机样本数据。两个独立样本比较可以分以下3种情况:

(1)所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。(正常的Pearson检验)

(2)如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验。(校正的Pearson)

(3)如果有理论数T<1或n<40,则用Fisher’s检验。(如果判断的理论数的数量不符合Pearson卡方的条件,可以查看SAS给出的结果中的Fisher's检验)

  2. 卡方检验的理论频数不能太小。

  • R×C表卡方检验应用条件:

  (1)R×C表中理论数小于5的格子不能超过1/5;

  (2)不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。

  • 卡方检验最常见的用途就是考察某无序分类变量各水平在两组或多组间的分布是否一致实际上,除了这个用途之外.卡方检验还有更广泛的应用。具体而言,其用途主要包括以下几个方面:

  (1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。

  (2)检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。

  (3)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。

  (4)检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。

  (5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。

  • 步骤:

    (1) 原假设H0: 观察频数与期望频数无差别,;  备择假设H1: 2观察频数与期望频数有差别;

    (2)根据数据计算卡方值、P值(右尾面积); 若P值≤α,则拒绝H0; 若P值>α,则接受H0.

*2、* 下面对type 和origin 两个变量进行卡方检验;
* 解释一下产地不同的汽车类型是否有差异先假设没有差异;proc freq data=sashelp.cars;tables type*origin /chisq;
run;* 得到的结果概率值小于0.001 ,说明两者有显著性差异应该拒绝原假设。;
* 最终的结论:产地不同的汽车类型是有差异的。;
SAS Connection established. Subprocess id is 24590

SAS Output

The SAS System

The FREQ Procedure

Frequency
Percent
Row Pct
Col Pct

Table of Type by Origin
Type Origin
Asia Europe USA Total
Hybrid
3
0.70
100.00
1.90

0
0.00
0.00
0.00

0
0.00
0.00
0.00

3
0.70

SUV
25
5.84
41.67
15.82

10
2.34
16.67
8.13

25
5.84
41.67
17.01

60
14.02

Sedan
94
21.96
35.88
59.49

78
18.22
29.77
63.41

90
21.03
34.35
61.22

262
61.21

Sports
17
3.97
34.69
10.76

23
5.37
46.94
18.70

9
2.10
18.37
6.12

49
11.45

Truck
8
1.87
33.33
5.06

0
0.00
0.00
0.00

16
3.74
66.67
10.88

24
5.61

Wagon
11
2.57
36.67
6.96

12
2.80
40.00
9.76

7
1.64
23.33
4.76

30
7.01

Total
158
36.92

123
28.74

147
34.35

428
100.00

Statistics for Table of Type by Origin

Statistic DF Value Prob
Chi-Square 10 35.6659 <.0001
Likelihood Ratio Chi-Square 10 42.1254 <.0001
Mantel-Haenszel Chi-Square 1 0.0808 0.7762
Phi Coefficient   0.2887  
Contingency Coefficient   0.2773  
Cramer's V   0.2041  

Sample Size = 428

我们使用sas软件中预置的数据集cars,针对其中的两个变量Type和Origin进行卡方检验,原假设来自不同产地的汽车的类型相同,根据卡方检验给出的结果进行分析,样本的数量以及理论数的大小限制条件,满足卡方检验,自由度为10=(6-1)*(3-1), 得到的卡方值为35.6659,概率Porb为小于0.001,拒绝原假设H0,接受H1 来自不同产地的汽车的类型在95%的置信度下来源不一致。

方分布表

SAS统计初学1-卡方检验相关推荐

  1. SAS统计描述、作图与均值显著性检验

    1.掌握SAS统计量计算.频率分布等描述性统计操作: 2.掌握SAS常用统计图绘制过程步操作: 3. 学习SAS制表过程PROC REPORT: 4.掌握SAS样本均值显著性检验及区间估计的操作. 习 ...

  2. sas统计分析学习笔记(六)

    1.lag函数 LAG函数返回上次执行时的自变量值,而不是上一个观测值,下面例子能说明这个特点: DATA LAGGARD; INPUT X; IF X GT 5 THEN LAG_X=LAG(X); ...

  3. sas统计学习笔记(四)

    有时候列联表的情况很负责,比如某个因素的每个水平上都有一个2×2列联表,一种用于分析多层2×2表的方法是Mantel-Haenszel卡方统计量,这个技术有时也叫元分析.用sas软件计算分层表的卡方值 ...

  4. sas统计分析学习笔记(九)——方差分析

    1.简介 当数据多于两组时,T检验或者相应的非参数分析不再适应,这时需要使用方差分析. 2.单因素方差分析 零假设为所有组的均值相等,备择假设是不是所有平均数都相等.F=组间方差/组内方差=[组间平方 ...

  5. SPSS——定性资料的统计描述(卡方检验)

    ·使用相对数对资料进行描述(定性资料的统计描述) 数据格式:行变量(分组)+ 列变量(待测,分类变量) Crosstabs→Cells · 数据格式:行变量 + 列变量 + 频数(Weight Cas ...

  6. SPSS统计教程:卡方检验

    本文简要的介绍了卡方分布.卡方概率密度函数和卡方检验,并通过SPSS实现了一个卡方检验例子,不仅对结果进行了解释,而且还给出了卡方.自由度和渐近显著性的计算过程.本文用到的数据"2.2.sa ...

  7. sas统计分析学习笔记(一)

    一.基本规则 1.DATA步骤:定义数据和创建数据集,以DATA 开始,以DATALINES结束:PROC步骤:定义统计分析的类型,每个PROC过程后接一个run语句. 2.SAS变量名必须遵循以下原 ...

  8. 四格表卡方检验.医学统计实例详解-医学统计助手★卡方检验,t检验,F检验,秩和检验,方差分析

    四格表卡方检验是医学统计学中常用的一种方法,用于确定两个分类变量之间是否存在关联.在医学研究中,四格表卡方检验被广泛应用于研究疾病和治疗方法之间的关联,以及预测疾病发展的风险因素. 四格表卡方检验基于 ...

  9. 【23全网最新!最全】统计方法(SAS、SPSS和R统计软件应用)——单元测试答案

    第一章 SPSS统计软件应用 第二章 SAS统计软件应用 第三章 R统计软件应用 答案见如下视频 统计方法答案

最新文章

  1. Docker 安装私有镜像库的简单使用
  2. SSH,telnet终端中文显示乱码解决办法
  3. [设计模式] 15.Command 命令模式
  4. php变量的判空和类型判断
  5. 2017 最值得关注的十大 APP、Web 界面设计趋势
  6. Python快速调用Teambition接口
  7. cookie可存的最大限制_一文梳理Web存储,从cookie,WebStorage到IndexedDB
  8. 微信端修改title
  9. Soulver 3 for Mac(Mac计算器软件)
  10. 强大web打印控件下载 - 2019年最新支持所有浏览器-楚琳打印
  11. ACM入门-最小生成树及其应用
  12. 路在脚下,却不知怎么去走?
  13. 资深架构师推荐Spring技术内幕:深入了解Spring的底层机制
  14. 世界上第一个微处理器真的是Intel 4004吗?其实这是个很复杂的故事…
  15. vue 所见即所得_适用于Vue.js的轻量级所见即所得HTML编辑器
  16. 设置windows默认浏览器的方法
  17. CMS 内容管理系统
  18. MDM9205平台射频卡分析
  19. Start Developing iOS Apps Today
  20. 机器学习新手十大算法

热门文章

  1. Python 3.x 学习笔记
  2. atcoder abc284 E
  3. 脚本显示服务器超时,服务器诡异的请求超时问题
  4. 微信转账记录删除了服务器还有吗,微信转账记录能彻底删除吗?你应该知道的删除技巧是这三种!...
  5. 归并排序算法代码实现
  6. 修复自定义标题word题注错误:错误,文档中没有指定样式的文字以及编号无法随章节变化问题
  7. python怎么处理通达信ctp接口数据?
  8. 自定义UILabel,添加verticalAlignment属性
  9. 使用StarUML画类图
  10. event-log-tags