前面几期我们介绍了参数检验,t检验和方差分析:

临度科研:数据统计的理解和运用(三)方差分析​zhuanlan.zhihu.com

临度科研:数据统计的理解和运用(二)t检验的应用​zhuanlan.zhihu.com

今天我们来介绍非参数检验——迷人的卡方检验(Chi-square test/Chi-Square Goodness-of-Fit Test)。

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

卡方检验是以 χ2 分布为基础的一种常用假设检验方法,它的假设检验为:

H0:观察频数与期望频数没有差别。H1:观察频数与期望频数有差别。

卡方检验的基本思想是:首先假设 H0 成立,基于此前提计算出 χ2 值,它表示观察值与理论值之间的偏离程度。根据 χ2 分布及自由度可以确定在H0 假设成立的情况下获得当前统计量及更极端情况的概率P。

如果 P 值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。

适用于四格表应用条件:

两个独立样本比较可以分以下3种情况:(1) 所有的理论数 T≥5 并且总样本量 n≥40,用 Pearson 卡方进行检验。(2) 如果理论数 T<5 但 T≥1,并且 n≥40,用连续性校正的卡方进行检验。(3) 如果有理论数 T<1 或 n<40,则用 Fisher’s 检验。

R×C表卡方检验应用条件:

(1) R×C表中理论数小于5的格子不能超过1/5;(2) 不能有小于1的理论数;不满足 (1) 或 (2) 时,均采用 Fisher’s 检验。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。

列联表的资料大致分为以下 10 类:

  1. 成组设计横断面研究四格表资料统计分析
  2. 成组设计队列研究四格表资料统计分析
  3. 成组设计病例对照研究四格表资料统计分析
  4. 成组设计结果变量为多值有序变量的2XC表资料统计分析
  5. 成组设计结果变量为多值名义变量的2XC表资料统计分析
  6. 单因素多水平设计有序原因变量RX2表资料统计分析
  7. 单因素多水平设计双向无序RXC表资料统计分析
  8. 单因素多水平设计无序原因变量RX2表资料统计分析
  9. 单因素多水平设计有序结果变量RXC表资料统计分析
  10. 单因素多水平设计双向有序RXC表资料统计分析

由于篇幅限制,因此本次仅讲解两条(感兴趣的读者可以先关注我们,我们后续推出精彩讲解),也是常见的两类:

· 成组设计横断面研究四格表资料统计分析

· 单因素多水平设计双向无序RXC表资料统计分析

例1. 某研究随机抽取了某大学四年级学生124人,调查大学英语六级通过情况,结果见下表。问该大学男生和女生英语六级通过率有无差别?

表1: 大学英语六级通过情况

对数据结构的分析

该资料设计上属于结果变量为二值的成组设计定性资料,列联表分类上属于横断面研究设计四格表资料。

该目的是比较两个性别组英语六级通过率是否相等,可采用一般 χ2 检验或 Fisher 精确检验来处理。

软件操作:SAS

图1:频数分布
图2:统计结果

结果解答:第一步,先看期望频数,从上图得知,四个频数分别为:49.453、23.548、34.548和16.452,均>5,故采用 Pearson 卡方检验,结果 χ2=10.887,P=0.001,拒绝H0 假设,认为女生的通过率高于男生(χ2=10.887,P=0.001),差异有统计学意义。

软件操作:R语言

图3:数据矩阵
图4:卡方检验结果

结果只有统计量,并没有出现期望频数,因此我们需要再次敲入代码:

图5:期望频数

从结果得知,所有频数均>5,与SAS结果一致,结果,χ2=9.637,P=0.001,拒绝 H0 假设,认为女生的通过率高于男生(χ2=9.637,P=0.001),差异有统计学意义。

软件操作:SPSS

1、建立数据库

图6:卡方检验数据库

2、对数据进行加权

数据 → 加权个案 → 对需要加权的变量进行加权 → 确定

分析 → 描述统计 → 交叉表 → 选择行变量和列变量 → 统计量选择卡方 → 单元格选择期望 → 勾选列百分比

图8:卡方检验
图9:结果

从结果得知,所有频数均>5,与SAS和R结果一致,结果,χ2=10.887,P=0.001,拒绝 H0 假设,认为女生的通过率高于男生(χ2=10.887,P=0.001),差异有统计学意义。

例2.某大学对计算机专业、金融专业、传媒专业各50名学生进行心理测试,并判断每个学生属于哪一类典型气质类型,所得结果整理成下表,请进行合理的统计分析。

表2:心理测试结果

对数据结构的分析

本例属于原因变量和结果变量均为多值名义变量单因素多水平设计定型资料,从列联表的分类上来看属于双向无序R×C表。

比较原因变量各水平的频数分布情况,可以用一般χ2检验。

图10:频数分布
图11:统计结果

结果解答:第一步,先看期望频数,从上图10得知,频数均>5,故采用Pearson卡方检验,结果,χ2=3.434,P=0.753,不能拒绝 H0假设,因此尚不能认为不同人格的专业分布不同(χ2=3.434,P=0.753)。差异无统计学意义。

软件操作:R语言

图12:建立矩阵
图13:卡方检验结果
图14:输出期望频数

结果解答:第一步,先看期望频数,从上图14得知,频数均>5,故采用Pearson卡方检验,结果,χ2=3.434,P=0.753,不能拒绝 H0假设,因此尚不能认为不同人格的专业分布不同(χ2=3.434,P=0.753)。差异无统计学意义。

软件操作:SPSS

1、建立数据库

图15:建立数据库

2、对数据进行加权

数据 → 加权个案 → 对需要加权的变量进行加权 → 确定

图16:数据加权
图17:进行卡方检验
图18:卡方检验结果

结果解答:第一步,先看期望频数,从上图18得知,频数均>5,故采用Pearson卡方检验,结果,χ2=3.434,P=0.753,不能拒绝H0假设,因此尚不能认为不同人格的专业分布不同(χ2=3.434,P=0.753)。差异无统计学意义。

好啦,本期讲解到此结束,更多类型的列联表分析,下次再分享!

欢迎大家在评论区提出自己的问题~

r语言t检验输出检验统计量_数据统计的理解和运用(四)列联表之卡方检验相关推荐

  1. r语言t检验输出检验统计量_[转载]R语言:常用统计检验

    R语言:常用统计检验方法 写在前面 R已经成为当前国际学术界最流行的统计和绘图软件之一,该语言较为简单易学,统计分析功能强大,且具有很强的绘图功能,能够绘制学术出版要求的多种图表.R语言在生物信息学, ...

  2. r语言t检验输出检验统计量_如何进行统计分析

    在写统计分析报告时,会用到描述统计分析和推论统计分析.下面会对以上两种分析方法进行简要介绍. 一.描述统计分析 描述统计是通过图表或数学方法,对数据资料进行整理.分析,并对数据的分布状态.数字特征和随 ...

  3. r语言t检验输出检验统计量_R语言中实现T检验及可视化

    T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布.T检验是用t分布理论来推论差异发生的概率,从而比较两 ...

  4. r语言t检验输出检验统计量_R语言的各种检验

    R语言的各种检验 1.W检验(Shapiro–Wilk (夏皮罗–威克尔) W统计量检验) 检验数据是否符合正态分布,R函数:shapiro.test(). 结果含义:当p值小于某个显著性水平α(比如 ...

  5. r语言t检验输出检验统计量_R语言:十一个统计检验都在这了

    R语言的各种检验 1.W检验(Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验) 检验数据是否符合正态分布,R函数:shapiro.test(). 结果含义:当p值小于某个显著性水平α(比 ...

  6. 卡方检验检验水准矫正_卫生统计:一文搞懂如何选择卡方检验

    在实际进行数据处理过程中,我发现有的时候,会有小伙伴在选择何种检验方法时,存在一定的疑问.今天咱们梳理一下究竟如何选择卡方检验及其相关检验方法. 四格表资料卡方检验 非配对设计时: 1. 当总样本量n ...

  7. R语言使用rnorm函数生成正太分布数据、使用boxplot函数可视化箱图、中间黑线为中位数位置、上下框线为上下四分位数位置、上下触须为1.5倍四分位数间距、如果有孤立点表示异常值

    R语言使用rnorm函数生成正太分布数据.使用boxplot函数可视化箱图.中间黑线为中位数位置.上下框线为上下四分位数位置.上下触须为1.5倍四分位数间距.如果有孤立点表示异常值 目录 R语言使用r ...

  8. R语言心得说:R语言之xlsx包读写Excel数据

    R语言心得说:R语言之xlsx包读写Excel数据 感谢Adrian A. Drǎgulescu发布的xlsx包 工具准备 [基础]简单读取excel文件数据 [基础]简单写入数据到excel文件 [ ...

  9. R语言使用sd函数计算向量数据的标准差

    R语言使用sd函数计算向量数据的标准差 目录 R语言使用sd函数计算向量数据的标准差 R语言是解决什么问题的? R语言使用sd函数计算向量数据的标准差 安利一个R语言的优秀博主及其CSDN专栏: R语 ...

最新文章

  1. [YTU]_2625( 构造函数和析构函数)
  2. s:textfield format date
  3. IntelliJ IDEA 2019.3要起飞了,主要解决这些痛点...
  4. Tomcat与Gzip与缓存
  5. 中科院开源 RISC-V 处理器“香山”流片,已成功运行 Linux
  6. 运算符在计算机语言中的作用,深入解析C++编程中范围解析运算符的作用及使用...
  7. tomcat设置context不生效_后端服务:关于Tomcat相关面试题,看懂这篇就够了(有深度)...
  8. 睡眠阶段分期——SVM和ELM分别与粒子群算法结合(main)
  9. Attempt to invoke virtual method 'void android.widget.CompoundButton.setChecked(boolean)' on a null
  10. 主流游戏引擎分析 【端游 、页游 、手游 解析】
  11. 傻白入门芯片设计,Substrate/RDL/Interposer/EMIB/TSV(三)
  12. java关注列表_如何从一个Instagram帐户中获取关注者列表?
  13. 第二十二章 opengl之高级OpenGL(几何着色器)
  14. 攻防世界逆向入门题之open-source
  15. 第四周网络攻防实践作业
  16. 《JAVASE系列》抽象类与接口
  17. Broadcasting
  18. ionic4滑动加载(ion-infinite-scroll)
  19. 用计算机画画内容,用计算机画画的教案
  20. 湖南省永州市谷歌高清卫星地图下载

热门文章

  1. [导入]ASP.NET MVC框架开发系列课程(3):URL导向.zip(16.66 MB)
  2. c6011取消对null指针的引用_C++中的野指针及其规避方法
  3. 【Matlab 控制】函数调用函数
  4. 【S操作】轻松优雅防止(解决)两次掉进同一坑的完美解决方案,arduino通知提醒方案...
  5. 【任务脚本】0616吐槽tb坑爹活动,预测看好jd活动,更新汇总战绩,DIY净水器预告...
  6. 【DIY】可能是最实用最便宜的 arduino 温湿度计方案,200615整合家用声控温湿度计完整方案...
  7. BRCM eCos下的编译及问题
  8. 五、linux总线中设备和驱动注册流程详解
  9. 【cisco下针对冗余链路故障备份的处理措施】
  10. MySQL-MongoDB开源监控利器之PMM