1 配对卡方检验:

  • 目的:研究同一群人在实验前测和实验后测是否发生了变化

  • 前提:
    1、观测变量为二分类变量,且两类之间互斥
    2、分组变量包含2个分类,且相关。(当分组变量有3个及以上分类时,可使用Cochran’s Q检验)

  • 操作:

  • 结果分析:

首先,从正对角线得出的结果是,25名研究对象中有8名干预前喝酒,干预后还继续进行喝酒的人;6名干预前不喝酒干预后还是不喝酒的的人。从非对角线(黄色背景)中可以看到干预前喝酒干预后不喝酒的人有11人;干预前不喝酒的干预和喝酒的有0人。干预前喝酒的人数占到了76%,干预后喝酒的人数占比下降到了32%。其中干预前喝酒的人干预后不在喝酒占比 44%,有11个人干预后不再喝酒。而干预前不喝酒的人干预后依然都不喝酒。

当非对角线观测人数总和<25时,p值以精确显著性(2-sided检验)为准。

  • 结果撰写:
    如果是根据二项分布计算McNemar检验的精确P值:本研究共招募了25名研究对象参与有关戒酒的干预试验,干预前饮酒者和不饮酒者各占76%(19列)和24%(6例)。干预后,不饮酒比例增加到68%(17例),饮酒的比例降低到了32%(8例)。11名饮酒者在干预后戒酒。采用McNemar精确检验发现,干预前后不饮酒者比例的差异有统计学意义,P=0.001。
    (如果是用卡方计算,最后就写:采用校正卡方检验发现,…)

2 卡方拟合优度检验:

  • 目的:检验收集到的数据是否符合指定分布
  • 前提:
    1、存在一个分类变量
    2、观测值之间相互独立
    3、样本量足够大,要求最小样本量的任一预测频数大于5.
    注意:卡方拟合优度检验分为等比例和自定义比例两种。等比例是指:被研究对象在一段时间内做某件事的概率相同;自定义比例是指:研究者在一段时间内做某件事的概率不同。比如:一个患者若在一周内去医院就诊的可能性相同,那么就是等比例,反之就是自定义比例。
  • 操作:
    1、等比例

2、自定义比例:

在此处选择总体的(或期望的)分布比例情况:我期望的农村,城镇,中小城市,大城市的比例为15%、25%、40%、20%。

  • 结果解释:

由上图可见0个单元具有小于5的期望频率。单元最小期望频率为29.5。
然后看每一类的残差表,其中残差越小则表示拟合优度越好。结果显示卡方=19.607,P<0.001,说明本研究数据不符合指定数据分布情况。

  • 结果撰写:
    本研究共招募197位研究对象,其中来自农村的研究对象为33人,来自城镇的研究对象为74人,来自中小城市的研究对象为59人,来自大城市的研究对象为31人。,采用卡方拟合优度检验判断这些研究对象的体型分布是否与期望一致。结果显示,本研究的最小预测频数为29.5,可采用卡方拟合优度检验,卡方=19.607,P<0.001,说明本研究数据不符合指定数据分布。

3 比值比(OR值)

  • 目的:探索不同分组的人群发生某件事的概率是否存在差异
  • 前提:
    1、自变量和因变量都是二分类变量
    2、观测间相互独立
  • 操作:
  • 结果分析:

如果比值>1,且置信区间不包括1,则说明男生比女生选择创业的几率更高;反之,女生比男生的创业几率更高。若果置信区间包括1,则说明男生女生之间不存在差异。

  • 结论撰写:
    本次研究共招募197位研究对象,其中男性116人,女性81人。与女性相比,男生选择创业的几率不高于女性。比值比为0.610,95%CI:0.336-1-1.110

4 相对危险度(2*2计算)RR值

  • 目的:想要研究发生某件危险的事与发生另外一件危险的事之间的关系。(比如想要探索幽门螺旋杆菌感染与发生消化道肿瘤之间的关系)
  • 前提:
    1、因变量与自变量均为二分类变量
    2、各观测间相互独立
    3、只有特定的研究设计才能计算相对危险度,如前瞻性或回顾性队列,随机对照试验。
  • 操作:

  • 结果分析:

先通过观察交叉表来看患有幽门螺旋杆菌的350人中有35人患有消化道肿瘤,不患有幽门螺旋杆菌的350人中仅有9人患病。由此可以初步判断,患有幽梦螺旋杆菌的人患消化道肿瘤的风险更高。

这里要根据需求来看相对风险值,因为本次要研究患幽门螺旋杆菌与患消化道肿瘤的关系,所以看Yes那一列即可。结果解读与OR值一致,可见患幽门螺旋杆菌的患者比不患有幽梦螺旋杆菌的患者患上消化道肿瘤的可能性高3.889倍。

5 两个有序变量相关性的卡方检验

  • 目的:分析两个有序变量之间是否有线性变化趋势 (比如分析学历的高低与工作两年后的年薪等级之间的关系)
  • 前提:
    1、其中一个变量为有序分类变量
    2、另一个变量为有序分类变量或二分类变量
    注:趋势检验可以使用Mantel-Haenszel卡方检验或Cochran-Armitage趋势检验。M-H检验也称线性趋势检验或定序趋势检验。M-H与C-A的区别在于,前者要求一个是有序,另一个是二分类或有序;后者要求一个是有序,另一个是二分类。
  • 操作:
  • 结果分析:

这张表可以看简单分布情况

这张表观察线性与线性组合,Sig一列为Mantel-H检验结果,可见P=0.009>0.05,可知老家类型与工作地域重要程度存在线性关系。还可以继续看pearson表,看是正向还是负向。


由此可见存在正向轻度相关。

  • 结果撰写:
    采用Mantel-Haenszel卡方检验判断老家类型与工作地域重要性是否存在线性关系。老家类型1-4,工作地域重要性程度1-5。Mantel-Haenszel卡方检验结果显示,老家类型与工作地域重要性之间存在线性关系。卡方=6.736,p=0.009<0.05,Pearson相关结果显示,R=0.185,P=0.09,说明老家类型与工作地域重要性程轻度正相关。
  • 绘制散点图:

把数据转化为频率形式


结果:

6 分层分析:

  • 使用原因:
    比如我们要研究某种治疗措施是否会降低死亡风险。招募了200名实验对象,一组是对照组,一组是实验组。其中实验组中年轻人80人,老年人20人。对照组中老年人80人,实验组20人。经过一段时间之后对照组18人死亡(2人为年轻人,16人为老年人),实验组12人死亡(8人为年轻人,4人为老年人)。如果我们直接计算,对照组的死亡率是18%,实验组的死亡率是12%,则计算处理因素的RR值为12%/18%,即0.67。认为处理是有效的,能够降低33%的死亡风险。
    **但是!!!**我们应该要注意到,我们的年龄和死亡之间的关系是非常密切的,年龄越大死亡的概率也就越高。那么此时再回过头来看我们实验组与对照组之间的分布就可以发现问题所在了。这类因素称之为混杂因素。如果我们在实验组与对照组进行分层,在计算,可以看到实验组当中年轻人的死亡率=8/80=0.1,对照组当中年轻人的死亡率为2/20=0.1。同理,可计算老年人的死亡率也为0.1。因为各层的RR值一致,所以可以使用M-H法计算合并效应值(若不一致,我们应当分层报告效应值),再将合并后的RR值与之前做的粗RR值或OR值进行比较,若差值在0.1以上或在0.5以上,认为调整后的RR值与粗RR值不一致(此时要结合实际情况进行判断)。
  • 局限性:
    若混杂因素不止一个,那么此时分层就要非常的麻烦,若有n个混杂因素,则分层的数量则为2的n次。同时每一层的样本量就会很小。另外,如果是连续变量,对其进行分类就会丢失信息。

7 分层卡方检验:

  • 原因:与分层检验一样
  • 操作:

  • 结果分析:


由上面两张图可以看出:
男性Pearson 卡方=8.433,P=0.04<0.05, OR=2.769,95%CI:1.368-5.670,男性抽烟是引发某一种疾病的危险因素。
女性解读同理。

上图是采用两种方法对于不同分层下OR值是否一致进行检验。P均小于0.05,可见各层级之间的OR值存在着异质性。

上图为分层卡方检验的结果,前者是后者的改进。两个检测结果P<0.05,可见吸烟与发生此种疾病的风险有关。此时卡方值的大小只能推断是否相关,不能推断大小。

上图的结果是认为各层OR同质,进而合并OR值的结果,分析方法同上面分析OR值一致。

注:本次检验发现各层的OR值不同质因此不能合并计算OR值,需要分层报告。

  • 结果撰写:
  1. 若层间OR值不同质,则结果描述如下:
    Test of Homogeneity of Odds Ratio结果显示P<0.05,提示层间的OR值具有异质性,此时不宜合并OR值。因此在按照性别进行分层后,在男性中,吸烟是该疾病发生的一个危险因素,OR=2.769,95% CI为1.368-5.607,P=0.004,即吸烟者该疾病的发生风险为非吸烟者的2.769倍;而在女性中,吸烟对该疾病的发生没有影响,OR=0.463,95% CI为0.097-2.214,P=0.326。

  2. 若层间OR值同质,则结果描述如下:(本例研究不适用于此种情况,此处仅为举例说明)
    Test of Homogeneity of Odds Ratio结果提示层间的OR值具有同质性(P>0.05),因此在控制了性别分层因素的影响后,吸烟因素对于该疾病的发生是一个危险因素,其合并OR=1.935,95% CI为1.065-3.519,P=0.047。
    注意:对于前述“3. 分层卡方检验结果”和“4. 基于Mantel-Haenszel方法估算的OR值的检验结果”,两者的P值在结论上应该是保持一致的。

根据《医学统计学》(孙振球主编)教科书上的介绍,分层分析OR值可采用Mantel-Haenszel方法进行估计,并用Mantel-Haenszel卡方检验的χ2统计量直接对OR值进行假设检验,同时采用Miettinen法计算OR值的95%可信区间,因此此处可报告Mantel-Haenszel卡方检验的P值0.047。
而SPSS采用的是Woolf法计算OR值的95%可信区间,并对其进行检验,此时P=0.030。由于两者计算方法不同,因此P值的大小稍有差异,但其结论是一致的。

统计学基础(四)—卡方检验怎么用?相关推荐

  1. 统计学基础(四):矩估计

    此为本人学习笔记,不具备参考价值,禁止任何形式的传播 统计推断的基本问题参数估计点估计区间估计假设检验线性回归方差分析 参数通常是刻画总体某些概率特征的数量. 当该参数未知时,从总体中抽取一个样本,用 ...

  2. 统计学基础学习笔记:描述统计量

    文章目录 一.统计学基础 二.描述统计量 三.数据文件 四.绘制直方图与折线图 五.数据的位置 (一)基本概念 1.样本平均数(mean) (1)算术平均数 (2)几何平均数 2.中位数(median ...

  3. NumPy 快速入门系列:应用统计学基础概念、相关统计指标与NumPy的实现

    NumPy 快速入门系列:应用统计学基础概念.相关统计指标与NumPy的实现 前言: 统计学导论: 统计学定义: 统计学分类: 统计学基本概念: 统计过程: 统计指标与NumPy: 用 Python ...

  4. 统计学基础——负二项分布的数字特征

    统计学基础--负二项分布的数字特征 一.引言 二.负二项分布定义的引出与理解 2.1 实际意义 2.2 初始定义 2.3 重新定义"负"二项分布 2.3 推导前的知识准备 三.数字 ...

  5. 数据分析与数据挖掘 - 05统计概率 一 统计学基础运算

    一 统计学基础运算 1 方差的计算 在统计学中为了观察数据的离散程度,我们需要用到标准差,方差等计算.我们现在拥有以下两组数据,代表着两组同学们的成绩,现在我们要研究哪一组同学的成绩更稳定一些.方差是 ...

  6. 智能车竞赛技术报告 | 基础四轮组 - 哈尔滨工程大学 - 济海追风5队

    简 介: 本文详细介绍了哈尔滨工程大学"济海追风5队"在第十六届全国大学生智能汽车竞赛基础四轮组中的系统方案.本次比赛采用大赛组委会指定的B3型车模,以英飞凌半导体公司生产的32位 ...

  7. mysql 连接 分组_MySQL 基础 (四) 分组查询及连接查询

    MySQL 基础 (四) 分组查询及连接查询 MySQL 基础(四) 进阶 5 分组查询 语法: SELECT 分组函数, 列(要求出现在 group by 的后面) FROM 表 [where 筛选 ...

  8. 【RabbitMQ】基础四:路由模式(Routing)

    [RabbitMQ]基础四:路由模式(Routing) 1. 路由模式说明 2. 代码示例 2.1 生产者 2.2 消费者1 2.3 消费者2 2.4 测试 3. 总结 1. 路由模式说明 路由模式特 ...

  9. [GO语言基础] 四.算术运算、逻辑运算、赋值运算、位运算及编程练习

    作为网络安全初学者,会遇到采用Go语言开发的恶意样本.因此从今天开始从零讲解Golang编程语言,一方面是督促自己不断前行且学习新知识:另一方面是分享与读者,希望大家一起进步.前文介绍了Golang的 ...

  10. 统计学基础之数据分布

    统计学基础之数据分布 学习几种常用的数据分布 1.正态分布 正态分布(Normal distribution),也称"常态分布",又名高斯分布.正态曲线呈钟型,两头低,中间高,左右 ...

最新文章

  1. 数据连接池的工作机制是什么?
  2. 使用 CSS3 伪元素实现立体的照片堆叠效
  3. python对笔记本电脑的要求-笔记本电脑中多版本python的配置
  4. SQL删除一个数据库内所有表的数据保留表结构
  5. 图像处理时一些卷积核子函数的生成
  6. vuepress侧边栏配置_VuePress搭建静态博客网站
  7. VTK:Points之DensifyPoints
  8. 74 计算机图形学开源处理库
  9. mvc路由 html,asp.net-mvc – ASP.NET MVC路由从html页面开始
  10. [Leedcode][JAVA][第139题][单词拆分][递归][记忆优化][动态规划]
  11. 面部识别实例:眼球替换
  12. Altlas M1 and Tips of Debugger Visualizers
  13. Android播放音频的两种方式
  14. c语言json配置文件linux,Linux C 编程——使用json-c库读取json格式的配置文件
  15. Dev cpp 手动开栈
  16. 基于PPGiPPG的心率检测原理
  17. wan端口未连接怎么弄_路由器wan口网线未连接(wan口未插网线)的解决方法
  18. VUE 获奖名单滚动显示的两种方式
  19. 基于快应用的音乐播放器
  20. 读书随记——《傲慢与偏见》(4)

热门文章

  1. C# :弧度角度转换
  2. 【excel问题】关于组织策略阻止超链,解决方法
  3. 计算机加入域无法访问登录,不加入域不能访问域资源
  4. Windows之重置密码
  5. python xlrd 过滤excel里的隐藏行
  6. 利用旧电脑搭建NAS(黑群晖)
  7. 衡水十四中2021高考成绩查询,心之所向,行必能至|衡水市第十四中学召开2021高考倒计时200天动...
  8. python开发语音录入_用Excel及Python实现数据录入语音校对功能
  9. Matlab p文件解密,p转m文件 可查看源码
  10. PL-SLAM:通过点和线段组合的立体SLAM系统