点击上方蓝字,轻松关注我们

以下内容转载自“医咖会”微信公众号(medieco-ykh),作者张耀文。

上一期我们讨论了有序多分类Logistic回归的SPSS简单操作,本期“科研加油站”栏目,我们一起来探讨有序多分类Logistic回归的SPSS详细操作。

问题与数据

研究者想调查人们对“本国税收过高”的赞同程度:Strongly Disagree——非常不同意,用“0”表示;Disagree——不同意,用“1”表示;Agree--同意,用“2”表示;Strongly Agree--非常同意,用“3”表示。

另外,研究者也调查了一些其它情况,包括:是否是“雇主”(biz_owner:Yes——是,用“0”表示;No——否,用“1”表示)、年龄(age)和党派(politics:Lib——党派1,用“1”表示;Con——党派2,用“2”表示;Lab——党派3,用“3”表示)。部分数据如下图:

对问题的分析

使用有序Logistic进行回归分析时,需要考虑4个假设。

  • 假设1:因变量唯一,且为有序多分类变量,如城市综合竞争力等级可以分为高、中、低;某病的治疗效果分为痊愈、有效、无效等。

  • 假设2:存在一个或多个自变量,可为连续、有序多分类或无序分类变量。

  • 假设3:自变量之间无多重共线性。

  • 假设4:模型满足“比例优势”假设。意思是无论因变量的分割点在什么位置,模型中各个自变量对因变量的影响不变,也就是自变量对因变量的回归系数与分割点无关。

    有序多分类的Logistic回归原理是将因变量的多个分类依次分割为多个二元的Logistic回归,例如本例中因变量“本国的税收过高”的赞同程度有4个等级,分析时拆分为三个二元Logistic回归,分别为(0 vs 1+2+3) 、(0+1 vs 2+3)、(0+1+2 vs 3),均是较低级与较高级对比。

    在有序多分类Logistic回归中,假设几个二元Logistic回归中,自变量的系数相等,仅常数项不等,结果也只输出一组自变量的系数。因此,有序多分类的Logistic回归模型,必须对自变量系数相等的假设(即“比例优势”假设)进行检验(又称平行线检验)。如果不满足该假设,则考虑使用无序多分类Logistic回归。

前期数据处理

对假设进行验证前,我们需要将分类变量设置成哑变量。

1. 为什么要设计哑变量

若直接将分类变量纳入Logistic回归方程,则软件会将分类变量按连续变量处理。例如,如果把性别按“1”——男、“2”——女进行编码,然后直接把性别纳入方程,方程会认为“女”是“男”的2倍。为了解决这个问题,需要用一系列的二分类变量“是”或“否”来表示原始的分类变量,这些新的二分类变量被称为“哑变量”。

在SPSS软件的二项Logistic回归模型中,将分类变量选入categorical,软件会自动设置一系列的哑变量。由于验证假设3(自变量之间无多重共线性)需要通过线性回归实现,而在线性回归中,就需要手动设置哑变量。因此,这里需要先手动设置哑变量。

2. 设置哑变量的思路

哑变量的数目是分类变量类别数减一。本例中,党派1、党派2和党派3的原始编码为1、2和3。设置哑变量时,需要对党派1和党派2进行重新编码。

建立新变量Lib(党派1),若调查对象选了党派1,则Lib编为“1”,代表是;若未选党派1,则Lib编为“0”,代表否。同样,建立新变量Con(党派2),将是否选党派2编为“1”或“0”。此时,若既未选党派1,又未选党派2,则两个新变量Lib和Con的编码都为“0”,代表党派3。此时,党派3在模型中是参考类别(Reference)。

3. 在SPSS中设置哑变量

(1) 首先,先创建新变量“Con”,在主菜单下选择Transform→Recode into Different Variables... ,如下图:

(2) 在Recode into Different Variables对话框中,将politics选入右侧Numeric Variable-->Output Variable下,在右侧Output Variable中填写“Con”。点击Change→Old and New Values。

(3) 出现Recode into Different Variables: Old and New Values对话框,在左侧的Old Value下的Value中填入2,在右侧的New Value下的Value中填入1,点击Add。

(4) 将其它值变为“0”:左侧点击All other values,在右侧Value中填入“0”,点击Add→Continue。

(5) 如果数据中有缺失值,点击左侧System-missing,右侧点击System-missing→Add,保持缺失值:

设置得到的结果如下图:

本例中没有缺失值,可省略这一步。

(6) 继续创建新变量“Lib”,与以上步骤相似。两个变量创建完成后,点击变量视图,可以看到在最右侧已经生成了两个新变量“Con”和“Lib”,如下图:

对假设的判断

假设1-2都是对研究设计的假设,需要研究者根据研究设计进行判断,所以这里主要对数据的假设3-4进行检验。

1. 检验假设3:自变量之间无多重共线性

与线性回归一样,有序Logistic回归模型也需要检验自变量之间是否存在多重共线性。自变量之间的简单相关或多重相关都会产生多重共线性。容忍度(Tolerance)或方差膨胀因子(VIF)可以用来诊断自变量之间的多重共线性。

遗憾的是,SPSS的Ordinal Regression模块并不能提供容忍度或方差膨胀因子,但是我们可以通过线性回归来获得。由于我们关心的是自变量之间的关系,因此容忍度或方差膨胀因子与模型中因变量的函数形式无关。

也就是说,我们可以将Ordinal Regression的因变量(有序多分类变量)、自变量(二分类、多分类或连续变量)直接带入线性回归模型,从而获得容忍度或方差膨胀因子。

(1) 在主菜单点击Analyze→Regression→Linear...

(2) 将tax_too_high选入Dependent,将biz_owner、age、Con、Lib选入Independent(s)。

(3) 点击Statistics,出现Linear Regression:Statistics对话框,点击Collinearity diagnostics→Continue→OK。

结果如下图:

如果容忍度(Tolerance)小于0.1或方差膨胀因子(VIF)大于10,则表示有共线性存在。

本例中,容忍度均远大于0.1,方差膨胀因子均小于10,所以不存在多重共线性。如果数据存在多重共线性,则需要用复杂的方法进行处理,其中最简单的方法是剔除引起共线性的因素之一,剔除哪一个因素可以基于理论依据。

2. 检验假设4:模型满足“比例优势”假设

“比例优势”假设可以在后面结果部分的“平行线检验”中看到。

SPSS操作

SPSS中,可以通过两个过程实现有序Logistic回归。分别是Analyze → Regression → Ordinal...和Analyze → Generalized Linear Models → Generalized Linear Models...。

其中,Analyze → Regression → Ordinal模块,可以检验 “比例优势”假设,但无法给出OR值和95%CI。而Analyze → Generalized Linear Models → Generalized Linear Models模块可以给出OR值和95%CI,但无法检验“比例优势”假设。

这里,我们主要介绍Analyze → Regression → Ordinal过程。

(1) 在主菜单点击Analyze→Regression→Ordinal...

(2) 出现Ordinal Regression对话框,将tax_too_high选入Dependent,将biz_owner和politics选入Factor(s),将age选入Covariate(s),再点击Output。

(3) 出现Ordinal Regression: Output对话框。在原始设置的基础上,勾选Display下方的Test of parallel lines,勾选Saved Variables下方的Estimated response probabilities、Predicted category、Predicted category probability和Actual category probability,这四个选项会在SPSS数据集中产生新的变量,如下图所示。点击Continue。

(4) 点击Location,出现Ordinal Regression: Location对话框,如果自变量间有交互作用,则通过该对话框进行选择。本例中自变量间无交互作用,所以点击Continue→OK。

结果解释

1. 假设4的检验结果

在结果解释之前,我们需要先看一下假设4的检验结果(平行线检验的结果)。

在Ordinal Regression:Output对话框中,选则Test of parallel lines后出现,的结果如下表。本例中平行线检验χ= 8.620, = 0.375,说明平行性假设成立,即各回归方程相互平行,可以使用有序Logistic过程进行分析

如果平行线假设不能满足,可以考虑一下两种方法进行处理:①进行无序多分类Logistic回归,而非有序Logistic回归,并能接受因变量失去有序的属性;② 用不同的分割点将因变量变为二分类变量,分别进行二项Logistic回归。

但是,当样本量过大时,平行线检验会过于敏感。即当比例优势存在时,也会显示P<0.05。此时,可以尝试将因变量设置为哑变量,并拟合多个二分类Logistic回归模型,通过观察自变量对各哑变量的OR值是否近似来判断。

2. 单元格

输出结果中,首先会给一个警告,内容为:有235(63.2%)个频率为零的单元格。如果存在过多频数为0的单元格,则会影响模型的拟合,导致拟合优度检验不可信。

扩展阅读

要理解这一点,就需要理解“协变量模式(covariate pattern)”的概念。协变量模式是指数据中自变量数值的组合,与因变量无关。比如,在本数据中,一个协变量模式是23岁(age),雇主(biz_owner)和党派3(politics)。对于每种协变量模式,可能有多个研究对象。比如,如果有4个研究对象是23岁、雇主和党派3,这代表一个协变量模式。

需要理解的另一个概念是“单元格模式(cell pattern)”,它是指自变量和因变量数值的组合,与协变量模式相似,但加上了因变量。对于同一个协变量模式,如果协变量模式能对应因变量所有值,就没有“缺失”的单元格。但实际中,一个协变量模式对应的因变量可能只有一个值。假如,有1个23岁、雇主和党派3研究对象的因变量是“Agree”,但由于因变量总共有4个水平,所以此时单元格“缺失”3个。

因此,协变量模式与单元格模式之间的联系是:(1)所有可能的单元格总数是协变量模式个数乘以因变量的分组个数;(2)实际的单元格是指单元格模式中频率不为0的单元格。单元格频率为零的比率为(总单元格的个数-实际单元格的个数)÷总单元格的个数。

3. 拟合优度检验结果

下图为拟合优度检验的结果,分别为Pearson和Deviance两种拟合优度检验。本例中,Pearson检验的结果χ= 745.367, P<0.001<0.05,说明Pearson检验结果为模型拟合不好;而Deviance检验的结果χ= 232.618,P=0.960>0.05,说明Deviance检验结果为模型拟合好。

这两个统计量对于上述单元格频数为0的比例十分敏感。本例中频数为0的单元格非常多,这两个统计量不一定服从卡方分布,而基于卡方分布计算的P值也不可信,所以本例中这两个检验结果都不可信。

4. 伪决定系数

下图给出了3个伪决定系数:Cox and Snell,Nagelkerke和McFadden,这三种方法是最常用的计算伪决定系数的方法。由于3种方法并没有得到广泛的应用,所以我们也不用关注该结果。

5. 模型拟合信息

Model Fitting Information的结果是对模型中所有自变量的偏回归系数是否全为0的似然比检验。结果χ2=87.911(该值为仅有常数项的模型和最终模型的-2 Log Likelihood值之差),P< 0.001,说明至少有一个自变量的偏回归系数不为0。换句话说,拟合包含biz_owner、politics和age这3个自变量的模型拟合优度好于仅包含常数项的模型。

6. 模型预测准确度

另一种看模型拟合程度的方法是看模型对因变量的预测情况。在Ordinal Regression: Output对话框中,勾选Saved Variables下方的Estimated response probabilities、Predicted category、Predicted category probability和Actual category probability后,会在SPSS数据集中产生新的变量,如下图所示。

EST1_1、EST2_1、EST3_1和EST4_1分别代表对因变量的4个程度(Strongly Disagree、Disagree、Agree和Strongly Agree) 的预测概率。

第一行(case 1),可以看到EST1_1、EST2_1、EST3_1和EST4_1相加的概率为1,其中EST1_1的概率最大,为0.44,对应的PRE_1为0(Strongly Disagree),因变量的观察值也是0(Strongly Disagree),此时模型准确的预测了因变量。

而第三行(case 3),EST1_1、EST2_1、EST3_1和EST4_1中EST3_1最大,预测的PRE_1为2(Agree),而因变量实际的观察值为0(Strongly Disagree),此时模型没有准确的预测因变量。

那么,如何看出模型预测因变量的程度呢?可以按照下述步骤建立表格。

(1) 在主界面下选择Analyze→Descriptive Statistics→Crosstabs...

(2) 将tax_too_high选入Row(s),将PRE_1选入Column(s),点击Cells。

(3) 在已选的Observed基础上,点击Row→Continue→OK。

(4) 结果如下图。当tax_too_high=0,即为Strongly Disagree时,模型预测正确的有11人(45.8%)。相似的,当tax_too_high分别为Disagree、Agree和Strongly Agree时,模型预测正确的分别有9人(23.7%)、76人(83.5%)和11人(28.2%)。模型预测的总准确度可以通过计算获得,即四个分组中预测正确人数除以总人数=(11+9+76+11)÷192=55.7%。

7. 参数估计

在Parameter Estimates中,得到了回归方程的参数,包括常数项(Estimates或B)及其标准误和95%置信区间等。

(1) Threshold(常数项)中,第一行tax_too_high=0代表“Strongly Disagree” VS 其它组的累积概率模型的截距;tax_too_high=1代表 “Strongly Disagree”和“Disagree”VS其它组的累积概率模型的截距;tax_too_high=2代表 “Strongly Disagree”、“Disagree”和“Agree” VS“Strongly Agree”的累积概率模型的截距。

(点击图片看大图)

(2) 除了常数项不同,Location中自变量的系数都是同一个系数,这也是为什么要求有序Logistic回归需要满足比例优势的假设。

得到参数估计的结果后,第一处特别要注意的是:对于有序Logistic回归,不同软件使用的模型有所不同,SPSS使用的是其中一种模型。因此,相同的数据使用不同的软件(SPSS、Stata、SAS、R、JMP等),得到的截距和效应值的符号会有所不同。尤其是效应值的符号,有些软件是正值,有些则是负值,因此对应的解释方法也有所不同(但最终的意义一样)。具体可参考https://www.cscu.cornell.edu/news/statnews/stnews91.pdf

得到上述结果后,依据SPSS使用的模型,可以得到三个方程。

可以看到,SPSS得到的方程中,除了截距项之外,所有效应值要在Parameter Estimates表格中的原始值基础上加上负号。

对于OR值及其95%CI,Analyze → Regression → Ordinal模块不能直接给出,此时可以根据效应值及其95%CI手工计算OR值及其95%CI,也可以借助Analyze→Generalized Linear Models→Generalized Linear Models模块计算。该模块的操作见本文第八部分。

第二处特别要注意的是:SPSS使用的模型是以因变量的较高等级为参照,因此解释OR值时略有特殊。

以本研究中是否为“雇主”为例,其OR值及其95%CI的下限、上限分别为e-0.655 = 0.519、e-1.233 = 0.291和e-0.096 = 0.908(由于取负值,所以需要颠倒原来的上下限)。得到OR值后,其解释为:相对于非雇主,雇主认为“税收低”的OR值为0.519。

可以看到,基于SPSS使用的模型,我们需要对效应值取负值,并在解释时,以最高等级为参照。

因此,如果不对效应值取负值,解释时要以最低等级为参照,得到的结论完全一样。重新计算OR’值及其95%CI的下限、上限分别为e0.655 = 1.944、e0.096 = 1.101、e1.233 = 3.431(所有取值均为取负值时的倒数),我们得到如下结果:雇主认为“税收高”的OR值是非雇主的1.944倍(95%CI:1.101-3.431),χ2=5.255, P=0.022。

(注:在本例中,“税收过高”的赞同程度:非常不同意,用“0”表示;不同意,用“1”表示;同意,用“2”表示;非常同意,用“3”表示)

特别需要注意的这两点可以总结为:SPSS做有序Logistic回归时,给出预测模型的方程时,需要将除了截距外的效应值前加上负号;结果解释时,可以不给效应值加负号,但需要以因变量的最低等级为参照。

同样的,以党派3为对照组,党派1认为“税收高”的OR值是党派3的1.038倍 (95%CI:0.509-2.116),χ2 = 0.010,P=0.919;党派2认为“税收高”的OR值党派3的3.194倍(95%CI::1.626 -6.277),χ2 = 11.358,P=0.001。这样可以看到党派1 VS 党派3、党派2 VS 党派3的结果,但是没有党派1和党派2比较的结果。此时,可以对Politics重新编码,将党派1编为3,党派3编为1,再进行上述操作,即可得到结果。年龄每增加一岁,对“税收高”的赞同程度增加27.4%(OR=1.274,95%CI:1.196-1.357), χ2 = 56.355,P<0.001。

撰写结论

运用符合比例优势假设的有序Logistic回归分析是否是雇主、投票选举的党派和年龄对“税收过高”的效应。

平行线检验的结果为χ= 8.620,P=0.375,说明比例优势假设存在。Deviance拟合优度检验显示模型拟合好,χ= 232.618,P=0.960,但是有大部分(63.2%)频数为0的单元格。模型拟合信息显示,本模型优于只有常数项的模型,χ2 = 87.911,P < 0.001。

雇主认为“税收高”的OR值是非雇主的1.944倍(95%CI: 1.101-3.431),χ= 5.255,P=0.022。以党派3为对照组,党派1认为“税收高”的OR值是党派3的1.038倍 (95%CI: 0.509-2.116),χ2 = 0.010,P= 0.919;党派2认为“税收高”的OR值党派3的3.194倍(95%CI: 1.626 -6.277),χ2 = 11.358,P=0.001。年龄每增加一岁,对“税收高”的赞同程度增加27.4%(OR=1.274,95%CI:1.196-1.357), χ2 = 56.355,P<0.001。

利用其它模块计算OR值

上述Analyze→Regression→Ordinal模块,可以检验 “比例优势”假设,但无法给出OR值和95%CI。而Analyze→Generalized Linear Models→Generalized Linear Models模块可以给出OR值和95%CI。

1. SPSS操作

(1) 在主菜单点击Analyze→Generalized Linear Models→Generalized Linear Models。出现Generalized Linear Models对话框后,在Ordinal Response下选择Ordinal logistic。

(2) 点击上方的Response,出现 Response对话框。将tax_too_high选入Dependent Variable,下方的category order行可以选择Ascending或Descending。

本例中tax_too_high共有四个等级,“0”表示“非常不同意”。如果选择ascending,则“0”是最低的等级;如果选择Descending,则表示“0”为最高的等级。

(3) 点击上方的Predictors,出现Predictors对话框。将biz_owner和politics选入Factors,将age选入Covariates。

(4) 点击上方的Model,出现Model对话框。将biz_owner、politics和age选入右侧的Model中。

(5) 点击Estimation,出现Estimation对话框。在Method中选择Fisher。

(6) 点击Statistics,出现Statistics对话框。在原始设置下,再勾选Print下的Include exponential parameter estimates,勾选该选项会输出OR值及其95%的置信区间,然后点击OK。

2. 结果解释

Generalized Linear Models模块不会给出单元格信息、伪决定系数和平行线检验结果。模型拟合信息在Ominibus Test表中,该结果与Regression→Ordinal的Model Fitting Information结果一致。

参数估计的OR值和95%CI见下图:

(点击图片看大图)

觉得好看,请点这里 

logistic regression_【科研加油站】SPSS操作之有序Logistic回归的详细教程相关推荐

  1. 用excel做logistic回归分析_怎样用SPSS做二项Logistic回归分析?结果如何解释?

    使用Logistic模型前,需判断是否满足以下七个研究假设:假设1:因变量即结局是二分类变量. 假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量. 假设3:每条观测间相互独立.分类变量 ...

  2. SPSS(八)logistic回归(图文+数据集)

    SPSS(八)logistic回归 我们之前的线性回归也好.线性回归衍生方法也好.非线性回归也好,因变量的类型都是连续性的,假如因变量的类型是分类的呢?logistic回归针对的是二分类的因变量 lo ...

  3. 多元有序logistic回归_医学统计与R语言:多分类logistic回归HosmerLemeshow拟合优度检验...

    微信公众号:医学统计与R语言如果你觉得对你有帮助,欢迎转发 输入1:multinominal logistic regression install.packages("nnet" ...

  4. SPSS(九)Logistic模型族进阶(图文+数据集)

    SPSS(九)Logistic模型族进阶 我么们知道logistic回归针对的是二分类的因变量 当因变量是无序多分类和有序多分类的情况呢?所以这篇博客介绍下面两种方法 无序多分类Logistic回归模 ...

  5. 多元有序logistic回归分析_有序Logistic回归实例分析(Ordinal Regression)

    如果研究X对于Y的影响,Y为定量数据则可以使用线性回归分析.如果Y是定类数据,此时则需要使用Logit(logistic)回归分析.Logit回归共分为三种,分别是二元Logit(Logistic)回 ...

  6. spss假设检验_《SPSS操作》--参数/非参数检验

    前段时间把贾俊平的<统计学>学习了一下,由于从第六章开始就涉及到一些与spss相关性较大的知识,在我把回归,相关.假设检验这块学习完之后,就结合着spss操作一些较简单分析.其实也是对前面 ...

  7. spss多元线性回归散点图_案例分析 | 多元线性回归及SPSS操作

    一.案例 案例来源:中华护理杂志2018年3期 关于护士触摸舒适感的现状调查及其影响因素分析. 方法:2017年3月-5月,采用方便抽样的方法选取某市3所三级甲等医院的100名护士,采用护士一般资料调 ...

  8. spss三次指数平滑_15.2.2 指数平滑模型的SPSS操作(1)

    15.2.2  指数平滑模型的SPSS操作(1) 在SPSS Statistics数据编辑器窗口中建立指数平滑模型的具体操作步骤如下. 1)在菜单栏中选择"分析"|"预测 ...

  9. R语言实战应用精讲50篇(十二)-正态分布与方差齐性的检验方法与SPSS操作

    前言 关于Excel数据指标分析,已经上传到个人资源,以下是链接,需要的小伙伴可自取. Excel数据分析工具库(t检验.Z检验.方差分析.回归.协方差.相关系数.双样本方差分析) https://d ...

最新文章

  1. (转)mongodb分片
  2. FIA2020会议准备相关工作
  3. ArcGIS Engine中空间参照(地理坐标)相关方法总结
  4. 兰州大学计算机考研专硕学费,2018年兰州大学在职硕士研究生学费标准
  5. mysqli与pdo防sql注入源码
  6. 用手写一个工具的过程讲清楚Go反射的使用方法和应用场景
  7. MySQL · 特性分析 · 执行计划缓存设计与实现
  8. mysql 通达信公式_通达信的几个好用指标
  9. 软件架构领域集大成者——《架构之美》读书笔记
  10. Rtklib-rinex文件的读取(rinex.c)-序言
  11. 软件评测师-13.软件测试技术与应用
  12. C语言枚举类型和联合体
  13. 软考信息系统项目管理师知识点总结(高项十大管理案例分析作文)
  14. vscode 程序员鼓励师_把软萌程序猿鼓励师装进VScode里?最强交互彩虹屁,GitHub2.5k星标,爱上写代码...
  15. PTA:7-32 计算天数
  16. CRM系统有哪些效果?
  17. CUDA页锁定内存(Pinned Memory)
  18. 分布式定时任务调度平台Elastic-Job技术详解
  19. 《七天数据可视化之旅》第七天:可视化设计实战-数据大屏
  20. SylixOS 延时工作队列实现原理详解

热门文章

  1. 【Lintcode】076.Longest Increasing Subsequence
  2. python中的异常如何处理
  3. 远程电脑备份与还原数据库
  4. UVA11777 Automate the Grades【水题】
  5. 《程序设计技术》第一章例程
  6. 51Nod-1050 循环数组最大段和【最大子段和+最小子段和+DP】
  7. keras + tensorflow —— 使用预训练模型
  8. 东方乐器及音乐、音乐的常识
  9. #ifdef 的使用
  10. 郊寒岛瘦 —— 太平洋的小岛