用excel做logistic回归分析_怎样用SPSS做二项Logistic回归分析？结果如何解释？

使用Logistic模型前，需判断是否满足以下七个研究假设：假设1：因变量即结局是二分类变量。

假设2：有至少1个自变量，自变量可以是连续变量，也可以是分类变量。

假设3：每条观测间相互独立。分类变量(包括因变量和自变量)的分类必须全面且每一个分类间互斥。

假设4：最小样本量要求为自变量数目的15倍，也有一些研究者认为样本量应达到自变量数目的50倍

假设5：连续的自变量与因变量的logit转换值之间存在线性关系。

假设6：自变量间不存在共线性。

假设7：没有明显的离群点、杠杆点和强影响点。

因为题主问的是如何使用SPSS来操作以及结果如何解释，下面主要讲一下SPSS的操作方法和结果解释。对以上研究假设的验证就不再详述了。

一、问题与数据

某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系，开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组，选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息：性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析？

表1. 肺癌危险因素分析研究的变量与赋值

表2. 部分原始数据

二、对问题分析

该设计中，因变量为二分类，自变量(病例对照研究中称为暴露因素)有二分类变量(性别、BMI和是否吸烟)、连续变量(年龄)和有序多分类变量(COPD病史)。要探讨二分类因变量与自变量之间的关系，应采用二分类Logistic回归模型进行分析。

在进行二分类Logistic回归(包括其它Logistic回归)分析前，如果样本不多而变量较多，建议先通过单变量分析(t检验、卡方检验等)考察所有自变量与因变量之间的关系，筛掉一些可能无意义的变量，再进行多因素分析，这样可以保证结果更加可靠。即使样本足够大，也不建议直接把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，确定自变量进入方程的形式，这样才能有效的进行分析。

本例中单变量分析的结果见表3(常作为研究报告或论文中的表1)。

表3. 病例组和对照组暴露因素的单因素比较

单因素分析中，病例组和对照组之间的差异有统计学意义的自变量包括：性别、COPD病史和是否吸烟。

此时，应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下，建议纳入的变量有：1)单因素分析差异有统计学意义的变量(此时，最好将P值放宽一些，比如0.1或0.15等，避免漏掉一些重要因素)；2)单因素分析时，没有发现差异有统计学意义，但是临床上认为与因变量关系密切的自变量。

本研究中，年龄和BMI与因变量没有统计学关联。但是，临床认为年龄也是肺癌发生的可能危险因素，因此Logistic回归模型中，纳入以下自变量：性别、年龄、COPD病史和是否吸烟。

此外，对于连续变量，如果仅仅是为了调整该变量带来的混杂(不关心该变量的OR值)，则可以直接将改变量纳入Logistic回归模型；如果关心该变量对因变量的影响程度(关心该变量的OR值)，一般不直接将该连续变量纳入模型，而是将连续变量转化为有序多分类变量后纳入模型。这是因为，在Logistic回归中直接纳入连续变量，那么对于该变量的OR值的意义为：该变量每升高一个单位，发生结局事件的风险变化(比如年龄每增加1岁，患肺癌的风险增加1.02倍)。这种解释在临床上大多数是没有意义的。

三、SPSS操作

(1)数据录入SPSS

(2)选择Analyze→Regression→Binary Logistic

(3)选项设置

1)主对话框设置：将因变量cancer送入Dependent框中，将纳入模型的自变量sex, age, BMI和COPD变量Covariates中。本研究中，纳入age变量仅仅是为了调整该变量带来的混杂(不关心该变量的OR值)，因此将age直接将改变量纳入Logistic回归模型。

对于自变量筛选的方法(Method对话框)，SPSS提供了7种选择，使用各种方法的结果略有不同，读者可相互印证。各种方法之间的差别在于变量筛选方法不同，其中Forward: LR法(基于最大似然估计的向前逐步回归法)的结果相对可靠，但最终模型的选择还需要获得专业理论的支持。

2)Categorical设置：该选项可将多分类变量(包括有序多分类和无序多分类)变换成哑变量，指定某一分类为参照。本研究中，COPD是多分类变量，我们指定“无COPD病史”的研究对象为参照组，分别比较“轻/中度”和“重度”组相对于参照组患肺癌的风险变化。

点击Categorical→将左侧Covariates中的COPD变量送入右侧Categorical Covariates中。点击Contrast右侧下拉菜单，选择Indicator(该下拉菜单内的选项是几种与参照比较的方式，Indicator方式最常用，其比较方法为：第一类或最后一类为参照类，每一类与参照类比较)。

在Reference Category的右侧选择First(表示选择变量COPD中，赋值最小的，即“0”作为参照。如果选择Last则表示以赋值最大的作为参照)→点击Change→点击Continue。

3)Options设置中，勾选如下选项及其意义：

Hosmer-Lemeshow goodness-of-fit：检验模型的拟合优度；

CI for exp(B)：结果给出OR值的95%可信区间；

Display→At last step：仅展示变量筛选的最后一步结果。

→Continue→回到主界面→OK

四、结果解释

Logistic回归的结果给出了很多表格，我们重点关注三个表格。

(1)Omnibus Tests of Model Coefficients：模型系数的综合检验。其中Model一行输出了Logistic回归模型中所有参数是否均为0的似然比检验结果。P<0.05表示本次拟合的模型中，纳入的变量中，至少有一个变量的OR值有统计学意义，即模型总体有意义。

(2)Hosmer and Lemeshow Test：是检验模型的拟合优度。当P值不小于检验水准时(即P>0.05)，认为当前数据中的信息已经被充分提取，模型拟合优度较高。

(3)Variables in the Equation：

1)本次统计过程中筛选变量的方式是Forward: LR法，Variables in the Equation表格中列出了最终筛选进入模型的变量和其参数。其中Sig.一列表示相应变量在模型中的P值，Exp (B)和95% CI for EXP (B)表示相应变量的OR值和其95%可信区间。

对于sex, smoke这两个二分类变量，OR值的含义为：相对于赋值较低的研究对象(sex赋值为“0”的为女性；smoke赋值为“0”的为不吸烟)，赋值较高的研究对象(男性、吸烟者)发生肺癌的风险为是多少(2.308倍、3.446倍)。

2)对于多分类变量COPD，设置中以“0”组作为参照，则得到的结果是“1”组、“2”组分别对应于“0”组的OR值。在Logistic回归中，设置过哑变量的多分类变量是同进同出的，即只要有一组相对于参照组的OR值有统计学意义，则该变量的全部分组均纳入模型。COPD变量的第一行没有OR值，其P值代表该变量总体检验的差异有统计学意义(即至少有一组相对于参照组的OR值有统计学意义)。

3)本研究中的COPD变量以“0”组作为参照，因此COPD (1)行的参数中给出了“1”相对于“0”组的OR值和P值，而在COPD (2)行的参数中给出了“2”组相对于“0”组的OR值和P值。

4)Constant为回归方程的截距，在模型中一般没有实际意义，大家可不必关注。

五、撰写结论

本研究发现，85例肺癌患者中，吸烟者67例(78.8%)；259例非肺癌患者中，吸烟者153例(59.1%)，肺癌患者和非肺癌患者中的吸烟率的差异有统计学意义(χ2=10.829, P<0.01)。Logistic回归模型在调整了性别和COPD病史后，吸烟者相对于不吸烟者，发生肺癌的风险增加(OR=3.45, 95% CI: 1.86-6.40)。

多变量分析的结果见表4(常作为研究报告或论文中的表2)。

表4. 肺癌危险因素的Logistic回归分析

上述内容是医咖会以前推送过的SPSS教程，希望能对你有所帮助。其他统计方法的SPSS教程，例如多分类logistic回归，Cox回归，方差分析之类的方法，教程思路和上述类似，感兴趣的话，可以去官网查看：医咖会 - 临床研究设计和医学统计交流平台)

用excel做logistic回归分析_怎样用SPSS做二项Logistic回归分析？结果如何解释？相关推荐

【Clemetine】基于二项Logistic回归的电信客户流失预测
一.实验目的及要求 1.掌握Logistic回归分析的基本步骤.原理.软件实现.结果分析: 2.理解多重共线性的概念.原理及岭轨迹的软件实现: 3.了解高维数据分析的应用领域及分析方法. 二.实验仪器 ...
二元logistic模型案例_SPSS二项logistic回归分析案例实践，做个预测模型
SPSS二项logistic回归分析案例实践,做个预测模型自己动手实践是学习统计软件工具的捷径之一. 收集到某公司各个商户id,以及他们的注册时长.营业收入.成本数据,以及合作续约的情况,现在我们想 ...
如何用excel做正交分析_如何在SPSS中进行正交设计及正交分析?
设要做二因素的正交设计,A因素有三个水平,B因素有两个水平.则选择Data-->Orthogonal Design-->generate,弹出的就是正交设计窗口: Factor name框 ...
origin做主成分分析图_如何用SPSS做主成分分析？学习资料集锦
欢迎订阅SPSS训练营微信号上一篇推送,邀请所有人参与上机训练的第22期作业,主题是主成分分析.然后就有读者说没有一点基础,但还是想参与一下实践,怎么办? 此时就要看大家的学习能力了. 遇到一个陌生 ...
sap运维要做哪些工作_社会工作师可以做哪些工作？考试难不难？
导语什么是社会工作师?社会工作师考试难不难?社会工作师可以做哪些工作?一起来了解一下! 一听说社会工作师前景比较好,遂有很多人想要报考社会工作师考试,但是什么是社会工作师呢?社会工作师考试难不难呢? ...
华为做raid5步骤_华为RH2288V5服务器做RAID 0(官方推荐做法)
华为RH2288V5服务器采用的Avago SAS3408阵列卡,RAID做法跟RH2285 RH1285不一样,今天薇晓兰就带各位了解下如何给RH2288V5服务器做RAID! 由于Avago SA ...
离线处理需要做哪些工作_游戏配音需要做哪些工作？
游戏配音的工作可以细分为三个阶段:录制准备阶段.录制阶段和后期处理阶段,下面小编将根据这三个方面做详细的介绍. 第一阶段--录制准备阶段游戏配音员在拿到游戏角色的资料之后,先要对这个资料进行一次完整 ...
下列哪个适合做链栈_外贸企业如何做Google推广？自然排名和付费广告哪个更适合你？...
外贸企业借助Google做海外推广,已经成为行业共识,即使像阿里巴巴这样的B2B平台每年也要砸大钱从Google引流.但是很多外贸企业一直纠结于是该做自然排名推广还是付费广告推广,两者的区别可不是免费 ...
python能做界面吗_如何使用pyQT做pythonGUI界面|
如何使用pyQT做pythonGUI界面| python3 gui教程2020-09-24 23:12:27人已围观 python开发的gui漂亮吗可以 0.前言有不学者会问,Python 写的程 ...

用excel做logistic回归分析_怎样用SPSS做二项Logistic回归分析？结果如何解释？

用excel做logistic回归分析_怎样用SPSS做二项Logistic回归分析？结果如何解释？相关推荐

最新文章

热门文章