目录

13.1二元Logistic回归分析

案例延伸

延伸1:设定模型预测概率得具体值

延伸2:使用Probit模型对二分类因变量进行拟合

13.2多元Logistic回归分析

案例延伸

延伸:根据模型预测每个样本视力低下程度的可能性

13.3有序Logistic回归

案例延伸

延伸:试用Probit模型对有序分类因变量进行拟合


前面我们讲述得回归分析方法都要求因变量是连续变量,但很多情况下因变量是离散得而非连续得。例如,公司招聘人才时根据对应聘人员得特征做出录用或者不录用得评价、毕业学生对职业得选择等。这时就需要用到Logistic回归分析。根据因变量得离散特征:常用得Logistic回归分析方法有3终,包括二元Logistic回归分析、多元Logistic回归分析以及有序Logistic回归分析等。

13.1二元Logistic回归分析

我们经常会遇到因变量只有两种取值的情况,例如是否患病、是否下雨等,这时一般的线性回归分析将无法准确刻画变量之间的因果关系,需要用其他的回归分析方法来进行拟合模型。Stata的二项分类Logistic回归便是一种简便的处理二分类因变量问题的分析方法。

数据(案例13.1)给出了20名肾癌患者的相关数据。试用二分类Logistic回归分析方法分析患者肾细胞转移情况(有转移y=1、无转移y=0)与患者年龄、肾细胞癌血管内皮生长因子(其阳性表示由低到高3个等级)、肾细胞核组织学分级(由低到高共4级)、肾细胞癌组织内微血管数、肾细胞癌分期(由低到高共4期)之间的关系。

logit V1 V2 V3 V4 V5 V6 #本命令的含义时以V1为因变量,以V2 V3 V4 V5 V6 为自变量,进行二元Logistic回归分析,研究变量之间的因果影响关系。其中自变量的影响是以回归系数的形式输出的。

          从上述分析结果可以看出由20个样本参与了分析,模型的F值(5,14)=1.64,P值(Prob > F)= 0.2135,说明模型整体是不显著的。模型的可决系数(R-squared)为0.3695,模型的修正的可决系数(Adj R-squared)为0.1444,说明模型的解释能力也是比较差的。下面的不过多赘述哈。我们可以看出最小二乘线性模型的整体显著性、系数显著性以及模型的整体解释能力都是由较大提升看空间的。

可以得到最小二乘回归方程模型是:

V1 = -0.0061692*V2+。。。+0.7871698

logistic V1 V2 V3 V4 V5 V6 #本命令的含义是进行二元Logistic回归分析,研究变量之间的因果关系。其中自变量的影响是以(Odds Ratio)的形式输出的。

上图是以V1为因变量,以V2 V3 V4 V5 V6 为自变量,进行二元Logistic回归分析。其中,自变量的影响是以优势比(Odds Ratio)的形式输出的。从上图可以看出Logistic相对于最小二乘回归模型得到了很大程度的改进。。模型的整体显著性P值达到了9%左右(Prob > chi2 = 0.0934)伪R方达到了35%(Pseudo R2 = 0.3500),解释能力得到了进一步提高。各个变量系数的显著程度也有不同程度的提高。

与一般的回归形式不同,此处自变量的影响是以优势比的形式输出的。它的含义是:在自变量保持不变的条件下,被观测自变量每增加1个单位时y=1的发成比的变化倍数。可以看出,各个变量中只有V6变量的增加回引起因变量取1值得大于1倍得增加,这说明只有V6是与因变量呈现正向变化,只有V6使得因变量取1得概率更大。

logit V1 V2 V3 V4 V5 V6   #本命令得含义是进行二元Logistic回归分析,研究变量之间得因果影响关系。其中变量得影响是以回归系数得形式输出得。

上图可以看出该模型与使用Logistic命令回归得到得结果是一致得,只是自变量影像输出得形式由优势比换成了回归系数。

最终模型表达式为:

LNV1 = -0.0644172*V2+...+3.224457

其中LNV1  V2 V3 V4 V5 V6 分别表示肾细胞发生癌转移概率得对数值、年龄、肾细胞癌血管内皮生长因子、肾癌细胞核组织学分级、肾细胞癌组织内微血管数和肾细胞癌分期。

综上所述,我们得到得结论是:年龄、肾细胞癌血管内皮生长因子、肾癌细胞分级、肾细胞癌组织内微血管数与肾细胞癌转移呈反向变化,肾细胞癌分期与肾细胞癌转移呈正向变化,但这些变化并不是特别显著。

estat clas  #本命令得含义是计算预测准确得百分比,并提供分类统计和分类表lstat #本命令是上条命令“estat clas”得另一种表达形式

从上图我们可以看出很多信息。按照系统默认设置,系统使用0.5作为分割点。分类中得D、-D、“+”、“-”分别表示以下含义:

D:表示一个观测样本所关注得事件确实发生了,也就是说Y得值去到了1,在本例中,也就是说肾细胞确实发生了癌转移。

-D:表示一个观测样本所关注得事件的确没有发生,也就是说Y得值渠道了0,在本例中,也就是说肾细胞的确没有发生癌转移

+:表示模型预测得概率值大于分割点,本例中,也就是说模型预测得肾细胞发生癌转移得概率为0.5或者更多。

-:表示模型预测得概率值小于分割点,本例中,也就是说模型预测的肾细胞发生癌转移得概率低于0.5。

所以按照模型预测肾细胞发生癌转移得概率至少在0.5以上得标准,有6次是肾细胞确实发生了癌转移而且模型预测得概率值大于分割点,有10次是肾细胞确实没有发生癌转移而且模型预测得概率值小于分割点,所以,一共有16个样本得预测是正确得,预测正确率占全部样本得80%。有2次肾细胞确实发生了癌转移但模型预测得概率值小于分割点,有2次肾细胞确实没有发生癌转移但模型预测得概率值大于分割点,一共有4个样本得预测是错误得,预测错误了占全部样本的20%。

predict yhat #本命令旨在估计因变量得拟合值。它创建一个命名为yhat得新变量,等于最近一次Logistic模型基础上y=1得预测概率

二元Logistic得因变量拟合值预测结果表示得含义是y=1得概率,本例所表示得含义是肾细胞发生癌转移得概率。

estat gof  #本米兰旨在判断模型得拟合效果或者说模型得解释能力

可以看到Prob > chi2 = 0.3503,说明模型得解释能力还是差强人意得,但比最小二乘线性回归模型要好处很多。

案例延伸

延伸1:设定模型预测概率得具体值

estat clas,cutoff(0.8)r

延伸2:使用Probit模型对二分类因变量进行拟合

probit V1 V2 V3 V4 V5 V6  #使用Probit回归分析,研究变量之间得因果影响关系

         Probit模型与Logistic模型所得得结果相差不大,模型整体得显著程度和解释能力都相比最小二乘回归分析有所提高。

mfx #本命令旨在计算在样本均值处得边际效应

Probit模型在样本均值处得标记效应与最小二乘回归分析相差不大。

estat clas #计算预测百分比,并提供分类统计和分类表
predict yhat  #估计因变量得拟合值。它创建一个yhat变量,等于最近一次Probit模型基础上y=1得预测概率

上述结果不过多赘述。

13.2多元Logistic回归分析

我们经常回遇到因变量有多个取值而且无大小顺序得情况,例如职业、婚姻情况等,这时一般得线性回归分析无法准确得刻画变量之间得因果关系,需要用其他得回归分析方法来进行拟合模型。多项分类Logistic回归便是一种简便处理该类因变量问题的分析方法。

数据(案例13.2)给出了山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性2代表女性)之间的关系。

reg V1-V3  #对数据进行最小二乘回归分析

mlogit V1 V2 V3,base(1) #本命令的含义是以V1为因变量,以V2 V3 为自变量,并设定第一组为参照组(视力低下程度为1),进行多元Logistic回归分析,研究变量之间的因果影响关系。其中自变量是以回归系数的形式输出的

从上图可以看出Logistic模型与最小二乘回归估计效果相差不大。模型的整体显著性达到了0.0079(prob > chi2 = 0.0079)。伪R方达到了33.58%(Pseudo R2 = 0.3358)解释能力进一步提高。

从上图分析结果可以看到V2和V3系数在第2组和第3组都是大于0的,这意味着V2和V3两个变量的值越大就越容易被分到2,3组,这表示性别为女年龄越大,越容易被分到中度视力低下,重度视力低下组。

最终模型方程为:

G1=0 因为轻度时因变量重的参考组,其所有系数均为0

G2=LOG[P(低下中度)/P(低下轻度)]=-14.82979+0.8356566*年龄+0.732262*性别1

G3=LOG[P(低下重度)/P(低下轻度)]=-71.13788+2.112522*年龄+18.39871*性别1

mlogit V1 V2 V3,base(1)rrr  #本命令的含义是以V1为因变量,以V2 V3 为自变量,并设定第一组为参照组(视力低下程度为1),进行多元Logistic回归分析,研究变量之间的因果影响关系。其中自变量是以相对风险比率的形式输出的

与二元Logistic的优势比(Odds Ratio)的概念类似,相对风险比率的含义是:在其他自变量保持不变的条件下,被观测自变量每增加1个单位y=1的发生比的变化倍数。可以看出,当B2增加或者性别为女生时,他会有相当大的概率会被分到第三组,即重度视力低下,当年龄偏大时,它也有较大概率被分到第三组,即重度视力低下。

案例延伸

延伸:根据模型预测每个样本视力低下程度的可能性

predict eye1 eye2 eye3  

如图所示,第一个观测样本为男性,15岁,他有80%的概率进入第一组,即轻度视力低下,有极小的甚至可以忽略不记得概率被分到第三组,即重度视力低下。其他得观测样本,可以按照类似得方法逐一进行分析,可以看出,我们得模型构建得不错,模型得预测能力也是比较优秀得。

13.3有序Logistic回归

在有些分析研究中,因变量虽然离散但存在这一定得排序,例如消费者对服务行业满意度得评价(很满意、基本满意、不满意、很不满意),又例如消费者对某种品牌产品得忠诚度得衡量(很喜欢、比较喜欢、不喜欢、很不喜欢)。在上述情况下,使用最小二乘回归分析以及二元或多元Logistic回归分析都不能获得比较好得效果,这时就需要用到我们得有序Logistic。

数据(案例13.3)为了获得消费者得满意情况,某公司对120为随机抽取得消费者进行了调查,其中回收有效样本114个,相关信息如图所示,试用有序Logistic回归方法分析消费者满意程度(1表示很满意、2表示基本满意、3表示不满意)与性别(1代表男生,2代表女生)、学历(1表示大学专科及以下,2表示大学本科,3表示研究生及以上)之间得关系。

reg V1-V3  #对数据进行最小二乘回归分析

ologit V1 V2 V3  #本命令得含义时以V1为因变量,以V2 V3 为自变量,进行有序Logistic回归分析,研究变量之间得因果影响关系。

可以看出有序Logistic模型与最小二乘回归估计效果相差不大。模型得整体显著性P值远远低于5%伪R方达到了45.54%。

从图中可以看出V2和V3得系数在第二组和第三组都是大于0得,这意味着V2和V3两个变量的值越大越容易分到后面的组,表示性别为女,学里越高,越容易被分到消费者满意程度较低得组。

cut1 / cut2 表示得含义是割点的估计值,两个割点把样本分成了3个区间,也就是消费者3个不同的满意程度。当样本的因变量拟合值在cut1 之下时,他被分到第1组,消费者满意度为最高;当样本介于 cut1 和 cut2 之间时,它被分到第2组,满意度为中等;当样本的因变量拟合值在cut2之上时,它被分到第3组。消费满意程度为最低。

predict sat1 sat2 sat3

如图所示,第一个观测样本为男性,学历为学学专科以下,他又88%的概率进入第1组,即消费者满意程度为最高,又极小可能甚至忽略的概率进入第3组,即消费者满意程度最低。

案例延伸

延伸:试用Probit模型对有序分类因变量进行拟合

oprobit V1 V2 V3  #进行probit回归分析predict sat11 sat22 sat33 #估计因变量的拟合值。它创建一个命名为yhat的新变量,等于最近一次probit模型基础上y=1的预测概率

结果不再过多赘述。

第13章Stata Logistic回归分析相关推荐

  1. 第12章 Stata非线性回归分析

    目录 12.1非参数回归分析 案例延伸 延伸1:设定散点图被分成垂直等宽波段的数量 延伸2:设定修匀的波段宽度 12.2转换变量回归分析 12.3非线性回归 案例延伸 延伸1:设定非线性回归模型中被估 ...

  2. 《利用Python进行数据分析·第2版》第13章 Python建模库介绍

    第1章 准备工作 第2章 Python语法基础,IPython和Jupyter 第3章 Python的数据结构.函数和文件 第4章 NumPy基础:数组和矢量计算 第5章 pandas入门 第6章 数 ...

  3. 多元有序logistic回归分析_多元Logistic_回归分析解析.ppt

    医学研究中经常遇到分类型变量 二分类变量: 生存与死亡 有病与无病 有效与无效 感染与未感染 多分类有序变量: 疾病程度(轻度.中度.重度) 治愈效果(治愈.显效.好转.无效) 多分类无序变量: 手术 ...

  4. 简单线性回归截距假设检验_第10章 简单线性回归分析思考与练习参考答案

    第10章 简单线性回归分析 思考与练习参考答案 一.最佳选择题 1.如果两样本的相关系数r1?r2,样本量n1?n2,那么( D ). A. 回归系数b1?b2 B.回归系数b1?b2 C. 回归系数 ...

  5. 《机器学习》慕课版课后习题-第13章

    中国工信出版集团.人民邮电出版社出版的赵卫东.董亮编著的<机器学习>慕课版 第13章 推荐系统 1.推荐系统的功能是什么? 解:推荐系统是一种帮助用户快速发现有用信息的工具.通过分析用户的 ...

  6. 第13章 Kotlin 集成 SpringBoot 服务端开发(1)

    第13章 Kotlin 集成 SpringBoot 服务端开发 本章介绍Kotlin服务端开发的相关内容.首先,我们简单介绍一下Spring Boot服务端开发框架,快速给出一个 Restful He ...

  7. c++primer plus 第13章 编程题第2题

    c++primer plus 第13章 编程题第2题 #pragma once #ifndef CD_H_ #define CD_H_ //base classclass Cd { private:c ...

  8. 鸟哥的Linux私房菜-第10/11/12/13章(vim程序编辑器、学习bash、正则表达式与文件格式化处理、学习Shell Scripts)...

    第10章 vim程序编辑器 可以将vim看做vi的进阶版本,vim可以用颜色或底线等方式来显示出一些特殊的信息. 为何要学习vim?因为: a. 所有的 Unix Like 系统都会内建 vi 文书编 ...

  9. Spring - Java/J2EE Application Framework 应用框架 第 13 章 集成表现层

    第 13 章 集成表现层 13.1. 简介 Spring之所以出色的一个原因就是将表现层从MVC的框架中分离出来.例如,通过配置就可以让Velocity或者XSLT来代替已经存在的JSP页面.本章介绍 ...

  10. 服务器显示rl112,【RL-TCPnet网络教程】第13章 RL-TCPnet之TCP服务器(下)

    第13章      RL-TCPnet之TCP服务器(下) 本章节为大家讲解RL-TCPnet的TCP服务器实现,学习本章节前,务必要优先学习第12章TCP传输控制协议基础知识.有了这些基础知识之后, ...

最新文章

  1. HDU 1824 Let's go home
  2. wxWidgets:wxTextCtrl类用法
  3. 中国连续十年成马来西亚最大贸易伙伴
  4. Swift 中的Closures(闭包)详解
  5. websocketpp最简单的服务器
  6. php系统如何连接数据库服务器,php如何连接数据库服务器
  7. java 时间格式化 星期_Java SimpleDateFormate时间格式化
  8. java heap space 解决方法_内存溢出错误:java堆空间
  9. softmgr主程序_360软件管家下载的安装程序在哪个文件夹
  10. word之中快速插入已有公式的几种方法
  11. 拍牌神器是怎样炼成的(一)--- 键鼠模拟之WinAPI
  12. QQ的常用快捷键大全
  13. 51单片机DS18B20测温LCD12864显示
  14. Android开发辅助工具类 Utils 汇总
  15. 新版本微信分享sdk(1.8.3)踩坑实录
  16. SQL语句多表查询:【多表连查】和【子查询】
  17. 串口TXD和RXD的线序导致不能通信的问题
  18. ffmpeg--学习笔记1-下载安装
  19. 分布式切换历史库总结
  20. 【Java】关于编程环境

热门文章

  1. 自助建站平台实力比拼:凡科、微企点、建站之星、宝华建站、微魔方、上线了...
  2. Kodak Preps 8 for Mac(专业拼版软件)
  3. FastStone Capture无法录制系统声音解决方法(win10)
  4. 修改注册表让PPC手机更加省电方法
  5. JavaScript交互式网页设计作业目录(作业笔记)
  6. 阿里巴巴普惠_阿里巴巴的普惠字体来了,再也不用担心版权问题了。
  7. 【热门主题:银魂win7主题】
  8. Webapck Vue多页面商城模板
  9. swf转html5批量转换,gif转swf转换工具,gif转swf格式转换器|批量转换
  10. 基于SSM+Bootstrap+MYSQL演唱会网上订票系统