多分类logistic回归

在临床研究中,接触最多的是二分类数据,如淋巴癌是否转移,是否死亡,这些因变量最后都可以转换成二分类0与1的问题。然后建立二元logistic回归方程,可以得到影响因素的OR值。

那么如果遇到多分类变量,如何进行logistic回归呢?譬如临床疗效分为好,中,差,三类,或者根据指标进行分类,分为高,中,低三类,我用1、2、3代表作为因变量,进行logistic回归分析。

image.png

接下来,该文,主要介绍,如果因变量为三分类变量,如何进行回归分析及机器学习算法对三分类资料的处理。关于原理理论部分可参见;这里主要讲如何在R实现三分类回归,计算系数及p值与OR值

1.数据案例

这里主要用到DALEX包里面包含的HR数据,里面记录了职工在工作岗位的状态与年龄,性别,工作时长,评价及薪水有关。根据7847条记录来评估,如果一个职工属于男性,68岁,薪水及评价处于3等级,那么该职工可能会处于什么状态。

library(DALEX)

library(iBreakDown)

library(nnet)

library(questionr)

try(data(package="DALEX"))

data(HR)

HR= HR %>% as.tbl() %>%

mutate(evaluation=factor(evaluation),

salary=factor(salary))

HR

## GLM

fit = multinom(status ~ . , data = HR, probabilities = TRUE, model = TRUE)

summary(fit)

coef(fit)

> summary(fit)

Call:

multinom(formula = status ~ ., data = HR, model = TRUE, probabilities = TRUE)

Coefficients:

(Intercept) gendermale age hours evaluation3 evaluation4 evaluation5

ok -5.47276 0.03437426 0.002594237 0.08305463 -0.07275332 -0.06763166 -0.156932

promoted -13.10377 0.10391193 0.004277562 0.19697483 -0.11679839 3.49127986 3.290217

salary1 salary2 salary3 salary4 salary5

ok 1.543631 2.469598 2.413207 1.758516 -0.09513189

promoted 1.650777 2.498608 2.435680 1.790657 -0.01215312

Std. Errors:

(Intercept) gendermale age hours evaluation3 evaluation4

ok 0.2407953 0.06427342 0.002784445 0.003669856 0.07434565 0.1061762

promoted 0.3475852 0.08023646 0.003458588 0.004692886 0.11569077 0.1303817

evaluation5 salary1 salary2 salary3 salary4 salary5

ok 0.1077599 0.1199301 0.1227032 0.1219577 0.1212186 0.1371131

promoted 0.1302725 0.1456579 0.1490790 0.1482045 0.1486752 0.1624046

Residual Deviance: 10744.64

AIC: 10792.64

> coef(fit)

(Intercept) gendermale age hours evaluation3 evaluation4 evaluation5

ok -5.47276 0.03437426 0.002594237 0.08305463 -0.07275332 -0.06763166 -0.156932

promoted -13.10377 0.10391193 0.004277562 0.19697483 -0.11679839 3.49127986 3.290217

salary1 salary2 salary3 salary4 salary5

ok 1.543631 2.469598 2.413207 1.758516 -0.09513189

promoted 1.650777 2.498608 2.435680 1.790657 -0.01215312

我们构建了三元回归模型,以status中fired为参照,计算ok与promoted中各个因素的系数。

有了这些系数,我们就可以写出回归方程了,然后再计算各个因素对应的p值

如,这里的例子介绍了其他因素的系数,然后计算对因变量的方程here

image.png

P值

通过Anova函数,可以输出fit中影响因素的p值,其中hours,evaluation及salary有统计学意义。说明他们对员工在职影响很大。然后进一步计算or值。

需要借助questionr包中的odds.ratio函数。

> Anova(fit)

Analysis of Deviance Table (Type II tests)

Response: status

LR Chisq Df Pr(>Chisq)

gender 1.7 2 0.4299

age 1.7 2 0.4329

hours 3464.1 2 <2e-16 ***

evaluation 2390.2 6 <2e-16 ***

salary 1132.4 10 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> round(odds.ratio(fit),2)

OR 2.5 % 97.5 % p

ok/(Intercept) 0.00 0.00 0.01 <2e-16 ***

ok/gendermale 1.03 0.91 1.17 0.59

ok/age 1.00 1.00 1.01 0.35

ok/hours 1.09 1.08 1.09 <2e-16 ***

ok/evaluation3 0.93 0.80 1.08 0.33

ok/evaluation4 0.93 0.76 1.15 0.52

ok/evaluation5 0.85 0.69 1.06 0.15

ok/salary1 4.68 3.70 5.92 <2e-16 ***

ok/salary2 11.82 9.29 15.03 <2e-16 ***

ok/salary3 11.17 8.79 14.19 <2e-16 ***

ok/salary4 5.80 4.58 7.36 <2e-16 ***

ok/salary5 0.91 0.69 1.19 0.49

promoted/(Intercept) 0.00 0.00 0.00 <2e-16 ***

promoted/gendermale 1.11 0.95 1.30 0.20

promoted/age 1.00 1.00 1.01 0.22

promoted/hours 1.22 1.21 1.23 <2e-16 ***

promoted/evaluation3 0.89 0.71 1.12 0.31

promoted/evaluation4 32.83 25.43 42.39 <2e-16 ***

promoted/evaluation5 26.85 20.80 34.66 <2e-16 ***

promoted/salary1 5.21 3.92 6.93 <2e-16 ***

promoted/salary2 12.17 9.08 16.29 <2e-16 ***

promoted/salary3 11.42 8.54 15.27 <2e-16 ***

promoted/salary4 5.99 4.48 8.02 <2e-16 ***

promoted/salary5 0.99 0.72 1.36 0.94

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

参考

r 多元有序logistic回归_R实现多分类logistic回归相关推荐

  1. r 多元有序logistic回归_R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用...

    原文链接 拓端数据科技 / Welcome to tecdat​tecdat.cn 通常,我们在回归模型中一直说的一句话是" 请查看一下数据 ". 在上一篇文章中,我们没有查看数据 ...

  2. r语言logistic回归_R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用...

    原文链接 :http://tecdat.cn/?p=14017​tecdat.cn 通常,我们在回归模型中一直说的一句话是" 请查看一下数据 ". 在上一篇文章中,我们没有查看数据 ...

  3. R语言使用epiDisplay包的logistic.display函数获取二分类logistic回归模型的汇总统计信息(自变量初始和调整后的优势比及置信区间,回归系数的Wald检验的p值、简化汇总结果

    R语言使用epiDisplay包的logistic.display函数获取二分类logistic回归模型的汇总统计信息(自变量初始和调整后的优势比及置信区间,回归系数的Wald检验的p值.自变量的似然 ...

  4. ML之分类预测之LARS:利用回归工具将二分类转为回归问题并采用LARS算法构建分类器

    ML之分类预测之LARS:利用回归工具将二分类转为回归问题并采用LARS算法构建分类器 目录 输出结果 设计思路 代码实现 输出结果 ['V10', 'V48', 'V44', 'V11', 'V35 ...

  5. r 多元有序logistic回归_基于R的有序分类资料logistic回归分析

    cosoft@163.com 基于 R 的有序分类资料 logistic 回归分析 韦杰,曾萍 (贵阳中医学院 基础医学院,贵州贵阳,550002) 摘 要: 本文描述有序分类资料的 logistic ...

  6. mllib逻辑回归 spark_Spark MLlib学习——分类和回归

    本章节介绍了分类和回归的算法.它还包括讨论特定类别的算法部分,如:线性方法,树和集成. 下面是整个API Doc中的内容框架,这里不会每个都详细介绍,主要会把用到的介绍出来,后续用到的再陆续添加.(下 ...

  7. ml回归_ML中的分类和回归是什么?

    ml回归 机器学习教程 (MACHINE LEARNING TUTORIAL) ML is extracting data from knowledge. ML正在从知识中提取数据. Machine ...

  8. r 多元有序logistic回归_R语言多元Logistic逻辑回归 应用案例

    可以使用阶梯函数通过逐步过程确定多重逻辑回归.此函数选择模型以最小化AIC. 如何进行多重逻辑回归 可以使用阶梯函数通过逐步过程确定多重逻辑回归.此函数选择模型以最小化AIC. 通常建议不要盲目地遵循 ...

  9. r语言boxcox异方差_R语言讲义(包括各种回归).pptx

    R 语言讲义;免费(没有权力和铜臭)资源公开, 可改变代码(不是黑盒子,也不是吝啬鬼, 透明是防止"腐败"的最好方式) 容易学习.可编程以实行复杂的课题可扩展: 通过数千个网上提供 ...

最新文章

  1. 如何使用Exchange邮件组仲裁
  2. 3.11课·········异常语句与for循环重复
  3. 四舍五入到小数点后两位[重复]
  4. htpasswd java_mod_rewrite,reverseProxy和.Htpasswd
  5. python pip全称_Python pip 安装与使用
  6. qopenglwidget 透明_廊坊透明真空袋用途-祺泰包装
  7. java传递实例_Java方法的参数传递机制实例详解
  8. ucharts 折线 点_ucharts图表引入的两种方式
  9. TP框架中的A方法和R方法
  10. eclipse里source的快捷方法_Eclipse快捷键大全
  11. Wing IDE Pro 6 for Mac(Python开发工具)安装破解图文教程
  12. thing.js入门学习
  13. java 新词发现,Java新词发现算法码源之使用
  14. Python数据分析-LOL英雄画像 !
  15. ceph 代码分析 读_Ceph代码分析
  16. YOLOE,2022年新版YOLO解读
  17. VMware虚拟机连接外网
  18. tracert使用与现象排查
  19. c++实现贪心法构造最大整数问题
  20. 让Windows系统自动加载SATA驱动程序(转)

热门文章

  1. 发布职位:图森未来TuSimple# 4月份纳斯达克上市base 北上技术路线:激光雷达+毫米波雷达+摄像头 + 高级规划决策 + 高精地图前端后端软件大数据感知定位算法
  2. UE4-构建更好的静态网格体
  3. 软件架构设计之理论篇
  4. Linux内核如何加载固件,驱动是如何工作的_Linux设备驱动的固件加载详解
  5. java web项目部署到tomcat服务器(一般步骤和自己所犯错误的总结)————高手忽略
  6. Ubuntu深度学习环境配置一箩筐
  7. LAC:location area code 位置区码
  8. 微信小程序---常用的指令/组件
  9. 【技术向】rainmeter的设计与发现
  10. 数据仓库面试题汇总-数仓-四