拓端tecdat|R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风
原文链接:http://tecdat.cn/?p=9195
原文出处:拓端数据部落公众号
加载包
library(ggplot2)
载入资料
load("brfss2013.RData")
第1部分:关于数据
行为风险因素监视系统(BRFSS)是美国的年度电话调查。BRFSS旨在识别成年人口中的危险因素并报告新兴趋势。例如,询问受访者饮食和每周的体育锻炼,艾滋病毒/艾滋病状况,可能的烟草使用,免疫接种,健康状况,健康天数-与健康相关的生活质量,获得医疗保健,睡眠不足,高血压意识,胆固醇意识,慢性健康状况,饮酒,水果和蔬菜消费,关节炎负担和安全带使用。
数据采集:
数据收集过程在brfss_codebook中进行了说明。通过进行座机电话调查和基于蜂窝电话的调查,从美国所有50个州,哥伦比亚特区,波多黎各,关岛和美属萨摩亚,密克罗尼西亚联邦和帕劳收集了数据。固定电话样本已使用了不成比例的分层抽样(DSS),并且随机选择了蜂窝电话受访者,每个受访者具有相同的选择概率。我们正在处理的数据集包含330个变量,2013年共进行491、775次观测。缺失值用“ NA”表示。
推广性:
样本数据应使我们能够推广到感兴趣的人群。它是对491,775名18岁以上美国成年人的调查。它基于大量分层的随机样本。潜在偏见与无回应,不完整的访谈,价值观缺失和便利偏见有关。
因果关系:
BRFSS是一项观察研究,只能建立变量之间的相关性/关联性,因此无法建立因果关系。
第2部分:研究问题
研究问题1:
在过去30天内,身心健康状况不佳的天数分布是否因性别而异?
研究问题2:
受访者接受采访的月份与受访者自我报告的健康感知之间是否存在关联?
研究问题3:
收入和医疗保险之间有关联吗?
研究问题4:
吸烟,饮酒,胆固醇,血压,体重和中风之间是否有任何关系?最终,我想看看是否可以通过上述变量预测中风。
第3部分:探索性数据分析
研究问题1:
ggplot(aes(x=physhlth, fill=sex), data = brfss2013[!is.na(brfss2013$sex), ]) +geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Physical Health not Good in the Past 30 Days')
ggplot(aes(x=menthlth, fill=sex), data=brfss2013[!is.na(brfss2013$sex), ]) +geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Mental Health not Good in the Past 30 Days')
ggplot(aes(x=poorhlth, fill=sex), data=brfss2013[!is.na(brfss2013$sex), ]) +geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days with Poor Physical Or Mental Health in the Past 30 Days')
summary(brfss2013$sex)
## Male Female NA's
##201313 290455 7
以上三个数字显示了过去30天内男性和女性对身体,精神和健康状况不佳的天数做出反应的数据分布。我们可以看到,女性受访者比男性受访者要多得多。
研究问题2:
我试图找出人们在不同月份对健康状况的反应是否不同。例如,人们是否更有可能说自己在春季或夏季身体健康?
研究问题3:
一般而言,高收入受访者比低收入受访者更有可能获得医疗保健。
研究问题4:
为了回答这个问题,我将使用以下变量:
smoke100:抽至少100支香烟
avedrnk2:过去30天每天平均含酒精饮料
bphigh4:曾经血压过高
tellhi2:高胆固醇血症
weight2:报告的磅数
cvdstrk3:曾经被诊断为中风
首先,将上述变量转换为数字,并查看这些数字变量之间的相关性。
corr.matrix <- cor(selected_brfss)
corrplot(corr.matrix, main="\n\nCorrelation Plot of Smoke, Alcohol, Blood pressure, Cholesterol, and Weight", method="number")
似乎没有任何两个数字变量具有很强的相关性。
Logistic回归预测中风
将答案“是,但女性仅在怀孕期间告知”和“告诉临界点或高血压前”回答为“是”。
将“ NA”值替换为“否”。
stroke$bphigh4 <- replace(stroke$bphigh4, which(is.na(stroke$bphigh4)), "No")
stroke$toldhi2 <- replace(stroke$toldhi2, which(is.na(stroke$toldhi2)), "No")
stroke$cvdstrk3 <- replace(stroke$cvdstrk3, which(is.na(stroke$cvdstrk3)), "No")
stroke$smoke100 <- replace(stroke$smoke100, which(is.na(stroke$smoke100)), 'No')
平均替换“ NA”值。
mean(stroke$avedrnk2,na.rm = T)
##[1] 2.209905
stroke$avedrnk2 <- replace(stroke$avedrnk2, which(is.na(stroke$avedrnk2)), 2)
看一下将用于建模的数据。
head(stroke)
summary(stroke)
## bphigh4 toldhi2 cvdstrk3 weight2 smoke100 avedrnk2
##1 Yes Yes No 154 Yes 2
##2 No No No 30 No 2
##3 No No No 63 Yes 4
##4 No Yes No 31 No 2
##5 Yes No No 169 Yes 2
##6 Yes Yes No 128 No 2
## bphigh4 toldhi2 cvdstrk3 weight2 smoke100
## No :284107 Yes:183501 Yes: 20391 Min. : 1.00 Yes:215201
## Yes:207668 No :308274 No :471384 1st Qu.: 43.00 No :276574
## Median : 73.00
## Mean : 80.22
## 3rd Qu.:103.00
## Max. :570.00
## avedrnk2
## Min. : 1.000
## 1st Qu.: 2.000
## Median : 2.000
## Mean : 2.099
## 3rd Qu.: 2.000
## Max. :76.000
二进制结果。
在整理和清理数据之后,现在我们可以拟合模型。
Logistic回归模型拟合
summary(model)
##Call:
##glm(formula = cvdstrk3 ~ ., family = binomial(link = "logit"),
## data = train)##Deviance Residuals:
## Min 1Q Median 3Q Max
##-0.5057 -0.3672 -0.2109 -0.1630 3.2363 ##Coefficients:
## Estimate Std. Error z value Pr(>|z|)
##(Intercept) -3.2690106 0.0268240 -121.869 < 2e-16 ***
##bphigh4Yes 1.3051850 0.0193447 67.470 < 2e-16 ***
##toldhi2No -0.5678048 0.0171500 -33.108 < 2e-16 ***
##weight2 -0.0009628 0.0001487 -6.476 9.41e-11 ***
##smoke100No -0.3990598 0.0163896 -24.348 < 2e-16 ***
##avedrnk2 -0.0274511 0.0065099 -4.217 2.48e-05 ***
##---
##Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1##(Dispersion parameter for binomial family taken to be 1)## Null deviance: 136364 on 389999 degrees of freedom
##Residual deviance: 126648 on 389994 degrees of freedom
##AIC: 126660##Number of Fisher Scoring iterations: 6
解释我的逻辑回归模型的结果:
所有变量均具有统计学意义。
所有其他变量都相等,被告知血压升高,更可能发生中风。
预测变量的负系数-tellhi2No表示,所有其他变量相等,没有被告知血液中胆固醇水平较高,则发生中风的可能性较小。
每单位重量改变,具有冲程(相对于无冲程)的对数几率降低0.00096。
至少抽100支香烟不抽烟,中风的可能性较小。
在过去30天内,每天平均含酒精饮料增加1个单位,中风的对数几率降低0.027。
anova(model, test="Chisq")
##Analysis of Deviance Table##Model: binomial, link: logit##Response: cvdstrk3##Terms added sequentially (first to last)## Df Deviance Resid. Df Resid. Dev Pr(>Chi)
##NULL 389999 136364
##bphigh4 1 7848.6 389998 128516 < 2.2e-16 ***
##toldhi2 1 1230.1 389997 127285 < 2.2e-16 ***
##weight2 1 33.2 389996 127252 8.453e-09 ***
##smoke100 1 584.5 389995 126668 < 2.2e-16 ***
##avedrnk2 1 19.9 389994 126648 7.958e-06 ***
##---
##Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
分析偏差表,可以看到一次添加每个变量时偏差的下降。添加bphigh4,tellhi2,smoke100会大大减少残留偏差。尽管其他变量weight2和avedrnk2都具有较低的p值,但它们似乎对模型的改进较少。
评估模型的预测能力
##[1] "Accuracy 0.961296978629329
测试装置上的0.96精度是非常好的结果。
绘制ROC曲线并计算AUC(曲线下的面积)
auc
##[1] 0.7226642
最后一点,当我们分析健康状况监测数据时,我们必须意识到自我报告的患病率可能会有偏差,因为受访者可能不知道其风险状况。因此,为了获得更精确的估计,研究人员正在使用实验室测试以及自我报告的数据。
拓端tecdat|R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风相关推荐
- R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风
第1部分:关于数据 行为风险因素监视系统(BRFSS)是美国的年度电话调查.最近我们被客户要求撰写关于BRFSS的研究报告,包括一些图形和统计输出.BRFSS旨在识别成年人口中的危险因素并报告新兴趋势 ...
- 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...
- 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...
- 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
- 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
- 数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化...
全文链接:http://tecdat.cn/?p=22262 在讨论分类时,我们经常分析二维数据(一个自变量,一个因变量)(点击文末"阅读原文"获取完整代码数据). 但在实际生活中 ...
- R语言使用Metropolis- Hasting抽样算法进行逻辑回归
在逻辑回归中,我们将二元响应\(Y_i \)回归到协变量\(X_i \)上. 下面的代码使用Metropolis采样来探索\(\ beta_1 \)和\(\ beta_2 \)的后验. YiYi到协变 ...
- R语言淮河流域水库水质数据相关性分析、地理可视化、广义相加模型GAM调查报告...
采样地点:淮河流域一带,昭平台水库.白龟山水库.燕山水库.石漫滩水库.板桥水库.宿鸭湖水库.博山水库.南湾水库.石山口水库.五岳水库.泼河水库.鲶鱼山水库(点击文末"阅读原文"获取 ...
- R语言机器学习与大数据可视化暨Python文本挖掘与自然语言处理核心技术研修
中国通信工业协会通信和信息技术创新人才培养工程项目办公室 通人办[2017] 第45号 "R语言机器学习与大数据可视化"暨"Python文本挖掘与自然语言处理" ...
- “R语言机器学习与大数据可视化”暨“Python文本挖掘与自然语言处理”核心技术高级研修班的通知
中国通信工业协会通信和信息技术创新人才培养工程项目办公室 通人办[2017] 第45号 "R语言机器学习与大数据可视化"暨"Python文本挖掘与自然语言处理" ...
最新文章
- node.js(四)小结
- jradiobutton设置默认选项_JRadioButton(单选按钮)添加事件监听
- python怎么读取列表-python读入列表
- 里面使用轮播_小程序ColorUI框架初步使用教程及个人项目实战
- MySQL性能优化的最佳21条经验
- 快速学习C语言的途径,让你少走弯路!
- 身份认证与访问管理护航云安全
- 网站域名检测是否被QQ/微信拦截工具
- sass webpack_如何在Visual Studio和Webpack中编译Sass文件
- 从微盟删库事件谈数据修复的技术原理与时效挑战
- SQL AZURE数据库创建,云计算体验之一
- 蓝桥杯单片机数码管技巧
- Linux事件驱动网络编程,Linux系统编程之事件驱动
- 学校开展计算机培训活动,我校举办学生高级领导力专题培训活动
- 计算机课对小学生的作用,小学信息技术课的最重要性
- 小程序源码:笑话段子手-多玩法安装简单
- 人生算法之「延迟满足感」
- 解读如何打造支撑万亿规模的K8s集群?
- Android快递轨迹查询 “KD快递查询”
- uni-app如何使用vant-ui的坑
热门文章
- 《探讨大规模无线通信》-高西奇教授 讲座记录
- IT人 不要一辈子靠技术生存(转
- 【官方方法】ROS源
- Invisible Perturbations: Physical Adversarial Examples Exploiting the Rolling Shutter Effect 论文解读
- 主题模型LDA理解与应用
- 记录MySql错误消息
- 用户行为分析最重要的3个点 渠道转化留存
- 响应式微服务 in java 译 十六 Deploying a Microservice in OpenShift
- 创业者应该思考智能硬件能为灾难做什么
- 就这么简单!构建强大的WebShell防护体系