原文链接:http://tecdat.cn/?p=9153

原文出处:拓端数据部落公众号

执行摘要

该项目包括探索一个现实世界的数据集-CDC的2013年  行为风险因素监视系统  -并针对三个 选择的研究问题创建报告。

选择的研究问题及其各自的结果是:

  • 被访者对其健康状况的看法是否与他们的体重指数(BMI)有关?性别之间有什么区别吗?

    • 是的,健康观念和BMI之间存在明显的关系,并且存在性别差异。
  • 身为幼儿的父母如何影响所报告的睡眠时间?这在性别上有何不同?
    • 作为幼儿的父母,据报道睡眠较少,包括性别差异。
  • 对一般健康感的回答是否与调查的时间有关?各州之间如何显示差异?
    • 在国家一级,冬季和非冬季反应之间没有显着差异,但有迹象表明各州的反应有所不同。

加载包

library(ggplot2)
library(dplyr)

载入资料

数据是从文件的本地副本加载的。

load("brfss2013.RData")
dim(brfss2013)
## [1] 491775    330

从上面可以看出,该数据集包含近500,000个观察值以及330个可能的变量。


第1部分:数据

BRFSS的背景

根据CDC 网站的说法  ,“行为风险因素监视系统(BRFSS)是美国首屈一指的健康相关电话调查系统,该系统收集有关美国居民有关健康相关风险行为,慢性健康状况以及预防措施使用情况的状态数据服务。

方法

根据疾病预防控制中心的说法,“ BRFSS是一项横断面电话调查,州卫生部门每月通过座机电话和蜂窝电话进行电话调查,并获得标准化的问卷调查以及疾病预防控制中心的技术和方法支持。

此外,考虑到BRFSS的方法,还有一些关于偏差的担忧:

  • 通过使用电话调查,可能会漏报几种类型的个人:

    • 那些无法使用座机或手机的人。

    • 那些原则上不回应电话调查的人。

    • 进行调查时无法进行调查的项目。

  • 由于访谈问题的答案尚未得到验证,因此受访者可能会以多种方式改变他们的回答:
    • 过度报告理想的行为和特质,同时低估不良行为。

    • 系统地夸大身高或收入等特征。

    • 由于要求您记住30天内或更长时间的详细信息,所以记错了关键信息。

  • 最后,参与的国家机构之间的面试做法和问题集可能存在不一致之处。

为了将来参考,如果数据集包含有关每个采访的详细信息,那么该收集是关于一天中的什么时间以及花费了多长时间的信息。


第2部分:研究问题

研究问题1:

被访者对其健康状况的看法是否与他们的体重指数(BMI)有关?性别之间有什么区别吗?

这是一个有趣的问题,因为它寻求人们对自己健康状况的看法与总体健康状况的较为客观的衡量指标之间的联系。它已得到广泛认可。性别之间的差异也很有趣,因为人们可以挑出社会中不同的观念和压力。

使用以下变量进行了分析:

  • genhlth-对应于一般健康
  • X_bmi5cat-将BMI分为4类的计算变量。BMI来自报告的身高和体重。
  • 性别-报告的性别

研究问题2:

身为幼儿的父母如何影响所报告的睡眠时间?这在性别上有何不同?

这是一个有趣的问题,可以估算作为年幼子女的父母可能会对受访者产生的影响。了解男性和女性之间的这种影响是否显着不同也很有用。

使用以下变量进行了分析:

  • sleptim1-报告的每晚睡眠时间
  • rcsrltn2-受访者与同一家庭中随机孩子的关系
  • X_impcage-估算变量,将孩子年龄分为4种可能的类别。
  • 性别-报告的性别

研究问题3:

对一般健康感的回答是否与调查的时间有关?各州之间如何显示差异?

这个问题着眼于可能的季节性因素如何影响响​​应。在这种情况下,关注的是冬季对整体健康反应的潜在影响。作为后续,它考察了美国各州的样本,以考虑可能的地区差异。

使用以下变量进行了分析:

  • genhlth-对应于一般健康
  • imonth-进行采访的月份
  • X_state-受访者的居住状态

第3部分:探索性数据分析

研究问题1:

被访者对其健康状况的看法是否与他们的体重指数(BMI)有关?性别之间有什么区别吗?

# Select appropriate variables from dataset and omit NAs
q1 <- select(brfss2013,genhlth,sex,X_bmi5cat) %>% na.omit()
dim(q1)
## [1] 463274      3
prop.table(table(q1$genhlth,q1$X_bmi5cat),2)
##
##             Underweight Normal weight Overweight      Obese
##   Excellent  0.19990243    0.26019496 0.17373887 0.07933813
##   Very good  0.26393463    0.35069868 0.35401238 0.26824837
##   Good       0.26149530    0.24667514 0.30698451 0.37088006
##   Fair       0.15831199    0.09751640 0.11943759 0.19913468
##   Poor       0.11635565    0.04491484 0.04582665 0.08239876

初始加载数据(超过460,000次观察)后,我们可以初步查看频率,然后考虑它们的比例。

解释上表的方式是,对于每一列(“体重不足”,“正常体重”,……),表示健康状况为“优秀”,“非常好”,……的受访者比例是多少?列总和为1。

可以在下面看到更简单的图形表示:

g <- ggplot(q1) + aes(x=X_bmi5cat,fill=genhlth) + geom_bar(position = "fill")
g <- g + xlab("BMI category") + ylab("Proportion") + scale_fill_discrete(name="Reported Health")
g

有一些有趣的趋势需要观察:

  • 从“体重不足”到“正常体重”的报告,“健康”状况良好的报告比例增加,但从“正常体重”到肥胖的报告比例显着下降。这表明可能对整体健康状况有所了解。

  • 在报告“健康”状况差的人中,“显着”下降的幅度似乎大于增长趋势。这可能表明缺乏对什么构成健康的意识/教育。

性别的影响如何?

在这种情况下,我们可以观察到以下内容:

  • 当BMI分类为“体重不足”或“正常体重”时,女性报告的“良好”健康状况比例高于男性。这可能表明健康与苗条之间的联系更加紧密,反映出更广泛的社会观点。

  • 当女性的BMI分类为“超重”或“肥胖”时,女性报告的“良好”健康状况比例低于男性。这可能表明对体重过度敏感是整体健康的一个组成部分。

总而言之,健康感知与BMI之间存在明显的关系,并且存在性别差异。

但是,在进行了分析的情况下,这些关系不能用来推断因果关系。


研究问题2:

身为幼儿的父母如何影响所报告的睡眠时间?这在性别上有何不同?

##
##      0      1      2      3      4      5      6      7      8      9
##      1    228   1076   3496  14261  33436 106197 142469 141102  23800
##     10     11     12     13     14     15     16     17     18     19
##  12102    833   3675    199    447    367    369     35    164     13
##     20     21     22     23     24    103    450
##     64      3     10      4     35      1      1

初始数据加载表明数据中存在编码错误。清理工作涉及删除每天超过16小时的睡眠时间。

## [1] 484056      2
## [1] 57857     5

此数据加载执行两个数据选择操作:

  • 首先,它从原始数据集中选择合适的列进入q2数据框。

  • 然后,它创建两个单独的数据框进行分析:

    • q2_pop:针对更广泛的人群,省略了错误编码的值。

    • q2_parent:利用来自BRFSS的“随机子选择”问题集,并选择那些将自己标识为“父母”的问题。此外,它还增加了一个列以识别10岁以下的儿童。

重要的是要注意,尽管总体人口约为480,000个样本,但BRFSS的“随机子选择”模块产生的样本数略少于60,000。

对于一般人群,我们有以下报告的睡眠分布(红线对应于平均值):

##        avg       sd
## 1 7.042784 1.431061

对于父母群体,分布的特征是:

##        avg       sd
## 1 6.854521 1.315791

对于小孩的父母,分布看起来像:

##        avg      sd
## 1 6.847745 1.31827

最后,看看有小孩的父母的性别差异:

## # A tibble: 2 x 3
##      sex      avg       sd
##   <fctr>    <dbl>    <dbl>
## 1   Male 6.755862 1.230122
## 2 Female 6.909699 1.371082

从分布的特征和最初的研究问题来看,似乎总的人口与作为小孩父母的儿童之间报告的睡眠小时数之间存在性别差异。期望进一步的统计技术将使我们能够量化这种差异的重要性。


研究问题3:

对一般健康感的回答是否与调查的时间有关?各州之间如何显示差异?

## [1] 489790      4
##
##                  FALSE       TRUE
##   Excellent 0.17393076 0.17643433
##   Very good 0.32401281 0.32724673
##   Good      0.30769272 0.30641019
##   Fair      0.13705171 0.13362268
##   Poor      0.05731200 0.05628606

此问题的初始数据加载产生了大约490,000个样本。根据研究问题,提取的变量是报告的总体健康状况,访问的月份以及受访者的居住状态。

为了进行此分析,增加了一个额外的列,指示采访是否在通常与冬季相关的月份进行。

查看比例表(向下查看FALSE和TRUE列),也可以在下图中可视化:

有趣的是,当我们查看特定于州的数据时,会出现稍微不同的情况。选择了美国各州的样本进行进一步分析:

## [1] 43608     4
## Source: local data frame [10 x 3]
## Groups: X_state [?]
##
##          X_state winter count
##           <fctr>  <lgl> <int>
## 1         Alaska  FALSE  3432
## 2         Alaska   TRUE  1129
## 3     California  FALSE 11105
## 4     California   TRUE   403
## 5  Massachusetts  FALSE 10631
## 6  Massachusetts   TRUE  4411
## 7  New Hampshire  FALSE  4525
## 8  New Hampshire   TRUE  1539
## 9        Wyoming  FALSE  5685
## 10       Wyoming   TRUE   748

在这种情况下,该图显示出表明冬季健康状况良好的受访者比例存在明显差异。这可能归因于不同的因素,例如:

  • 冬季的心情(与全国其他地方相比,气温较低或气温较高)

  • 各州数据收集的差异-以加利福尼亚州为例,冬季的病例数量很少

  • 其他因素。

拓端tecdat|R语言对BRFSS数据探索回归数据分析相关推荐

  1. 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测

    最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...

  2. 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险

    最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...

  3. 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例

    最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...

  4. 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系

    最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...

  5. 拓端tecdat荣获掘金社区入驻新人奖

    2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...

  6. R语言分析蛋白质组学数据:飞行时间质谱(MALDI-TOF)法、峰值检测、多光谱比较...

    全文链接:http://tecdat.cn/?p=30051 •研究生物体产生的全部蛋白质. • Foci:鉴定.结构测定.生物标志物.通路.表达(点击文末"阅读原文"获取完整代码 ...

  7. R语言把dataframe数据转化为tibble格式、查看每个数据列的缺失值个数、使用数据列的均值对数据列的缺失值进行填充

    R语言把dataframe数据转化为tibble格式.查看每个数据列的缺失值个数.使用数据列的均值对数据列的缺失值进行填充 目录

  8. R语言进行dataframe数据内连接(Inner join):使用R原生方法、data.table、dplyr等方案

    R语言进行dataframe数据内连接(Inner join):使用R原生方法.data.table.dplyr等方案 目录 R语言进行dataframe数据内连接(Inner join):使用R原生 ...

  9. R语言可视化dataframe数据、并自定义设置坐标轴各个标签使用不同的色彩

    R语言可视化dataframe数据.并自定义设置坐标轴各个标签使用不同的色彩 目录 R语言可视化dataframe数据.并自定义设置坐标轴各个标签使用不同的色彩

  10. R语言ggplot2可视化数据点注释、标签显示不全、发生边界截断问题解决实战

    R语言ggplot2可视化数据点注释.标签显示不全.发生边界截断问题解决实战 目录 R语言ggplot2

最新文章

  1. css为元素添加样式,JQuery如何为元素添加样式
  2. matlab检验两个样本的,两样本独立T检验MATLAB代码
  3. 爬虫五 Beautifulsoup模块详细
  4. Python中join()方法和os.path.join()方法
  5. win10+vs2017 snmp开发实例
  6. 【372天】我爱刷题系列131(2018.02.12)
  7. nowcoder20C 位数差
  8. ios html5 网页取消默认样式
  9. Collection和Collections的区别是什么
  10. 关于ASP.NET与CLR相互关系的一些总结
  11. 路径规划之基于优化的规划算法
  12. 洛谷P3509 [POI2010]ZAB-Frog
  13. 【交通预测】基于matlab GUI交通预测四阶段法交通分配【含Matlab源码 1140期】
  14. TOP6410上windowsce6.0移植笔记(一)
  15. java 医院病历号怎么生成_java病历管理系统
  16. 1.13《推荐系统实践》笔记(上)
  17. 基于Android的物流管理系统设计与实现(含论文)
  18. java 图片处理之寸照背景色替换
  19. 漫话:如何给女朋友解释为什么有些网站域名不以www开头
  20. matlab小端模式合并,大端方式和小端模式【YC】

热门文章

  1. 浅析python的metaclass
  2. 【学习0605】NVIDIA DRIVE AGX Developer Kit - How to set up
  3. inceptionv 1-4
  4. 第三季-第20课-多线程程序设计
  5. jmeter需要学习的其他点
  6. 访问 Confluence 6 的计划任务配置
  7. spring boot + vue + element-ui全栈开发入门——windows开发环境
  8. 在树莓派上搭建gitea
  9. 软件吞噬世界之前 SDS还要解决这些问题
  10. ArcGIS Engine开发之旅01---产品组成、逻辑体系结构