原文链接:http://tecdat.cn/?p=9284

加载包

library(tidyr)
library(knitr)
opts_chunk$set(echo = TRUE, fig.align = "center")

载入资料

load("brfss2013.RData")

第1部分:数据

描述如何收集样本中的观测值,以及此数据收集方法对推断范围(可概括性/因果关系)的影响。http://www.cdc.gov/brfss/,以及下面的“有关数据的更多信息”部分。

“ BRFSS是一项横断面电话调查,州卫生部门每月通过座机和电话进行调查,并获得标准化问卷和CDC的技术和方法支持。在进行BRFSS座机电话调查时,访问员从一个家庭中随机选择的成年人那里收集数据。在进行BRFSS问卷的电话版本时,访问员从成年人中收集数据。”

推论范围(普遍性/因果关系):

普遍性:调查数据是从50个州和美国领土收集的,这使得数据看起来足够随机样本,从而可以将其推广到整个美国人口。

因果关系:由于所有参与者均未接受指定的治疗和对照组的治疗-无法假设因果关系-只能测量相关性。

方法论,偏见和需要改进的方面的问题:通过电话调查,有可能低估了几种类型的个人:

1.没有座机或手机的个人

2.拒绝回答或参加电话调查的个人。

3.在进行调查时无法通过电话联系/无法联系到调查的个人。

采访问题的答案尚未通过验证,这意味着受访者可以通过以下方式修改其回答:

1.过度报告理想的行为/或特征。

2.漏报不良行为。

3.夸大或歪曲某些特征,例如身高,学历或收入。

4.错误地提供关键信息。

5.参与的机构之间的面试做法和问题集可能不一致。

供以后参考,如果数据集包含有关每个访谈的详细信息,例如收集数据的时间和访谈的持续时间,将很有用。


第2部分:研究问题

研究问题1:体重指数(BMI)是否与受访者自己的健康看法相关?

这个问题探讨了BMI“正常”的人是否对自己的健康状况有更好的认识。虽然BMI并不是完美的健康指标,但仍被公认为健康的初始指标。

使用的总变量:2

genhlth-一般健康

X_bmi5cat-将BMI分为4类(体重过轻,正常,超重,肥胖)的计算变量

————-

研究问题2:一个人的夜间睡眠时间与他们的能量水平之间是否存在相关性?性别之间有区别吗?

这是一个有趣的问题,因为经常吹嘘睡眠是维持良好总体健康的重要组成部分。研究表明,那些睡眠时间少于5小时的人甚至更容易患慢性或严重疾病。

使用的总变量:3

sleptim1-报告的睡眠时间

qlhlth2-在过去30天中,有几天被报告为“精力充沛”

性别-报告的性别

————-

研究问题3:总体生活满意度与受教育程度之间是否存在相关性?性别之间有什么区别吗?

这个问题将试图看看总体生活满意度和个人受教育程度之间是否存在任何关联。一些研究表明,与受教育程度较低的人相比,受教育程度较高的人较少出现婚姻问题,并且可能享有更好的健康状况。它将进一步探讨男性和女性之间是否存在任何差异。

使用的总变量:3

满意-整体生活满意度

教育-教育水平

性别-个人的生物性别

第3部分:探索性数据分析

研究问题1:体重指数(BMI)是否与受访者自身健康的看法相关?

load("brfss2013.RData")
dim(brfss2013)
## \[1\] 491775    330
``````
q1 <- select(brfss2013,genhlth,X_bmi5cat) %>% na.omit()
dim(q1)
``````
## \[1\] 463275      2

拥有460,000多个观察值,通过表格进行观察更容易,如下所示:

prop.table(table(q1$genhlth,q1$X_bmi5cat),2)
##
##             Underweight Normal weight Overweight      Obese
##   Excellent  0.19987805    0.26019496 0.17373887 0.07933813
##   Very good  0.26402439    0.35069868 0.35401238 0.26824837
##   Good       0.26146341    0.24667514 0.30698451 0.37088006
##   Fair       0.15829268    0.09751640 0.11943759 0.19913468
##   Poor       0.11634146    0.04491484 0.04582665 0.08239876

表中 有大量的数据。

g1 <- ggplot(q1) + aes(x=X\_bmi5cat,fill=genhlth) + geom\_bar(position = "fill")
g1

每列代表4种BMI类别(体重过轻,正常,超重,肥胖)和描述自己健康状况的受访者比例。


点击标题查阅往期内容

R语言动态图可视化:如何、创建具有精美动画的图

左右滑动查看更多

01

02

03

04

可以得出结论,在一定程度上,对这一问题的回答是“是”。个体的BMI与他或她自己对健康的看法之间似乎存在关联。

研究问题2:一个人的夜间睡眠时间与他们的能量水平之间是否存在相关性?性别之间有区别吗?

##     qlhlth2          sex         sleptim1
##  Min.   : 0.00   Male  :162   Min.   : 2.000
##  1st Qu.: 2.00   Female:287   1st Qu.: 6.000
##  Median :15.00                Median : 7.000
##  Mean   :15.56                Mean   : 7.013
##  3rd Qu.:28.00                3rd Qu.: 8.000
##  Max.   :30.00                Max.   :12.000
## Warning: Removed 12 rows containing non-finite values (stat_smooth).
## Warning: Removed 12 rows containing missing values (geom_point).

睡眠时间和充满能量的天数之间似乎总体上呈正相关。女性的相关性似乎比男性略强,因为男性的数据分布更广泛。

++++++++++++++++++++++++

研究问题3:总体生活满意度与受教育程度之间是否存在相关性?性别之间有什么区别吗?

## # A tibble: 4 x 2
##   lsatisfy          count
##   <fct>             <int>
## 1 Very satisfied     5378
## 2 Satisfied          5506
## 3 Dissatisfied        598
## 4 Very dissatisfied   161
q3 %>% group_by(educa) %>%   summarise(count=n())
## # A tibble: 6 x 2
##   educa                                                        count
##   <fct>                                                        <int>
## 1 Never attended school or only kindergarten                      10
## 2 Grades 1 through 8 (Elementary)                                496
## 3 Grades 9 though 11 (Some high school)                         1078
## 4 Grade 12 or GED (High school graduate)                        3708
## 5 College 1 year to 3 years (Some college or technical school)  3055
## 6 College 4 years or more (College graduate)                    3296
q3 %>% group_by(sex) %>%   summarise(count=n())
## # A tibble: 2 x 2
##   sex    count
##   <fct>  <int>
## 1 Male    4078
## 2 Female  7565

男性和女性的教育水平和总体生活满意度之间似乎总体上呈正相关。至少完成了高中(或同等学历)的人的满意度似乎更高。数据中还存在某些异常值,其中一些反馈者在没有受过教育的情况下会“满意”或“非常满意”。由于大多数人口至少已从高中毕业,因此该数据似乎准确地代表了受访者的分布。


本文摘选R语言数据可视化分析案例:探索BRFSS数据,点击“阅读原文”获取全文完整资料。


点击标题查阅往期内容

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言计算资本资产定价模型(CAPM)中的Beta值和可视化

R语言主成分分析(PCA)葡萄酒可视化:主成分得分散点图和载荷图

R语言时变向量自回归(TV-VAR)模型分析时间序列和可视化

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

R语言对布丰投针(蒲丰投针)实验进行模拟和动态可视化生成GIF动画

R语言信用风险回归模型中交互作用的分析及可视化

R语言生存分析可视化分析

R语言线性回归和时间序列分析北京房价影响因素可视化案例

R语言用温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化

R语言动态可视化:绘制历史全球平均温度的累积动态折线图动画gif视频图

R语言动态图可视化:如何、创建具有精美动画的图

R语言中生存分析模型的时间依赖性ROC曲线可视化

欲获取全文文件,请点击左下角“阅读原文”。

欲获取全文文件,请点击左下角“阅读原文”。

数据可视化分析案例:探索BRFSS电话调查数据相关推荐

  1. R语言数据可视化分析案例:探索BRFSS数据

    最近我们被客户要求撰写关于BRFSS数据的研究报告,包括一些图形和统计输出. 加载包 library(tidyr) library(knitr) opts_chunk$set(echo = TRUE, ...

  2. 大数据可视化案例分析_Tableau数据可视化分析案例

    0x00 Tableau简介 Tableau是一款定位于数据可视化敏捷开发和实现的商务智能展现工具,可用来实现交互的.可视化的分析和仪表盘应用. Tableau提供了体验感良好且易用的使用界面,在处理 ...

  3. 数据可视化分析案例:基于Python的2021中国品牌Top100强数据分析

    文章目录 爬取网站 如何爬取 代码 运行结果 爬取运行结果(main) 数据可视化运行结果(wmy) 结果分析 老师布置的期末作业,特来总结一下,希望对大家有帮助. 爬取网站 爬的网站在这里哦! (2 ...

  4. 数据可视化分析教学课件——FineBI实验册节选====门店分析

      数据可视化分析课程教学,0基础也能掌握,本节讲述的是电子商务及商务数据分析等专业的数据可视化分析案例:门店分析 a.实验背景   门店仰赖营业额作为绩效指标,但对于营业额不佳,却难以有更进一层的数 ...

  5. 数据可视化分析教学课件——FineBI实验册节选====物流经营分析

      数据可视化分析课程教学,0基础也能掌握,本节讲述的是交通运输及物流管理等专业的数据可视化分析案例:物流经营分析 a.实验背景   在应对一些业务部门突发性.即时性的数据分析需求时,由于缺乏敏捷型的 ...

  6. 数据可视化分析教学课件——FineBI实验册节选====医药类专业

      数据可视化分析课程教学,0基础也能掌握,本节讲述的是医药类专业的数据可视化分析案例 实验目的   中国医疗产品供应链面临质量标准的全面提升:   1.药品.医疗器械审评审批标准全面向欧美最高标准看 ...

  7. 数据可视化分析教学课件——FineBI实验册节选====交通运输及物流管理等专业

      数据可视化分析课程教学,0基础也能掌握,本节讲述的是交通运输及物流管理等专业的数据可视化分析案例 实验目的   新中国成立70多年来,中国交通运输总体上经历了从"瓶颈制约"到& ...

  8. 数据可视化分析教学课件——FineBI实验册节选====2019国民经济三大产业分析

      数据可视化分析课程教学,0基础也能掌握,本节讲述的是公共管理类专业的数据可视化分析案例:2019国民经济和社会发展公报 a.实验背景   对于国民经济三大产业分析,在对数据业务决策的分析层面,主要 ...

  9. 数据可视化分析教学课件——FineBI实验册节选====企业原料采购分析

      数据可视化分析课程教学,0基础也能掌握,本节讲述的是能源与环境系统工程和能源化学工程等专业的数据可视化分析案例:企业原料采购分析 a.实验背景   通过综合管理手段,在恰当的时间,以合理的价格.恰 ...

最新文章

  1. 前端开发神器之ngrok
  2. 趋势科技实习面试后感
  3. 二流四流神经网路(模型融合矩阵乘法理论实践)
  4. python操作文件夹-Python文件操作大全,随机删除文件夹内的任意文件
  5. Window下Pothos SDR开发环境搭建(limeSDR)
  6. Android Framework------之Keyguard 简单分析
  7. pg 递归算法_PostgreSQL递归查询_20191212
  8. 20135219洪韶武——信息安全系统设计基础第五周学习总结
  9. 2013-11-5 深圳尚游网络公司 - 服务器开发工程师
  10. 如何使用JPA和Hibernate映射JSON集合
  11. cad监控图标_干货!多种不同环境的无线视频监控系统拓扑图
  12. 关于udelay(); mdelay(); ndelay(); msleep();
  13. 7-34 红色警报 (10 分)(结构体并查集)
  14. Git -- 分支管理简介
  15. 移动硬盘新建选项消失、不能新建文件夹和文件的解决方案
  16. OpenCV图像模糊处理
  17. azure mysql数据库_Azure上创建MySql数据库服务
  18. Web server failed to start. Port 9080 was already in use报错解决
  19. LeetCode:剑指 Offer 58 - II. 左旋转字符串
  20. ObjectARX中反应器的使用

热门文章

  1. Centos 7下如何调用中文输入法
  2. sqlserve 能撤销上一步操作吗_六种电脑快捷键操作让你的效率比以前更高
  3. 关于深度学习中的梯度下降,了解一下
  4. android studio inspect code,Android Studio使用inspect code删除 unused import
  5. 基于Vue3和element-plus实现一个完整的登录功能
  6. arm linux vector_swi分析
  7. java2019常见面试题集总结
  8. 浅析PMO的发展规划
  9. 剑指offer笔记(二)sizeof
  10. win10连接linux nfs,win10系统挂载nFS共享目录的操作技巧