拓端tecdat|R语言数据可视化分析案例:探索BRFSS数据
原文链接:http://tecdat.cn/?p=9284
加载包
library(tidyr)
library(knitr)
opts_chunk$set(echo = TRUE, fig.align = "center")
载入资料
load("brfss2013.RData")
第1部分:数据
描述如何收集样本中的观测值,以及此数据收集方法对推断范围(可概括性/因果关系)的影响。http://www.cdc.gov/brfss/,以及下面的“有关数据的更多信息”部分。
“ BRFSS是一项横断面电话调查,州卫生部门每月通过座机和电话进行调查,并获得标准化问卷和CDC的技术和方法支持。在进行BRFSS座机电话调查时,访问员从一个家庭中随机选择的成年人那里收集数据。在进行BRFSS问卷的电话版本时,访问员从成年人中收集数据。”
推论范围(普遍性/因果关系):
普遍性:调查数据是从50个州和美国领土收集的,这使得数据看起来足够随机样本,从而可以将其推广到整个美国人口。
因果关系:由于所有参与者均未接受指定的治疗和对照组的治疗-无法假设因果关系-只能测量相关性。
方法论,偏见和需要改进的方面的问题:通过电话调查,有可能低估了几种类型的个人:
1.没有座机或手机的个人
2.拒绝回答或参加电话调查的个人。
3.在进行调查时无法通过电话联系/无法联系到调查的个人。
采访问题的答案尚未通过验证,这意味着受访者可以通过以下方式修改其回答:
1.过度报告理想的行为和/或特征。
2.漏报不良行为。
3.夸大或歪曲某些特征,例如身高,学历或收入。
4.错误地提供关键信息。
5.参与的机构之间的面试做法和问题集可能不一致。
供以后参考,如果数据集包含有关每个访谈的详细信息,例如收集数据的时间和访谈的持续时间,将很有用。
第2部分:研究问题
研究问题1:体重指数(BMI)是否与受访者自己的健康看法相关?
这个问题探讨了BMI“正常”的人是否对自己的健康状况有更好的认识。虽然BMI并不是完美的健康指标,但仍被公认为健康的初始指标。
使用的总变量:2
genhlth-一般健康
X_bmi5cat-将BMI分为4类(体重过轻,正常,超重,肥胖)的计算变量
————-
研究问题2:一个人的夜间睡眠时间与他们的能量水平之间是否存在相关性?性别之间有区别吗?
这是一个有趣的问题,因为经常吹嘘睡眠是维持良好总体健康的重要组成部分。研究表明,那些睡眠时间少于5小时的人甚至更容易患慢性或严重疾病。
使用的总变量:3
sleptim1-报告的睡眠时间
qlhlth2-在过去30天中,有几天被报告为“全力以赴”
性别-报告的生物性别
————-
研究问题3:总体生活满意度与受教育程度之间是否存在相关性?性别之间有什么区别吗?
这个问题将试图看看总体生活满意度和个人受教育程度之间是否存在任何关联。一些研究表明,与受教育程度较低的人相比,受教育程度较高的人较少出现婚姻问题,并且可能享有更好的健康状况。它将进一步探讨男性和女性之间是否存在任何差异。
使用的总变量:3
满意-整体生活满意度
教育-教育水平
性别-个人的生物性别
第3部分:探索性数据分析
研究问题1:体重指数(BMI)是否与受访者自身健康的看法相关?
load("brfss2013.RData")
dim(brfss2013)
## [1] 491775 330
q1 <- select(brfss2013,genhlth,X_bmi5cat) %>% na.omit()
dim(q1)
## [1] 463275 2
拥有460,000多个观察值,通过表格进行观察更容易,如下所示:
prop.table(table(q1$genhlth,q1$X_bmi5cat),2)
##
## Underweight Normal weight Overweight Obese
## Excellent 0.19987805 0.26019496 0.17373887 0.07933813
## Very good 0.26402439 0.35069868 0.35401238 0.26824837
## Good 0.26146341 0.24667514 0.30698451 0.37088006
## Fair 0.15829268 0.09751640 0.11943759 0.19913468
## Poor 0.11634146 0.04491484 0.04582665 0.08239876
表中 有大量的数据。
g1 <- ggplot(q1) + aes(x=X_bmi5cat,fill=genhlth) + geom_bar(position = "fill")
g1
每列代表4种BMI类别(体重过轻,正常,超重,肥胖)和描述自己健康状况的受访者比例。
可以得出结论,在一定程度上,对这一问题的回答是“是”。个体的BMI与他或她自己对健康的看法之间似乎存在关联。
研究问题2:一个人的夜间睡眠时间与他们的能量水平之间是否存在相关性?性别之间有区别吗?
## qlhlth2 sex sleptim1
## Min. : 0.00 Male :162 Min. : 2.000
## 1st Qu.: 2.00 Female:287 1st Qu.: 6.000
## Median :15.00 Median : 7.000
## Mean :15.56 Mean : 7.013
## 3rd Qu.:28.00 3rd Qu.: 8.000
## Max. :30.00 Max. :12.000
## Warning: Removed 12 rows containing non-finite values (stat_smooth).
## Warning: Removed 12 rows containing missing values (geom_point).
睡眠时间和充满能量的天数之间似乎总体上呈正相关。女性的相关性似乎比男性略强,因为男性的数据分布更广泛。
++++++++++++++++++++++++
研究问题3:总体生活满意度与受教育程度之间是否存在相关性?性别之间有什么区别吗?
## # A tibble: 4 x 2
## lsatisfy count
## <fct> <int>
## 1 Very satisfied 5378
## 2 Satisfied 5506
## 3 Dissatisfied 598
## 4 Very dissatisfied 161
q3 %>% group_by(educa) %>% summarise(count=n())
## # A tibble: 6 x 2
## educa count
## <fct> <int>
## 1 Never attended school or only kindergarten 10
## 2 Grades 1 through 8 (Elementary) 496
## 3 Grades 9 though 11 (Some high school) 1078
## 4 Grade 12 or GED (High school graduate) 3708
## 5 College 1 year to 3 years (Some college or technical school) 3055
## 6 College 4 years or more (College graduate) 3296
q3 %>% group_by(sex) %>% summarise(count=n())
## # A tibble: 2 x 2
## sex count
## <fct> <int>
## 1 Male 4078
## 2 Female 7565
男性和女性的教育水平和总体生活满意度之间似乎总体上呈正相关。至少完成了高中(或同等学历)的人的满意度似乎更高。数据中还存在某些异常值,其中一些反馈者在没有受过教育的情况下会“满意”或“非常满意”。由于大多数人口至少已从高中毕业,因此该数据似乎准确地代表了受访者的分布。
最受欢迎的见解
1.R语言动态图可视化:如何、创建具有精美动画的图
2.R语言生存分析可视化分析
3.Python数据可视化-seaborn Iris鸢尾花数据
4.r语言对布丰投针(蒲丰投针)实验进行模拟和动态
5.R语言生存分析数据分析可视化案例
6.r语言数据可视化分析案例:探索brfss数据数据分析
7.R语言动态可视化:制作历史全球平均温度的累积动态折线图动画gif视频图
8.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告
9.python主题LDA建模和t-SNE可视化
拓端tecdat|R语言数据可视化分析案例:探索BRFSS数据相关推荐
- 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
- 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...
- 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...
- 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
- R语言ggplot2可视化:使用长表数据(窄表数据)( Long Data Format)可视化多个时间序列数据、在同一个可视化图像中可视化多个时间序列数据(Multiple Time Series)
R语言ggplot2可视化:使用长表数据(窄表数据)( Long Data Format)可视化多个时间序列数据.在同一个可视化图像中可视化多个时间序列数据(Multiple Time Series) ...
- R语言ggplot2可视化:将dataframe和数据列名称传递给函数通过函数进行ggplot2可视化输出
R语言ggplot2可视化:将dataframe和数据列名称传递给函数通过函数进行ggplot2可视化输出 目录
- 数据可视化分析案例:探索BRFSS电话调查数据
原文链接:http://tecdat.cn/?p=9284 加载包 library(tidyr) library(knitr) opts_chunk$set(echo = TRUE, fig.alig ...
- R语言数据可视化分析案例:探索BRFSS数据
最近我们被客户要求撰写关于BRFSS数据的研究报告,包括一些图形和统计输出. 加载包 library(tidyr) library(knitr) opts_chunk$set(echo = TRUE, ...
- 大数据可视化案例分析_Tableau数据可视化分析案例
0x00 Tableau简介 Tableau是一款定位于数据可视化敏捷开发和实现的商务智能展现工具,可用来实现交互的.可视化的分析和仪表盘应用. Tableau提供了体验感良好且易用的使用界面,在处理 ...
- 数据可视化分析案例:基于Python的2021中国品牌Top100强数据分析
文章目录 爬取网站 如何爬取 代码 运行结果 爬取运行结果(main) 数据可视化运行结果(wmy) 结果分析 老师布置的期末作业,特来总结一下,希望对大家有帮助. 爬取网站 爬的网站在这里哦! (2 ...
最新文章
- Python数据类型和分支循环
- Async_Await;
- suse linux不能识别u盘,SUSE Linux mount u盘
- 服务器证书CA的相关操作
- 10个精选的颜色选择器Javascript脚本及其jQuery插件
- php正则表达式 匹配日期,正则表达式-正则表达式以匹配有效日期
- 2020 年 Service Mesh 技术展望
- 投放Facebook广告,跑到爆品之后怎样扩量效果更好?
- java 页面编码_java中文乱码解决之道(七)-----JSP页面编码过程
- 国产平板面临变局挑战,谁能撑起民族大旗?
- Alluxio在多级分布式缓存系统中的应用
- CURL POST PHP
- CentOS6.5利用Docker部署ShowDoc
- Python-docx 读取word.docx内容
- docker java镜像_Docker容器引擎与架构
- Linux下安装anaconda,创建虚拟环境python3.7,并且安装深度学习框架pytorch进行模型训练
- 《5分钟商学院》--读书笔记
- 43. TA镜像文件的签名
- 1.java基础 jdk,jre,jvm作业 - 答案(jdk,jre,jvm)
- java 地图坐标转换_百度地图坐标和高德地图坐标转换代码 Java实现
热门文章
- android init.rc 添加指令三部曲
- java 通过System.getProperties()获取系统参数
- 2月21 深度优先与广度优先
- bat文件启动虚拟环境然后继续在虚拟环境里进行操作采用CALL
- 15.1 异常(异常的基本概念+自定义异常)
- 凸优化第九章无约束优化 9.2 下降方法
- Python 多进程multiprocessing
- 面向对象之多态、多态性
- 将 instance 连接到 second_local_net - 每天5分钟玩转 OpenStack(85)
- 小技巧:如何在 js 中使用 apply 语法执行 new?