目录

一、数据库概况

数据类型

涵盖疾病类型

研究设计

二、加权

权重类别

权重选择

权重计算

三、数据下载

四、数据库应用


一、数据库概况

NHANES(National Health and Nutrition Examination Survey)是一项旨在评估美国成人和儿童健康和营养状况的研究计划,计划始于20世纪60年代初期,是一项针对不同人群或健康主题的调查。
1999年该调查成为一项持续计划,涉及各种健康和营养测量,项目每年调查一个全国代表性的样本,约5000人,这些人群位于全国各县,每年对其中15个县进行访问。
NHANES访谈部分包括人口统计学、社会经济学、饮食和健康相关问题。体检部分包括生理测量、实验室检查等内容。调查结果将用于确定主要疾病的患病率和疾病的风险因素,也是身高、体重和血压等国家标准的基础。
(每两年进行一次调查,两年称为一个cycle year)

数据类型

主要分为Demographic data, dietary data, Examination Data, Laboratory Data, Questionnaire Data及Limited Access Data,除了Limited Access Data外,其余数据类型都可以免费使用。Limited Access Data则包括了一些地址信息及敏感信息,详细信息可通过Research Data Center中申请。

涵盖疾病类型

各个疾病类型,如下

研究设计

NHANES采用分层多阶段抽样设计,以获得美国居民的代表性样本,抽样计划由四个阶段组成:

  • PSU 县(counties)
  • PSU内的城市街区(segments)
  • DU住户、家庭(households)
  • SP个人(individuals)

权重

衡量特定参与者所代表的目标人群中人数的参数,反应了不平等的选择概率,对纳入人员不响应的调整,以及对最终样本和基于独立人口控制总数的总人口之间差异的调整。

基本公式:

但实际情况并非随机采样,对某些具有特殊公共卫生利益的亚群体,如:非西班牙裔黑人;西班牙裔的性别年龄组等,进行过采样(Oversampling),即进行更多的抽样调查。过度采样是为了增加特定亚群的样本数量,从而提高这些人口亚群健康状况指标估计值的可靠性和精确度。

过采样会导致各个人群抽样概率的不均等,如对美国人群种族分布的频率图中,未加权的一组人群中,除了Non-Hispanic white and other,其他种族的人均存在oversampling,会导致抽样人群与总体人群分布的差异。

如果直接对抽样人群进行疾病患病率的估计,则会歪曲患病率的结果。如对年龄超过18岁的成年人进行高血压患病率的估计,未加权的人群中高血压患病率显著高于加权人群,可能是由于不同种族人群高血压患病率不同,非西班牙裔黑人的高血压患病率显著高于其他种族,对此类人群进行过采样导致整体高血压患病率的升高。

因此,有必要对NHANES数据库中的人群进行加权。

二、加权 

权重类别

分为四个类别,主要为wtint2yr,wtmec2yr,subsample weights及24小时饮食召回。

  • The interview weight (wtint2yr)
  • The MEC exam weight (wtmec2yr)
  • Several subsample weights
  • 24-hour dietary recall

权重选择

(1)所有变量都在in-home interview中收集,采用wtint2yr;(2)一些变量是在MEC中收集,采用wtmec2yr;(3)一些变量是调查子样本的一部分,采用相应子样本的权重,如研究变量中有空腹甘油三酯(接受检测的人大约是接受MEC检查的样本的一半,采用wtsaf2yr,多周期的话要注意使用合并权重;(4)一些变量来自24小时饮食召回(24-hour dietary recall):变量来自第一天的recall,采用wtdrd1;使用两天的recall进行分析,采用wtdr2d,多周期的话要注意使用合并权重

选择原则:“the least common denominator“ 选择样本数量最少的变量对应的权重进行校正。选择之前,你需要找出你感兴趣的变量包括在调查的哪个部分中。

接下来举几个示例:

例一:所有感兴趣变量都在居家访谈时纳入,选择的权重为wtint4yr.(两个cycle的权重)

例二:部分变量在MEC过程中获得

blood pressure变量涵盖的样本量为11,062,少于in-home interview的样本量,根据变量最少原则,因此权重应该选择wtmec4yr。

例三:部分变量为调查研究中的子集中的部分

根据变量最少原则,权重应该选择wtsaf4yr。

请注意,有些问卷成分是在MEC检查期间进行的,而不是在家庭访谈期间进行的,因此必须对这些成分使用MEC检查权重。

权重计算

所有访谈和MEC的权重都可以在相应调查周期的人口统计文件中找到,但涉及到多个cycle数据合并时,需要进行权重的计算。由于多个cycle合并时,每个cycle中人群的权重被过高估计,因此应该除以相对应的cycle数目。详细计算如下:

权重计算分为两部分:

(1)1999-2002四年(2 cycles)权重

这两个cycle的数据同时提供了wtint2yr、wtmec2yr及wtint4yr、wtmec4yr,在分析中整合1999-2000年和2001-2002年的调查年份时,必须使用NCHS提供的4年样本加权,以说明两个不同的参考人群。

(2)2001-2002及以后的样本权重

将两年的样本权重除以分析中的两年周期数来计算新的multi-year样本权重。

公式:weight= wtmec2yr/cycle year

示例:

a.结合两个调查周期(4年)

MEC4YR = 1/2 * WTMEC2YR,1999-2002时直接使用MEC4YR

b.结合三个调查周期(6年)

计算1999-2004年六年的权重时,当year在1999-2002时,MEC6YR=2/3* WTMEC4YR,year在2003-2004时,MEC6YR=1/3* WTMEC2YR。2001年以后时,MEC6YR=1/3* WTMEC2YR。

*SDDSRVYR 是调查周期编号, i.e.
1 = 1999-2000
2 = 2001-2002
3 = 2003-2004

c.

d.

三、数据下载

1.登录首页:https://www.cdc.gov/nchs/nhanes/index.htm

2.选择特定年份

3.选择需要的数据集

环境领域中的暴露来源参考Laboratory Data,

健康结局参考Examination Data,

相关协变量参考Demographic Data和Questionnaire Data

4.理解数据变量,下载数据

“NHANES 2017-2018 Demographics Variable List”:所有变量列表;

“DEMO_I Doc”:关于所有变量采集和数据类型的详细说明;

“DEMO_I Data[XPT-3.3 MB]”:数据下载链接。

四、数据库应用

1.验证假设或预测模型

具有更大的样本量,且横断面具有更好的代表性
具有多种变量,可以更加充分地考虑混杂
可以作为预测模型的外部验证

2.数据挖掘

仅能发现数据间的相关,不能进行因果推断
使用普通的方法难以发现创新的结果,一般用来方法学比较

3.构建预测模型

没有外部验证,可能会出现过拟合
ref:NHanes数据库样本数据集权重计算 (baidu.com)

NHANES数据库的介绍及使用(一)相关推荐

  1. nhanes数据库挖掘教程3--对数据进行多重插补

    美国国家健康与营养调查( NHANES, National Health and Nutrition Examination Survey)是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营 ...

  2. NHANES数据库数据下载

    今天跟大家分享一下如何用R包nhanesA下载NHANES数据 以一个简单的研究目的为例:使用NHANES数据库中的数据构建一个舒张压的预测模型. 根据该研究目的,整理纳入分析的周期和变量: ①研究周 ...

  3. Tempdb数据库详细介绍

    Tempdb数据库详细介绍 一.Tempdb简介 tempdb是SQLServer的系统数据库一直都是SQLServer的重要组成部分,用来存储临时对象.可以简单理解tempdb是SQLServer的 ...

  4. 数据库的介绍、分类、作用和特点

    1. 数据库的介绍 数据库就是存储和管理数据的仓库,数据按照一定的格式进行存储,用户可以对数据库中的数据进行增加.修改.删除.查询等操作. [在数据库中输错,按住"ctrl+c"重 ...

  5. mysql数据库引擎介绍

    mysql数据库引擎介绍 你能用的数据库引擎取决于mysql在安装的时候是如何被编译的.要添加一个新的引擎,就必须重新编译MYSQL.在缺省情况下,MYSQL支持三个引擎:ISAM.MYISAM和HE ...

  6. java中删除sqlite数据库语句_sqlite数据库的介绍与java操作sqlite的实例讲解

    sqlite数据库的介绍与java操作sqlite的实例讲解 发布时间:2020-10-03 05:40:34 来源:脚本之家 阅读:92 作者:Lee_Tech sqlite是啥? 1.一种轻型数据 ...

  7. Android SQLite 数据库详细介绍

    Android SQLite 数据库详细介绍我们在编写数据库应用软件时,需要考虑这样的问题:因为我们开发的软件可能会安装在很多用户的手机上,如果应用使用到了SQLite数据库,我们必须在用户初次使用软 ...

  8. MySQL数据库引擎介绍、区别、创建和性能测试的深入分析

    深入理解MySQL的数据库引擎的类型 作者: 字体:[增加 减小] 类型:转载 本篇文章是对MySQL的数据库引擎的类型进行了详细的分析介绍,需要的朋友参考下   你能用的数据库引擎取决于mysql在 ...

  9. 1.MySQL数据库的介绍

    1.MySQL数据库的介绍 什么是数据库 数据库(Database)就是按照数据结构来组织,存储和管理数据的仓库 专业的数据库是专门对数据进行创建,访问,管理,搜索等操作的软件,比起我们自己用文件读写 ...

最新文章

  1. oracle valueerror,Oracle VALUE_ERROR异常(挑战题编号000005)
  2. CentOS RPM安装MySQL 5.6修改默认密码
  3. SAP Marketing 和SAP marketing Cloud的区别
  4. java ee链接css_JavaEE——CSS3选择器
  5. Mybatis3 源码解析系列
  6. printf如何消后续0_Hello World背后的故事:如何在Linux上编译C语言程序
  7. linux 汇编 读取软盘,读取软盘逻辑扇区的汇编实现代码
  8. Python 操作快捷键
  9. 单片机74LS164C语言例子,74ls164单片机编程汇总(跑马灯/驱动数码管)
  10. 北京大学肖臻老师《区块链技术与应用》ETH笔记 - 3.0 ETH数据结构篇
  11. 手把手教你使用Newstart HA
  12. 一次完整的安全渗透测试_如果下一次大规模入侵涉及您的车辆而不是安全摄像机怎么办...
  13. EXCEL中两列合并成一列以及根据相同列的值将表中一列的值复制到另一张表中?
  14. Cmd打开Java软件——解锁.jar打开新姿势
  15. 2019/06/04 M企业级高可用集群介绍以及开源软件应用
  16. CV2模块使用(详细教程)
  17. 应用监控预警--Pinpoint介绍
  18. C++第一次实验(基础班)项目2
  19. android 输入ip地址,我应该使用什么android:inputType输入IP地址?
  20. 企业从无到有,究竟靠什么?

热门文章

  1. 开源的业务中台 全渠道一盘货 订单管理系统 OMS
  2. Intellij Idea 好用插件之GsonFormat
  3. java工具类编写:工具类如何与业务代码完全分开
  4. c语言解析cron文件,Cron(表达式)详解
  5. C++中const的作用(至少要说出3个)
  6. 【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及对应条数聊起
  7. App/H5/小程序测试技术
  8. [实验室每日一题][20201124][Zip已知明文攻击]
  9. 向大家推荐一个Oracle备份软件
  10. WordPress插件推荐,WordPress插件大全