聊聊关于复杂调查加权中权重对数据的分布影响

美国国家健康与营养调查（ NHANES, National Health and Nutrition Examination Survey）是一项基于人群的横断面调查，旨在收集有关美国家庭人口健康和营养的信息。
地址为：https://wwwn.cdc.gov/nchs/nhanes/Default.aspx

上一篇文章《Nhanes临床数据库挖掘教程2—基线表绘制(table1)》发出后，有群友指出，分类变量的数据过大了，是否存在错误，我看一下，确实如此，比如种族1的个数为560万了，总的数据量才1万多点

这是加权后的数据，我们来看一下Nhanes数据的权重，有些权重是0，有些可以达到10多万

我们来看一下官方tableone包，svyCreateTableOne函数的示范例子

## Load packages
library(tableone)
library(survey)## Create a weighted survey design object
data(nhanes)
nhanesSvy <- svydesign(ids = ~ SDMVPSU, strata = ~ SDMVSTRA, weights = ~ WTMEC2YR,nest = TRUE, data = nhanes)## Create a table object
## factorVars are converted to factors; no need for variables already factors
## strata will stratify summaries; leave it unspecified for overall summaries
tab1 <- svyCreateTableOne(vars = c("HI_CHOL","race","agecat","RIAGENDR"),strata = "RIAGENDR", data = nhanesSvy,factorVars = c("race","RIAGENDR"))## Detailed output
summary(tab1)## Default formatted printing
tab1## nonnormal specifies variables to be shown as median [IQR]
print(tab1, nonnormal = "HI_CHOL", contDigits = 3, catDigits = 2,pDigits = 4, smd = TRUE)## minMax changes it to median [min, max]
print(tab1, nonnormal = "HI_CHOL", minMax = TRUE, contDigits = 3,catDigits = 2, pDigits = 4, smd = TRUE)## showAllLevels can be used tow show levels for all categorical variables
print(tab1, showAllLevels = TRUE, smd = TRUE)## To see all printing options
?print.TableOne## To examine categorical variables only
tab1$CatTable## To examine continuous variables only
tab1$ContTable## If SMDs are needed as numericals, use ExtractSmd()
ExtractSmd(tab1)

我们看看它最后生成的基线表，和我们做的基本一样，加权后的数据表人数也是上百万的，表明我们的方法没有问题

下面我们来聊聊权重，权重其实可以简单理解为比重，假如不加权，每个人的权重可以看做1，如果加权后比如有一个人的权重是3，那么就可以把它看做3个人，有人的权重是0.8，那么就可以把它看做0.8个人，这样就会形成了一个数据和原来不相同的虚拟人群（书上是这么说的）。我想借助《应用STATA做统计分析更新至STATA 12 （原书第8版）》的例子来说下，权重对数据分布的影响,只聊方法，不说代码。

《应用STATA做统计分析更新至STATA 12 （原书第8版）》第四章4.3部分提到了，权重的设计，美国有一个州要做民意调查，需要调查所有18岁以上的成年人的意见，但是调查员只有每一家庭户的电话，调查中29%的的人报告家里只有一位成年人，因此得到的调查表成年人的比例如下：

然而实际情况中，根据打电话接听的几率，家里只有一个成年人的比例只有16%，远低于29%，因此需要设计一个权重来体现家庭中只有1个成年人的比例，具体怎么设计我就不展开了，我们生成了权重adultwt后，我们使用加权后的数据重新来分析

我们可以看到加权后的数据分布成年人为1的比例基本接近16%，更接近与现实情况，因此，不加权做的数据分布和做加权的数据分布差别很大,加了权重后的数据分布更接近真实情况。

但是Nhanes数据的权重太大了，回到我们的Nhanes数据中，那应该怎么制作基线表呢，我们来看看别人怎么做的，有些是只显示百分比，如：
Non-linear association between diabetes mellitus and pulmonary function: a population-based study

有些是说明n没有加权，其他结果加权分析了
Physiologically based serum ferritin thresholds for iron deficiency in children and non-pregnant women: a US National Health and Nutrition Examination Surveys (NHANES) serial cross-sectional study

来看一篇jama是怎么做的
Trends in Use of Melatonin Supplements Among US Adults, 1999-2018

它也是n没有加权，其他分析均加权了。

Jama的这篇子刊JAMA Intern Med.（if>20）感觉是先算出加权百分比，然后用百分比来算出校正后的实际人群

扯了一大堆，给我感觉就是基线表中n基本上要符合你抽样的实际例数，其他分析都是经过加权分析。
欢迎斧正。

聊聊关于复杂调查加权中权重对数据的分布影响相关推荐

python加权最小二乘_Eviews关于加权最小二乘法（WLS）中权重W的问题
Eviews关于加权最小二乘法(WLS)中权重W的问题使用Eviews7,多元线性模型中,怎么做进行加权最小二乘法啊?也就是WLS.权重W该怎么求呢?补充:我的变量数据有负数.请详细一点,好吗? 解 ...
【技术干货】聊聊在大厂推荐场景中embedding都是怎么做的
" 解读YouTube.Airbnb.Alibaba的三篇经典论文,总结Embedding在工业界的一些用法和技巧,这三篇论文亮点众多,提供的经验非常值得我们去细细品味和借鉴.这篇文章篇幅较 ...
NR基础篇下——中值滤波、多级中值滤波、多级中值混合滤波、加权中值滤波、中值有理滤波
上一篇分享了一些均值滤波相关的算法,均值滤波作为一种线性滤波器,在滤除噪声的同时也会导致边缘模糊问题.而且均值滤波对高斯噪声的效果很好,但是对于椒盐噪声的效果就很一般.但是中值滤波作为一种顺序滤波器, ...
AdaBoost中样本权重对弱分类器的影响与作用
AdaBoost中样本权重对弱分类器的影响与作用最近在尝试用集成学习中的AdaBoost对项目进行改进,对AdaBoost做了一些学习,之前也了解过这个算法,大概懂得是个什么思想,个人理解就是,对每 ...
聊聊我们在业务链路升级中做的数据洞察
简介:关于数据相关的词条很多,虽然有不同的定义,但是本质上是相辅相成,通常结合使用才能拿到结果.类比词条诸如数据分析,数据挖掘, 数据洞察.本文将聊聊我们在业务链路升级中做的数据洞察. 作者 | 金 ...
外业精灵，在水土流失监测野外调查工作中的应用
常规的水土流失野外调查技术已难以满足现阶段区域水土流失监测工作的需求. 为探索高效.精准.高质量的水土流失数据采集技术,作者以山东沂蒙山泰山国家级重点治理区蒙阴县为例,以小流域或公里网格为调查单元,通 ...
地面三维激光扫描仪在火灾现场调查取证中的应用
火灾的发生会造成极大的危害,轻则损失财物,重则危害人身安全. 引发火灾的原因具有多样性和复杂性,因此,在火灾发生之后,须进行火灾调查以确定火灾发生原因,从而为进一步追究事故的责任.法律判定的依据.预防 ...
数字图像处理——中值滤波中心加权中值滤波
引言:在处理图像时,线性滤波将破坏边缘,而且不能有效滤除脉冲噪声.非线性滤波基于对输入信号序列的一种非线性映射关系,常可把某一特定的噪声近似映射为零而保留信号的重要特征,因而可以在一定程度上克服线性滤 ...
聊聊产品经理原型设计中的 “道术器”
作为产品经理,在原型设计过程中,掌握其中的"道术器",对于高阶产品发展有着潜移默化的帮助. 本文以摹客为例,聊聊产品经理原型设计中的 "道术器",希望对你有所启 ...

聊聊关于复杂调查加权中权重对数据的分布影响

聊聊关于复杂调查加权中权重对数据的分布影响相关推荐

最新文章

热门文章