1 WQS原理

加权分位数和(Weighted Quantile Sum, WQS)回归是一种在环境暴露中常见的高维数据集的多元回归的统计模型。该模型允许通过有监督的方式构建一个加权指数,以评估环境暴露的总体效应以及混合物中每一个成分对总体效应的贡献。

首先若某一类环境混合物中共有i个component,将每个component的值按分位数编码,如1st,2nd,3rd, 4th 分位数分别编为qi = 1,2,3,4。

WQS的拟合的模型如下:

其中wi是环境混合物中每一个成分的权重,β1是加权分位数和指数(WQS指数)的回归系数,也就是环境混合物的总体效应。

如图中所示流程,为了估计各成分的权重,构建WQS指数,WQS算法首先将数据集分为训练集和验证集,训练集用于权重的估计,验证集用于测试最终 WQS 指数的显着性。为了提高模型的稳定性,在训练集里进行B次自助抽样(B=100或1000)


最后取100次自主抽样得到的权重的均值,或者只取100此中β1显著的那些次的权重均值作为最终得到的权重,然后在验证集中拟合模型(当样本量足够大时),若样本量小,也可在全部数据集中检验β1的显著性:

WQS的假设是:在混合物中每个暴露的效应都是同方向的(全为正或全为负),本质上是单向的,因为它只测试与给定结果正相关或负相关的混合效应。因此,在实践中,分析应该运行两次以测试正负两方向的关联。

2 WQS R语言示例

R语言的“gWQS”包可以实现WQS, 使用包里自带的示例数据wqs_data

install.packages("gWQS")
library(gWQS)
data(wqs_data)
toxic_chems <- names(wqs_data)[1:34]# we run the model and save the results in the variable "results"
results <- gwqs(y ~ wqs, mix_name = toxic_chems,data = wqs_data, q = 4, validation = 0.6, b = 100,b1_pos = TRUE, b1_constr = FALSE, family = "gaussian",seed = 1, plots = TRUE, tables = TRUE)

该WQS模型检验了我们的因变量y和根据四分位数暴露浓度排序估计的WQS指数之间的关系(q=4);toxic_chems是混合物中所有components的名字,b=100为bootstrap的次数;60%的样本作为验证集;因为WQS只提供了混合效应的单向评估,我们只估计β1为正的权重(b1_pos=TRUE);我们可以通过将该参数设置为假(b1_pos=false)来检验负关联。当我们估计权重时,我们也可以选择将β1约束为正(b1_pos=TRUE和b1_constr=TRUE)或负(b1_pos=false和b1_constr=TRUE);seed为种子点

之后我们对权重进行排序并绘制权重的条形图:

w_ord <- order(results$final_weights$mean_weight)
mean_weight <- results$final_weights$mean_weight[w_ord]
mix_name <- factor(results$final_weights$mix_name[w_ord],levels = results$final_weights$mix_name[w_ord])
data_plot <- data.frame(mean_weight, mix_name)
ggplot(data_plot, aes(x = mix_name, y = mean_weight, fill = mix_name)) +geom_bar(stat = "identity", color = "black") + theme_bw() +theme(axis.ticks = element_blank(),axis.title = element_blank(),axis.text.x = element_text(color='black'),legend.position = "none") + coord_flip()


以及y和wqs指数的散点图加拟合线:

# scatter plot y vs wqsggplot(results$y_wqs_df, aes(wqs, y_adj)) + geom_point() +stat_smooth(method = "loess", se = FALSE, size = 1.5) + theme_bw()


WQS 回归可以应用于多种类型的因变量,可以用逻辑回归、多项式、泊松和负二项式回归。WQS 的一个限制是由于必须将数据集拆分为训练集和验证集而导致的统计能力降低, 这种划分也可能导致不具代表性的数据集和不稳定的参数估计。

最后值得一提的是WQS的扩展方法:Bayesian WQS (Colicino et al. (2020)),它允许放宽单向假设,以及lagged WQS (Gennings et al. (2020)),它处理随时间变化的暴露混合物。

参考:

https://www.healthandenvironment.org/assets/images/Gennigs_Presentation_5-20-19.pdf
Renzetti S, Gennings C, Curtin P C. gWQS: an R package for linear and generalized weighted quantile sum (WQS) regression[J]. J Stat Softw, 2019: 1-9.

欢迎关注公众号:聊无的学习笔记

环境混合物总体效应:加权分位数和回归(WQS)相关推荐

  1. 机器学习之局部加权、岭回归和前向逐步回归

    都说万事开头难,可一旦开头,就是全新的状态,就有可能收获自己未曾预料到的成果.记录是为了更好的监督.理解和推进,学习过程中用到的数据集和代码都将上传到github 回归是对一个或多个自变量和因变量之间 ...

  2. 分位数回归的实现方法

    目录 分位数回归简介 实现方法 参考文献 分位数回归简介 简介参照可参照参考文献[1].如下图,散点图代表我们所需分析数据,若用简单的参数方程拟合,即只利用期望值,会损失很多数据特征.因此分位数回归就 ...

  3. R语言地理加权回归数据分析

    在自然和社会科学领域有大量与地理或空间有关的数据,这一类数据一般具有严重的空间异质性,而通常的统计学方法并不能处理空间异质性,因而对此类型的数据无能为力.以地理加权回归为基础的一系列方法:经典地理加权 ...

  4. Stata:无条件分位数回归及应用

    全文阅读:https://www.lianxh.cn/news/62f094a52171d.html 目录 1. 简介 2. 基于再中心化影响函数 (RIF) 的 UQR 模型 3. RIF 分位数回 ...

  5. stata回归?固定效应模型(组内变换OR LSDV最小二乘法)

    面板数据分析与Stata应用笔记整理自慕课上浙江大学方红生教授的面板数据分析与Stata应用课程,笔记中部分图片来自课程截图. 笔记内容还参考了陈强教授的<高级计量经济学及Stata应用(第二版 ...

  6. 分位数回归和stata

    分位数回归与stata 找了半天也没找到我想看的那种完整点的stata教程,只好自己写一个了- 参考教材:<用STATA学微观计量经济学>&<高级计量经济学及STATA应用_ ...

  7. 贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据...

    原文链接:http://tecdat.cn/?p=22702 贝叶斯回归分位数在最近的文献中受到广泛关注,本文实现了贝叶斯系数估计和回归分位数(RQ)中的变量选择,带有lasso和自适应lasso惩罚 ...

  8. 金融结构对技术创新的影响效应 及其区域差异研究(马 微 惠 宁)

    作者:马 微 .惠 宁 摘要:金融结构对技术创新的影响效应:技术创新能力的持续提升有赖于金融结构的适时调整和金融生态环境的不断完善 对于风险较低.收益稳定的引进模仿创新而言,银行是适宜的融资渠道: 对 ...

  9. 机器学习初学者都应该知道的5类回归损失函数

    来源: https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9 ...

最新文章

  1. 计算机的学生该怎么做?
  2. hht时频谱 matlab 乱序_频谱、能量谱、功率谱的区别与联系
  3. 02-JDBC学习手册:JDBC编程步骤【重点重点】
  4. (常用API)正则表达式切割练习
  5. IntelliJ IDEA 中的Java Web项目的资源文件复制新增如何更新到部署包中?
  6. js 常用类型转换简写
  7. 字体Times New Roman
  8. mysql max datetime_MYSQL在联接语句中选择MAX日期
  9. 二月,劝 Java 工程师不要跳槽!
  10. 事件CEvent的使用
  11. 自己动手去除暴风影音2012广告方法,这样才安全
  12. 047 Permutations II 有重复数字的全排列
  13. 【Android开发】之Android环境搭建及HelloWorld
  14. ibm 服务器 win7系统安装,最详细thinkpad win7系统重装教程
  15. pano2vr怎么制作漫游_Pano2VR输出全景漫游以及查看
  16. java面试逻辑题_精选程序员面试常问的逻辑题
  17. Rob Knight: PCR不需要做三个平行再混合!
  18. Kent Beck : 领导的敏捷潮
  19. php doctrine 使用,php – 在Symfony中使用Doctrine创建表
  20. 雨棚板弹性法计算简图_雨棚板的计算书

热门文章

  1. vrf名称_VRF中央空调中是什么意思
  2. Visual Studio 2010/2008(MSDN原版下载)
  3. QPlainText-----普通文本编辑器
  4. 子域名爆破工具subDomainsBrute
  5. 淘宝开店怎么做运营?
  6. 高德地图实现Marker模拟gif动画
  7. Windows三种文件系统:NTFS、FAT32、FAT16的区别
  8. Marvell 88NV1120固态硬盘开卡图文教程+量产开卡软件下载
  9. 都市丽人荣获多项大奖情感营销触达消费者心流
  10. PCB电路板OSP工艺的优缺点都有哪些?