拓端tecdat|R语言生态学模拟对广义线性混合模型GLMM进行功率(功效、效能、效力)分析power analysis环境监测数据
原文链接:http://tecdat.cn/?p=24861
原文出处:拓端数据部落公众号
相关视频:线性混合效应模型(LMM,Linear Mixed Models)和R语言实现
线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例
时长12:13
概括
- r 语言允许用户计算 lme 4 包中广义线性混合模型的功效。功率计算基于蒙特卡罗模拟。
- 它包括用于 (i) 对给定模型和设计进行功效分析的工具;(ii) 计算功效曲线以评估功效和样本量之间的权衡。
- 本文提供了一个教程,使用具有混合效果的计数数据的简单示例(具有代表环境监测数据的结构)。
介绍
假设检验的功效定义为假设原假设为假,检验拒绝原假设的概率。换句话说,如果一个效应是真实的,那么分析判断该效应具有统计显着性的概率是多少?
如果一项研究的功效不足,资源可能被浪费,真正的效果可能被遗漏。另一方面,一项大型研究的花费可能过大,因此其费用也会超过必要的范围。因此,在收集数据之前进行功效分析是一个很好的做法,以确保样本具有适当的规模来回答正在考虑的任何研究问题。
广义线性混合模型 (GLMM) 在生态学中很重要,它允许分析计数和比例以及连续数据,并控制空间非独立性.
蒙特卡罗模拟是一种灵活且准确的方法,适用于现实的生态研究设计。在某些情况下,我们可以使用解析公式来计算功效,但这些通常是近似值或需要特殊形式的设计 。仿真是一种适用于各种模型和方法的单一方法。即使公式可用于特定模型和设计,定位和应用适当的公式也可能非常困难,因此首选仿真。
对于对 r 不够熟悉的研究人员,设置模拟实验可能太复杂了。在本文中,我们介绍了一个工具来自动化这个过程。
r 包
有一系列的 r 包目前可用于混合模型的功效分析 。然而,没有一个可以同时处理非正态因变量和广泛的固定和随机效应规范。
图1
r 旨在与任何可以与 lme 4 中的 lmer 或 glmer 配合的线性混合模型 (LMM) 或 GLMM 一起使用。这允许具有不同固定和随机效应规范的各种模型。还支持在 r 中使用 lm 和 glm 的线性模型和广义线性模型,以允许没有随机效应的模型。
r 中的功效分析从适合 lme 4 的模型开始。
在 r 中,通过重复以下三个步骤来计算功效:(i) 使用提供的模型模拟因变量的新值;(ii) 将模型重新拟合为模拟因变量;(iii) 对模拟拟合应用统计检验。在此设置中,已知存在测试效果,因此每个阳性测试都是真正的阳性,每个阴性测试都是 II 类错误。可以根据步骤 3 的成功和失败次数计算测试的功效。
教程
本教程使用包含的数据集。该数据集代表环境监测数据,在连续固定效应变量x (例如研究年份)的10 个水平上测量三个组 g (例如研究地点)的因变量 z (例如鸟类丰度 )。还有一个连续因变量 y ,在本教程中没有使用。
拟合模型
我们首先将 lme 4 中的一个非常简单的泊松混合效应模型拟合到数据集。在这种情况下,我们有一个随机截距模型,其中每个组 ( g ) 都有自己的截距,但这些组共享一个共同的趋势。
glm
summary
本教程重点介绍关于x 趋势的推断 。在这种情况下,x 的估计效应大小为 -0.11,使用默认z检验在 0.01 水平上显着 。
请注意,我们特意使用了一个非常简单的模型来使本文易于理解。例如,适当的分析会包含更多的组,并会考虑过度分散等问题。。
简单的功率分析
假设我们想重复这项研究。如果效果是真实的,我们是否有足够的功效来期待积极的结果?
指定效应量
在开始功效分析之前,重要的是要考虑您感兴趣的效果大小类型。功效通常随效果大小而增加,较大的效果更容易检测。回顾性“观察功效”计算,其中目标效应大小来自数据,给出误导性结果.
对于此示例,我们将考虑检测 -0.05 斜率的功效。可以使用 lme 4 函数拟合 glmer 模型中的固定效应。然后可以更改固定效应的大小。变量x 的固定效应的大小 可以从 -0.11 更改为 -0.05,如下所示:
fixe<‐ ‐0.05
在本教程中,我们只更改变量x 的固定斜率 。但是,我们也可以更改随机效应参数或残差方差(适用于合适的模型)。
运行功效分析
一旦指定了模型和效应大小,在 r 中进行功效分析就非常容易了。由于这些计算基于蒙特卡罗模拟,因此您的结果可能略有不同。如果你想得到和教程一样的结果,你可以使用 set.seed(123)。
power
鉴于此特定设置,拒绝x 中零趋势的零假设的 能力约为 33%。这几乎总是被认为是不够的;传统上,80% 的功率被认为是足够的.
在实践中, z检验可能不适合这样一个小例子。参数引导测试 可能是最终分析的首选。但是,更快的 z -test 更适合学习使用该包以及在功效分析期间进行初始探索性工作。
增加样本量
在第一个示例中,估计功率很低。小型试点研究通常没有足够的功效来检测微小的影响,但更大的研究可能会。
试点研究对x 的 10 个值进行了观察, 例如代表研究第 1 年到第 10 年。在此步骤中,我们将计算将其增加到 20 年的影响。
modl2 <‐ extend
power(modl2)
沿参数指定要扩展的变量,n 指定要替换它的级别。扩展模型 2 现在将具有 从 1 到 20 的x 值,与以前一样分为三组,总共 60 行(与模型 1 中的 30 行相比)。
通过观察x 的 20 个值 ,我们将有足够的能力来检测大小为 -0.05 的效应。
各种样本量的功效分析
当数据收集成本高昂时,用户可能只想收集达到一定统计能力所需的数据量。 功效曲线 函数可用于探索样本大小和功效之间的权衡。
确定所需的最小样本量
在前面的示例中,当对变量x 的20 个值进行观察时,我们发现了非常高的 功效 。我们能否减少这个数字,同时保持我们的功效高于通常的 80% 阈值?
poerCureprint
plot
请注意,我们已将此结果保存到变量 pc2 以匹配模型 2 中的编号。由于模型 1 没有足够的功率,我们没有通过 powerCurve 运行它。绘制的输出如图所示。 我们可以看到,检测x 趋势的 能力随着采样大小的增加而增加。这里的结果基于将模型拟合到 10 个不同的自动选择的子集。最小的子集仅使用前 3 年(即 9 个观测值),最大的子集使用所有 20 个假设研究年份(即 60 行数据)。该分析表明,该研究必须运行 16 年才能有≥80% 的功效来检测指定大小的影响。
图2
检测大小为 -0.05 的固定效应的功效 (±95% CI),使用 powerCurve 函数在一系列样本大小上计算。变量x 的不同值的数量 从 3 ( n = 9) 到 20 ( n = 60) 不等。
改变组的数量和大小
增加观察到的x 值的数量可能不可行 。例如,如果 x 是研究年份,我们可能不愿意等待更长时间的结果。在这种情况下,增加研究地点的数量或每个地点的测量数量可能是更好的选择。这两项分析从我们的原始模型 1 开始,该模型已有 10 年的研究时间。
添加更多组
我们可以像为x 添加额外值一样 为g 添加额外级别 。例如,如果变量 g 代表我们的研究站点,我们可以将站点数量从 3 增加到 15。
extend(n=15)
plot(pc3)
与上一个示例的主要变化是我们将变量g 传递 给了沿参数。该分析的输出如图 1 所示。要达到 80% 的功率,我们至少需要 11 个站点。
图 3
检测大小为 -0.05 的固定效应的功效 (±95% CI),使用 powerCurve 在一系列样本大小上计算。因子g 的级别数 从 3 ( n = 30) 到 15 ( n = 150) 不等。
增加组内的大小
我们可以用内参数替换扩展和 powerCurve 的沿参数以增加组内的样本大小。每个组在x 和 g 的 每个水平上只有一个观察值 。我们可以将其扩展到每个站点每年 5 次观测,如下所示:
extend( n=5)plot(p4)
请注意 powerCurve 的breaks 参数。为x 和 g 的 每个组合提供一到五个观察结果 。图表明每年每个站点 4 次观测会给我们 80% 的效力。
图 4
检测大小为 -0.05 的固定效应的功效 (±95% CI),使用 powerCurve 函数在一系列样本大小上计算。x 和 g 的 每个组合的观察数 从 1 ( n = 30) 到 5 ( n = 150) 不等。
最受欢迎的见解
1.Matlab马尔可夫链蒙特卡罗法(MCMC)估计随机波动率(SV,Stochastic Volatility) 模型
2.基于R语言的疾病制图中自适应核密度估计的阈值选择方法
3.WinBUGS对多元随机波动率模型:贝叶斯估计与模型比较
4.R语言回归中的hosmer-lemeshow拟合优度检验
5.matlab实现MCMC的马尔可夫切换ARMA – GARCH模型估计
6.R语言区间数据回归分析
7.R语言WALD检验 VS 似然比检验
8.python用线性回归预测股票价格
9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标
拓端tecdat|R语言生态学模拟对广义线性混合模型GLMM进行功率(功效、效能、效力)分析power analysis环境监测数据相关推荐
- 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...
- 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
- 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
- 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...
- 拓端tecdat荣获掘金社区入驻新人奖
2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...
- Logit Beta分布及其R语言随机模拟算法
Logit Beta分布及其R语言随机模拟算法 Logit Beta分布 Logit Beta分布的采样算法 Logit Beta分布是一个在广义线性模型中时常遇到的分布,通常是作为模型算法的一个中间 ...
- 拓端tecdat荣获2022年度51CTO博主之星
相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...
- R语言惩罚逻辑回归、线性判别分析LDA、广义加性模型GAM、多元自适应回归样条MARS、KNN、二次判别分析QDA、决策树、随机森林、支持向量机SVM分类优质劣质葡萄酒十折交叉验证和ROC可视化
最近我们被客户要求撰写关于葡萄酒的研究报告,包括一些图形和统计输出. 介绍 数据包含有关葡萄牙"Vinho Verde"葡萄酒的信息.该数据集有1599个观测值和12个变量,分别是 ...
- R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
随着软件包的进步,使用广义线性混合模型(GLMM)和线性混合模型(LMM)变得越来越容易.由于我们发现自己在工作中越来越多地使用这些模型,我们开发了一套R shiny工具来简化和加速与对象交互的lme ...
- 数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化...
全文链接:http://tecdat.cn/?p=22262 在讨论分类时,我们经常分析二维数据(一个自变量,一个因变量)(点击文末"阅读原文"获取完整代码数据). 但在实际生活中 ...
最新文章
- 简书php硬件交互,php设计模式——适配器模式
- 史上最全的正则表达式
- python开发环境配置config_manjaro与python开发环境配置
- EnforceLearning-主动强化学习
- NYOJ 2 括号配对问题
- 搭建LNMP基础框架
- RFC2616-HTTP1.1-Methods(方法规定部分—单词注释版)
- MssqlOnLinux 主从集群【2】
- asp.net web.config连接mysql数据库_ASP.NET中使用web.config配置数据库连接
- WordPress插件:WP-China-Yes解决国内访问官网慢的方法
- Abaqus的inp文件详解
- java面向对象程序设计
- python群控模拟安卓系统_手机群控脚本通用版安装包下载-手机群控脚本通用版apk(云控平板)v1.0.01真机模拟版_新绿资源网...
- java.lang.ArithmeticException: Division undefined
- 基于物联网的防盗报警器设计与实现
- 魔百盒CM311-1_S905L3芯片_YST代工_红外蓝牙语音_安卓9.0_线刷固件包
- table表格表头合并单元格问题
- 【干货】人工智能专业重要词汇表(红宝书)
- LeetCode 881.救生艇
- Ubuntu 安装 postgresql12