拓端tecdat|R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间
原文链接:http://tecdat.cn/?p=15062
原文出处:拓端数据部落公众号
考虑简单的泊松回归。给定的样本,其中,目标是导出用于一个95%的置信区间给出,其中是预测。
因此,我们要导出预测的置信区间,而不是观测值,即下图的点
> r=glm(dist~speed,data=cars,family=poisson)
> P=predict(r,type="response",
+ newdata=data.frame(speed=seq(-1,35,by=.2)))
> plot(cars,xlim=c(0,31),ylim=c(0,170))
> abline(v=30,lty=2)
> lines(seq(-1,35,by=.2),P,lwd=2,col="red")
> P0=predict(r,type="response",se.fit=TRUE,
+ newdata=data.frame(speed=30))
> points(30,P1$fit,pch=4,lwd=3)
即
最大似然估计。
,Fisher信息来自标准最大似然理论。
这些值的计算基于以下计算
在对数泊松回归的情况下,
让我们回到最初的问题。
- 线性组合的置信区间
获得置信区间的第一个想法是获得置信区间(通过取边界的指数值)。渐近地,我们知道
因此,方差矩阵的近似将基于通过插入参数的估计量而获得。
然后,由于作为渐近多元分布,参数的任何线性组合也将是正态的,即具有正态分布。所有这些数量都可以轻松计算。首先,我们可以得到估计量的方差
因此,如果我们与回归的输出进行比较,
> summary(reg)$cov.unscaled
(Intercept) speed
(Intercept) 0.0066870446 -3.474479e-04
speed -0.0003474479 1.940302e-05
> V
[,1] [,2]
[1,] 0.0066871228 -3.474515e-04
[2,] -0.0003474515 1.940318e-05
根据这些值,很容易得出线性组合的标准偏差,
一旦我们有了标准偏差和正态性,就得出了置信区间,然后,取边界的指数,就得到了置信区间
> segments(30,exp(P2$fit-1.96*P2$se.fit),
+ 30,exp(P2$fit+1.96*P2$se.fit),col="blue",lwd=3)
基于该技术,置信区间不再以预测为中心。
- 增量法
实际上,使用表达式作为置信区间不会喜欢非中心区间。因此,一种替代方法是使用增量方法。我们可以使用一个程序包来计算该方法,而不是在理论上再次写一些东西,
> P1
$fit
1
155.4048$se.fit
1
8.931232$residual.scale
[1] 1
增量法使我们具有(渐近)正态性,因此一旦有了标准偏差,便可以得到置信区间。
通过两种不同的方法获得的数量在这里非常接近
> exp(P2$fit-1.96*P2$se.fit)
1
138.8495
> P1$fit-1.96*P1$se.fit
1
137.8996
> exp(P2$fit+1.96*P2$se.fit)
1
173.9341
> P1$fit+1.96*P1$se.fit
1
172.9101
- bootstrap技术
第三种方法是使用bootstrap技术基于渐近正态性(仅50个观测值)得出这些结果。我们的想法是从数据集中取样,并对这些新样本进行log-Poisson回归,并重复很多次数,
参考文献
1.用SPSS估计HLM层次线性模型模型
2.R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)
3.基于R语言的lmer混合线性回归模型
4.R语言Gibbs抽样的贝叶斯简单线性回归仿真分析
5.在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析
6.使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
7.R语言中的岭回归、套索回归、主成分回归:线性模型选择和正则化
8.R语言用线性回归模型预测空气质量臭氧数据
9.R语言分层线性模型案例
拓端tecdat|R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间相关推荐
- 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...
- 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
- 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
- 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...
- R语言学习笔记(十一):广义线性模型
#Logistic 回归 install.packages("AER") data(Affairs,package="AER") summary(Affairs ...
- 拓端tecdat荣获掘金社区入驻新人奖
2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...
- R语言基于Bootstrap方法计算标准误差(std. error)实战
R语言基于Bootstrap方法计算标准误差(std. error)实战 目录 R语言基于Bootstrap方法计算标准误差实战 #Bootstrapping计算标准误的流程
- 拓端tecdat荣获2022年度51CTO博主之星
相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...
- 【视频】Python和R语言使用指数加权平均(EWMA),ARIMA自回归移动平均模型预测时间序列...
原文链接:http://tecdat.cn/?p=21773 时间序列(从现在起称为TS)被认为是数据科学领域中鲜为人知的技能之一(点击文末"阅读原文"获取完整代码数据). 视频: ...
- R语言使用lm函数拟合多元线性回归模型、假定预测变量没有交互作用(Multiple linear regression)
R语言使用lm函数拟合多元线性回归模型.假定预测变量没有交互作用(Multiple linear regression) 目录
最新文章
- WPS 2019 更新版(8392)发布,搭配优麒麟 19.04 运行更奇妙!
- Error in **** : non-numeric argument to binary operator
- .Net学习难点讨论系列16 - 索引器
- 区块链与边缘计算(3)系统介绍
- oracle级联删除表空间,Oracle表的创建.表空间创建删除,导入导出等
- bootstrap 一排5个_Bootstrap5 列(Columns)
- idea左右切换页面 返回上一次鼠标位置
- rsync 同步优化_可以优化同步吗?
- [JAVA]字符串单词倒转处理前面的空格
- hdu 1166 树状数组解
- jQuery EasyUI 数据网格
- Navicat for MySQL 12.0.26 中文破解版 数据库管理工具
- win10电脑打开计算机快捷键,win10如何打开计算器工具 快速打开Win10计算器的四种方法...
- 前端需要了解的色彩知识
- 每周分享第 45 期
- 洛谷P4061 大吉大利,晚上吃鸡
- PythonOperator、BashOperator以及Xcom使用
- 如何定义线程数线程数
- torchvision.datasets.FashionMNIST报错[WinError 10054] 远程主机强迫关闭了一个现有的连接
- QQ伤感日志_你教会了我爱,让我懂得了爱