原文链接:http://tecdat.cn/?p=2605

原文出处:拓端数据部落公众号

这个问题涉及马蹄蟹研究的数据。研究中的每只雌性马蹄蟹都有一只雄性螃蟹贴在她的巢穴中。这项研究调查了影响雌蟹是否有其他男性居住在她附近的因素。被认为影响这一点的解释变量包括雌蟹的颜色(C),脊椎状况(S),体重(Wt)和甲壳宽度(W)。

数据文件:crab.txt。

我们将首先拟合仅具有一个自变量:宽度(W)的泊松回归模型

估计的模型是:$ log(\ hat {\ mu_i})$ = -3.30476 + 0.16405W ilog(μi^) = - 3.30476 + 0.16405W

估计的β= 0.164的ASE为0.01997,这是小的,并且该斜率在z值为8.216及其低p值的情况下在统计学上是显着的。

如果我们看一下W对Sa的散点图(见下文),我们可能会怀疑一些异常值

您可以考虑其他类型的残差,影响度量(如我们在线性回归中看到的)以及残差图。

以下是运行R代码其他部分的输出的一部分:

从上面的输出中,我们可以看到预测计数(“拟合”)和线性预测变量的值,即预期计数的对数值。

我们也可以看到,尽管预测是有意义的,但模型并不适合。考虑到残差统计值为567.88和df为171 ,p值为零,残差统计值/ DF = 567.88 / 171 = 3.321远大于1,因此该模型不适合。缺乏适合可能是由于缺少数据,协变量或过度分散。

更改模型

在上述模型中,我们检测到一个潜在的过分散问题,因为比例因子,例如残差偏差的值/ DF远大于1。

回想一下,过度分散的原因之一是异质性,其中每个协变量组合中的主体仍然差异很大。如果是这样的话,是否违背了Poisson回归模型的泊松模型的假设?

上述R程序的输出:

在这个模型中,随机分量在响应具有相同均值和方差的情况下不再具有泊松分布。根据给定的估计值(例如Pearson X 2 = 3.1822),随机分量的变化(响应)大约是平均值的三倍。

除了过度分散之外,如何忽略其他解释变量?我们可以通过添加其他变量来提高拟合度吗?

我们来比较一下这个输出和只有“W”作为预测的模型。我们将“虚拟变量”引入到模型中,以表示具有4级的颜色变量,其中4级作为参考级别。

此外,如果您运行anova(model.disp),从下面的输出中我们可以看到,在考虑宽度后,颜色几乎没有统计上显着的预测因子。

> anova(model.disp)Df Deviance Resid。Df Resid。DevNULL 172 632.79W 1 64.913 171 567.88C1 1 3.130 170 564.75C2 1 5.400 169 559.35C3 1 0.004 168 559.34

此模型是否适合数据更好,是否适合过度分散?

R代码的这部分做以下更改:

将此输出的部分与上面的输出相比较,我们将颜色用作分类预测器。我们这样做只是为了记住同一个变量的不同编码会给你不同的拟合和估计值。

现在估计的模型是什么?$ \ log {\ hat {\ mu_i}} $ = -2.520 + 0.1496W - 0.1694C。logμi^ = -2.520 + 0.1496W - 0.1694C。

由于添加协变量没有帮助,过度分散似乎是由于异质性。我们可以用这些数据做些什么吗?

数据分组

我们考虑按宽度分组数据,然后拟合泊松回归模型。这里是按W排序的数据。

数据已分成8个区间,如下面的(分组)数据所示

请注意,“NumCases”是位于特定区间内的雌性螃蟹的数量,限定了这些雌性螃蟹的背宽。“AverWt”是该分组内的平均背宽。

更改模型

我们还创建了一个变量lcases = log(样本),其中记录了样本数量的对数。这是输出。

模型现在比以前更好还是更差?它显然更适合。例如,残差统计值的值/ DF现在是1.0861。

残差分析也显示了良好的拟合度。

我们来比较下图中的观察值和拟合值(预测值):

我们可以拟合泊松回归模型。请注意,该模型不适合分组数据,因为与先前的模型相比,残差统计的值/ DF约为11.649。

 


最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

拓端tecdat|R语言泊松Poisson回归模型分析案例相关推荐

  1. R语言泊松Poisson回归模型分析案例

    这个问题涉及马蹄蟹研究的数据.研究中的每只雌性马蹄蟹都有一只雄性螃蟹贴在她的巢穴中.这项研究调查了影响雌蟹是否有其他男性居住在她附近的因素.被认为影响这一点的解释变量包括雌蟹的颜色(C),脊椎状况(S ...

  2. 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险

    最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...

  3. 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例

    最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...

  4. 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测

    最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...

  5. 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系

    最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...

  6. R语言构建logistic回归模型:构建模型公式、拟合logistic回归模型、模型评估,通过混淆矩阵计算precision、enrichment、recall指标

    R语言构建logistic回归模型:构建模型公式.拟合logistic回归模型.模型评估,通过混淆矩阵计算precision.enrichment.recall指标 目录

  7. R语言构建logistic回归模型:WVPlots包PRTPlot函数可视化获取logistic回归模型的最优阈值、优化(precision、enrichment)和recall之间的折衷

    R语言构建logistic回归模型:WVPlots包PRTPlot函数可视化获取logistic回归模型的最佳阈值(改变阈值以优化精确度(precision.enrichment)和查全率(recal ...

  8. R语言构建logistic回归模型并评估模型:模型预测结果抽样、可视化模型分类预测的概率分布情况、使用WVPlots包绘制ROC曲线并计算AUC值

    R语言构建logistic回归模型并评估模型:模型预测结果抽样.可视化模型分类预测的概率分布情况.使用WVPlots包绘制ROC曲线并计算AUC值 目录

  9. R语言构建logistic回归模型并评估模型:构建基于混淆矩阵计算分类评估指标的自定义函数、阳性样本比例(垃圾邮件比例)变化对应的分类器性能的变化、基于数据阳性样本比例选择合适的分类评估指标

    R语言构建logistic回归模型并评估模型:构建基于混淆矩阵计算分类评估指标的自定义函数.阳性样本比例(垃圾邮件比例)变化对应的分类器性能的变化.基于数据阳性样本比例选择合适的分类评估指标 目录

  10. R语言构建logistic回归模型并评估模型:计算混淆矩阵、并基于混淆矩阵计算Accuray、Precision、Recall(sensitivity)、F1、Specificity指标

    R语言构建logistic回归模型并评估模型:计算混淆矩阵.并基于混淆矩阵计算Accuray.Precision.Recall(sensitivity).F1.Specificity指标 目录

最新文章

  1. MySQL中如何删除数据
  2. ArcGIS Server常见问题集锦(转载)
  3. Extjs 更换主题(转载)
  4. Ubuntu-Python2.7安装 scipy,numpy,matplotlib
  5. js 编程时注意事项
  6. 6的变换_电源学报 | 2020年第3期:quot;高性能双向直流变换技术及其应用quot;专辑征稿启事...
  7. 调用Django中的API时,使用Pycharm给后端view打断点的方法
  8. Markdown编辑公式
  9. mdin偏移_C8051F020入门指导重点.ppt
  10. BZOJ5300 [Cqoi2018]九连环 【数学】【FFT】
  11. ajax 返回数组某个属性值,jQuery Ajax向某个页面传值并取得返回的数组
  12. 【#9733;】SPF(Dijkstra)算法完美教程
  13. 关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码
  14. 405.数字转换为十六进制数
  15. 后端如何收取多个文件_一次上传多个文件机制的两种解决方案
  16. Unity 按钮脚本
  17. php和composer关系_使用Composer管理PHP依赖关系
  18. matlab信源编码,常见无失真信源编码算法及Matlab实现比较(27页)-原创力文档
  19. Eclipse多行注释
  20. 华为双前置摄像头_华为nova7 Pro的前置是两个摄像头吗?自拍功能咋样

热门文章

  1. 001-android eclipse 自动生成的程序
  2. Java:集合,Array、Collection(List/Set/Queue)、Map的遍历,比如:ArrayList,LinkedList,HashSet,HashMap...
  3. C++深度探索系列:智能指针(Smart Pointer) [一] (转)
  4. 使用Windows 7 管理Windows 2008 R2
  5. 3月15日 卡尔曼与多元传感器融合
  6. pytorch和GPU有关操作(CUDA)
  7. 第二季-专题10-C语言环境初始化
  8. 凸优化第六章逼近与拟合 6.1 范数逼近
  9. OSPF计算环路:RFC:2328与RFC1583
  10. 简聊初步尝试服务端渲染的一些感想