原文链接:http://tecdat.cn/?p=22328

原文出处:拓端数据部落公众号

目前,回归诊断不仅用于一般线性模型的诊断,还被逐步推广应用于广义线性模型领域(如用于logistic回归模型),但由于一般线性模型与广义线性模型在残差分布的假定等方面有所不同,所以推广和应用还存在许多问题。鉴于此,本文使用图表考察logistic模型的拟合优度。

如何处理从逻辑回归中得到的残差图? 为了更好地理解,让我们考虑以下数据集

glm(Y~X1+X2,family=binomial)

如果我们使用R的诊断图,第一个是残差的散点图,对照预测值。

> plot(reg,which=1)

也可以

> plot(predict(reg),residuals(reg))
> abline(h=0,lty=2 )

为什么我们会有这两条线的点?因为我们预测了一个变量取值为0或1的概率。当我们使用彩色时,可以更清楚地看到,如果真值是0,那么我们总是预测得更多,残差必须是负的(蓝点),如果真值是1,那么我们就低估了,残差必须是正的(红点)。当然,还有一个单调的关系

> plot(predict(reg),residuals(reg) )

点正好在一条平滑的曲线上,是预测值的一个函数。

现在,从这个图上看不出什么。我们运行一个局部加权回归,看看发生了什么。

 lowess(predict(reg),residuals(reg) 

这是我们在第一个诊断函数中所得到的。但在这个局部回归中,我们没有得到置信区间。我们可以假设图中水平线非常接近虚线吗?

 segments( fit+2* se.fit,  fit-2* se.fit )

可以。这个图表表明什么?

事实上,该图可能不是观察残差的唯一方法。如果不把它们与两个解释变量绘制在一起呢?例如,如果我们将残差与第二个解释变量作对比,我们会得到

> lines(lowess(X2,residuals(reg)) 

对照一下,该图与我们之前的图相似。

如果我们现在看一下与第一个解释变量的关系:

> lines(lowess(X1,residuals(reg)) 

因为我们可以清楚地识别出二次方的影响。这张图表明,我们应该对第一个变量的平方进行回归。而且可以看出它是一个重要的影响因素。

现在,如果我们运行一个包括这个二次方效应的回归,我们会得到什么。

 glm(Y~X1+I(X1^2)+X2,family=binomial)

看起来和第一个逻辑回归模型结果类似。那么本文的观点是什么?观点是

  • 图形可以用来观察可能出错的地方,对可能的非线性转换有更多的直觉判断。
  • 图形不是万能的,从理论上讲,残差线应该是一条水平的直线。但我们也希望模型尽可能的简单。所以,在某个阶段,我们也许应该依靠统计检验和置信区间。

最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

拓端tecdat|R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析相关推荐

  1. 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测

    最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...

  2. 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险

    最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...

  3. 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系

    最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...

  4. 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例

    最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...

  5. 多项式拟合(polyfit)及局部加权回归(Lowess)对二维数据基础规律和离群特征学习的分析对比

    概述: 1.当计算序列中离群区间的效应系数时,左右两侧增加的非离群区间应该尽量长些,离群程度越强,增加的非离群区间应越长, 多项式和Lowess才可能不被拉起.由于无法准确控制拉起的程度,则统一不拉起 ...

  6. spgwr | R语言与地理加权回归(Ⅰ-1):线性地理加权回归

    地理加权回归(Geographically Weighted Regression, GWR)经过多年发展,已经具备了多种形式,在R语言中也对应着多个工具包,其中spgwr是一个开发较早.比较经典的工 ...

  7. R语言GWR地理加权回归

    最近需要用到GWR地理加权回归,数据量有5万条,使用了GIS.GWR4进行计算,但都没能成功.应该是数据量过大. 参考相关博客,还有一个方法是R语言的实现.因为没怎么接触过R语言,所有想请问一下各位, ...

  8. R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测

    全文下载链接:http://tecdat.cn/?p=22632 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的异常点进行建模的方法. 相关视频 我们将对一种叫做STL的算法进行研究,STL是 ...

  9. spgwr | R语言与地理加权回归(Ⅰ-2):广义线性地理加权回归

    本篇来介绍基于广义线性模型的地理加权模型.广义线性模型包括Logistic模型.泊松模型等系列回归模型,具体内容请查看数学模型专辑的相关系列推文. 广义线性GWR的使用方法与线性GWR类似: ggwr ...

  10. R语言稀疏主成分分析、因子分析、KMO检验和Bartlett球度检验分析上市公司财务指标数据...

    全文链接:http://tecdat.cn/?p=31080 R中的主成分分析(PCA)和因子分析是统计分析技术,也称为多元分析技术(点击文末"阅读原文"获取完整代码数据). 当可 ...

最新文章

  1. 紧急更新下降难度,《王者荣耀》绝悟 AI 难倒一片玩家
  2. 计算机应用工作技能与经验,关于计算机应用技能人才培养模式的思考
  3. Android如何实现TCP和UDP传输
  4. 08年最热门七大技术和最紧缺的IT人才
  5. 拆半查找的递归和非递归算法
  6. SAP Fiori INTEROP tile cache
  7. 深度学习算法 第四期
  8. 编译原理教程_3 词法分析
  9. [WPF]Binding的Converter和Validator
  10. 正确使用SqlConnection对象,兼谈数据库连接池
  11. UML统一建模语言简介
  12. vue开发移动端app-学习记录
  13. 电工知识:常用电子元件名称及其对应图片实用大全
  14. 图片剪裁在线html,前端图片裁剪实战
  15. 清空CheckBox 勾选
  16. 这特么是啥系列之----HSF求求你别秀了
  17. c语言赛车游戏代码大全,初学者天地游戏制作--赛车游戏的完整图
  18. Exception(一)
  19. 1301 IP地址
  20. emqx 修改网页客户端dashboard 密码

热门文章

  1. 31 GroupSock(AddressString)——live555源码阅读(四)网络
  2. centos无法启动,修复grub.conf文件
  3. ×××技术详解(二)
  4. 1月 23 surface pro 3. windows ubuntu 双系统安装
  5. 从Q-learning到PPO大全 深度强化学习总结和理解
  6. ResNet 残差神经网络
  7. Text Classification with BERT using Transformers for long text inputs
  8. 大数据排重算法-布隆算法(BloomFilter)
  9. 数据--第31课 - 树的存储结构
  10. POJ-3468-A Simple Problem with integers