对于可视化来说,GIS有先天的优势……俺们天生就是画地图的,不过首先要限于可空间化的情况下……如果要分析的数据非空间数据,结果也没有空间化的可能,那么就凉拌了。

不过大家放心啦,作为微信平台里面专门讲空间分析和空间统计的公众号:虾神daxialu,老夫是不会让这种事情发生的……所以今天虽然还是讲回归分析,那么我也要弄成带有空间数据的回归可视化。

首先,还是用山东的数据吧……首先挑选了五个维度,回归因变量选择财政收入,自变量选择工业总产值,消费品零售额,总出口以及固定资产投资,然后进行一元线性回归:

进行回归之后,发现全是正向影响因素,然后进行一下VIF检验:

根据经验公式,超过11的话,就表示存在严重的多重共线性,而这里计算出来的都在4一下,表示选择的这些变量之间不存在多重共线性,回归的结果是可信的。

好了,上面的计算部分有不是今天的重点,下面开始对回归分析的结果进行可视化。

首先进行四个自变量系数的可视化,一般来说,系数越大的,表示贡献度越大,可视化的方式用R语言里面的ggplot2这个神包:

四个维度里面工业总产值对财政收入的贡献度最低……总出口的贡献度最高,从这里可以看出来,我国所谓的经济三架马,投资、消费、出口,出口效果果然还是最好的……而工业总产值,对地方财政的收入,基本呵呵呵呵……

下面来看看另外一个重要数据,就是残差,先进性残差的图表可视化:

好吧……山东137个县区,平铺出来之后,不知道大家是啥感觉,反正虾神看完之后是这样的:

所以,现在可以看出来,使用空间可视化的重要了……下面进入空间可视化阶段……什么?你说用ArcGIS,好吧,虽然这个是虾神的老本行,但是这次我想先用R语言来把这事干了。(另外,这篇文章能算leaflet的番外篇么)。

先看看效果:

虽然正向残差少于负项残差(正向62个,负向75个),但是因为正向部分的极差大于负向,所以整个地图的主色调都是偏向绿色。现在来修正一下整个地图的风格。

我们要看残差的话,不管是正向残差还是负向残差,都是残差,所以我们先进性一个绝对值化,把所有数据都取绝对值,那么整个地图的风格就变成这样了:

这样看来,大部分的残差,都比较少(当然少啊……R-squared都到了0.8+ 了),也就说明这个回归分析的可信度还是挺高的,且在地域上的差异不是特别大。

另外,在看看特别红的那个部分……又是虾神最喜欢的格林兰(greenland)……当然,我们更习惯叫它青岛。再次回到最初分析数据的维度:用工业总产值、零售额、固定资产和出口来对财政收入进行回归,贡献系数最大的是进出口,我大格林兰,额,还是叫青岛吧……我大青岛作为世界知名港口城市(2015年世界排名第八),出口量自然不是吹的,但是为什么残差最大的也在青岛了,仔细看看,最红这个地方,是青岛市的崂山区……好吧,回头来看看数据:

百亿的财政收入,贡献系数最大的出口,只有49亿……所以才会出现正向残差最大(正向残差表示预测值太低了)。那么从数据上可以得到这样一个结论:崂山区的财政收入,有其他因素的支持。(猜也猜出来了啊……作为国内旅游圣地的崂山,自然第三产业里面最赚钱的旅游啊!)

如果有用过ArcGIS 中空间统计工具的OLS工具的话, 发现分析完成了之后会给出一个与标准差的倍数对比的可视化图出来(以标准差为基准,离标准差越远,表示残差越大),从这种可视化结果,可以更清晰的看出残差的分布。那么下面用R来实现这个功能:

分析完之后,发现负残差最大的两个城市,分别是烟台市的福山区和淄博市的张店区:

负向残差表示预测值太高,实际值远远小于预测值(高估),来看看这两个城市的数据:

先看张店区,只有15亿的出口,但是有70多亿的财政收入,也就说明,要么整体系数中出口的系数,对张店区的贡献估计不对,要么像崂山一样,有其他的因素。

然后看福山区:153亿的出口……好吧,几乎除青岛以外,在山东一骑绝尘了,但是财政收入也只有109亿,说明有其他的负向因素影响了他的财政收入。

正残差最大的是青岛市的崂山区:

那么这些漂移太大的地区,就是所谓的分析的蛮点或者说异常区域,也有可能是我们下面需要重点研究的区域,如何进一步研究呢?那就要继续所谓的地理加权回归了。

待续未完。

最后,还是一样,需要数据还脚本的,请发关注公众号,获取邮箱,并且发送一封有自我简介的邮件索取。(能够转发推广,更是功德无量……不愿意转发的,发个红包,虾神也不介意……)

白话空间统计二十三回归分析番外:残差可视化相关推荐

  1. 白话空间统计二十三:回归分析(四)

    白话空间统计二十三:回归分析(四) 今天把回归最后几个概念介绍一下,后面就不再说了--开始写回归的时候,我发现我掉入了一个巨大的坑里面.就说回归分析这种东东,汗牛充栋啊,在任何大学里面,妥妥一个学期的 ...

  2. 白话空间统计二十三:回归分析番外-ArcGIS中的OLS(一)

    在讲GWR的ArcGIS应用之前,首先讲讲ArcGIS里面的OLS(Ordinary least squares:普通最小二乘法)工具的应用和解读,毕竟GWR是从回归分析里面演化出来的,OLS又是回顾 ...

  3. 白话空间统计二十四:地理加权回归(八)结果解读(一)

    地理加权回归分析完成之后,与OLS不同的是会默认生成一张可视化图,像下面这张一样的: 这种图里面数值和颜色,主要是系数的标准误差.主要用来衡量每个系数估计值的可靠性.标准误差与实际系数值相比较小时,这 ...

  4. 白话空间统计二十一:密度分析(五)带宽与核表面曲率的关系

    白话空间统计二十一:密度分析(五) 上次讲密度分析的时候,有同学问道带宽的问题,实际上我翻 了一下以前写的文章,在密度分析一.二里面,都对这个有过描述,详细的可以回去翻一下(很老的文章了--可能要翻到 ...

  5. 白话空间统计二十一:密度分析(一)

    白话空间统计二十一:密度分析(一) 密度分析这个概念其实很早就想写了,也有无数同学都问过我,虾神你能不能讲讲那些漂亮的热度图是怎么做的啊?比如下面这种: 如果说,这是互联网地图里面,最让人喜闻乐见的一 ...

  6. 白话空间统计二十七:统计学七支柱之空间统计版本(二)聚合(2)

    还记得a long long time ago 的青葱岁月--作为学渣的虾神最怕的就是各种(不擅长)的考试,虾神读书时候有个习惯,就拿到试卷之后,第一时间会把试卷翻到最后一页,去看最后一道大题.然后以 ...

  7. 白话空间统计二十一:密度分析(四)

    白话空间统计系列断了好久了--虽然写了很多其他的文章,但是有同学问,还是系列性的文章效果比较好,当然这些文章大部分都能分开来读,没有啥前后联系,但是系列文章最大的特点就是能够形成知识体系,无论是对于写 ...

  8. 白话空间统计二十九:空间插值(二)

    前文再续,书接上一回--上回书说到,空间插值可以对数据进行估算,这一张我们来具体说说空间插值的一些概念. 首先,来说说插值的输入与输出问题. 首先输入的肯定是用来进行插值的观测点数据,一般来说都是点要 ...

  9. 白话空间统计二十一:密度分析(七) Python实现

    R语言的核密度渲染弄完了,今天来看看Python的核密度.本来没准备些Python,但是今天在玩seaborn包的时候,发现了强大的kdeplot这样一样工具,让虾神我惊为天人,不写感觉都对不起这个方 ...

  10. 白话空间统计二十九:空间插值(六)IDW部分完结篇

    写在前面的话: 我知道很多同学都在等克里金,但是空间插值这个系列我已经预定好了撰写的思路,所以暂时没办法直接跳过前面的内容直奔克里金,所以大家只能将就一下先把前面的内容看完,但是应该快了. 前文再续, ...

最新文章

  1. java多线程中的join方法详解
  2. Python(五)列表
  3. 得到CRC16校验码的常见几个标准的算法及C语言实现
  4. Java集合—HashMap为什么2倍扩容
  5. python中怎么表示整数的点称为整点_智慧职教云课堂APPPython程序设计基础答案公众号...
  6. PHP通过文件存储来实现缓存
  7. 【ArcGIS风暴】实验:公路建设成本的计算
  8. 一文读懂YOLOv5 与 YOLOv4
  9. (43)前端工程化总结
  10. 潘正磊: 做最好、最美的你
  11. 【算法学习笔记】81.动态规划 分类讨论 SJTU OJ 1075 括号匹配升级
  12. python with as 用法_你在 Python 中常常写的 with..as.. 到底是个啥?
  13. 解决IDEA中maven搭建web项目,在maven中有依赖但是在部署包中生成不出依赖
  14. 高通 SPI驱动笔记
  15. 论语十二章原文及翻译
  16. 红蜘蛛 v6.2.1160解除键鼠屏蔽以及实现窗口化
  17. 互联网日报 | 58到家正式改名“天鹅到家”;华为“服务日”活动宣布延长一年;特斯拉上线电池回收服务...
  18. php5.2.17 pecl,php pecl的使用
  19. 发布新一代微控制器 AURIX 2G 的背后,半导体巨头英飞凌如何应对汽车行业变革?...
  20. APP提现之微信服务号红包

热门文章

  1. windows server2019安装SQLServer
  2. 机器学习学习整理(二)对数几率回归与支持向量机
  3. 贡献一个fisco-bcos-browser-front基于官方的代码改造的兼容手机浏览器和pc浏览器
  4. 矩阵行列式的计算及逆矩阵转换
  5. Word中规范输入大写的中文日期(转)
  6. 故事板(StoryBoards)和动画(Animations)
  7. linux 限速命令,linux上传限速脚本介绍
  8. undefined reference to 问题汇总及解决方法
  9. python pymysql multiprocessing.dummy多线程 读写数据库报错
  10. 小白系统盘制作详细教程