白话空间统计二十三:回归分析(四)

今天把回归最后几个概念介绍一下,后面就不再说了……开始写回归的时候,我发现我掉入了一个巨大的坑里面。就说回归分析这种东东,汗牛充栋啊,在任何大学里面,妥妥一个学期的课程,想用几篇文章写清楚,那几乎是不可能的,所以虾神准备过段从这个坑里面抽身(老衲法号从心——合起来就是“怂”),最后用几节讲讲概念,就进入我最擅长的软件或者代码部分。。。。

首先说说,回归线是怎么做出来的……嗯,先是一元回归,也就是最简单粗暴的直线。

作为直线,在平面坐标系里面,有两个重要的参数,分别是截距和斜率,如下:

只要有这两个参数,就可以决定一条直线了,那么这两个东东是怎么求出来的呢?

如果最理想的状态,就是相关系数为1的时候,如下面的理想状态,截距为0,回归线完全穿过所有的点,也就表示观测值和预测值完全相匹配,这样来说,求回归线就没有任何难度了……但是实际上,应该是像实际情况这样的,观测值和预测值之间存在明显的误差,这样来说的话,如何来求呢?

最常用的方法,称之为“最小二乘法”(ordinary least squares,简称:OLS)来求着两个参数,公式最后再贴,这里列出这种算法的一般思路即可。

OLS的基本思路,就是抽取一个样本点A1,找到离这个样本的最近的一个位置,称之为预测点B1,然后再抽一个点A2,把(A1,B1)放进来一起计算,找到一个点B2,并且使(A1-B1)^2 + (A2-B2)^2 最小的那个距离。以此类推……直到找到一条最合适的回归为止如下所示:

贴出计算公式来:(具体的公式推理过程,大家自己找资料)。

其中b0是截距,b1是斜率。

但是,根据数学原理来看,最小平方和未必是“最佳估计”的唯一值,如果仅仅要找到观测值和预测值之间距离最短的那个值,用距离绝对值之和的效果会更好。实际上也有用最小绝对距离计算的,这种方法得到的结果称之为“最小绝对偏差法(LAD)”估计值,它的优点是不太容易受到异常值对回归参数估计值的影响。

但是,最常用的方法还是OLS,因为这种方法的公式最简单,计算最方便(老话:简单粗暴是王道),而去计算得到的回归系数具有更好的统计性质,其线性、无偏性和有效性是最好的。

做出回归线来之后,如何判断这个回归的质量呢?也就是说,自变量X对因变量Y的解释程度有多高?回归分析里面,用拟合度(也有叫拟合优度:Goodness of Fit)这个参数来进行评判的。

啥叫拟合度呢?就是判断回归线与各个观测点的接近程度,一般来说,越接近就效果越好(特别是一元回归中,多元回归过度拟合也是一种病)。在一般回归里面,用判断系数来作为拟合度的判断指标。

判断系数的公式如下:

现在找两个极限数据,来进行一下评判,第一个是完全线性相关,第二个是完全随机:

可以看见,完全拟合的话,判断系数为1,完全随机的话,判断系数无限接近0。

说到拟合,是不是拟合度越高就越好呢?在一定情况下,当然是越高越好,但是超过之后,中国有句老话,就叫过犹不及,比如下面这批数据:

采用二次回归曲线的话,可以看见,当x超过100,Y超过200的时候,x与y之间变化会逐渐减少(逐渐进入平稳),这样可以看出比直接使用直线要好,结果如下:一次回归的判断系数为0.8813,二次回归的判断系数为0.8821

但是,如果我们追求更高的判断系数的话,也就是回归线穿过所有的点:就变成了一下这种情况

这样一来,回归线就已经没有任何意义了……

用常用的一句话说,啥叫过拟合呢?过拟合就是“看书看多,学傻了……”,下面通过一个小笑话,来解释一下过拟合:

待续未完

白话空间统计二十三:回归分析(四)相关推荐

  1. 白话空间统计二十三:回归分析番外-ArcGIS中的OLS(一)

    在讲GWR的ArcGIS应用之前,首先讲讲ArcGIS里面的OLS(Ordinary least squares:普通最小二乘法)工具的应用和解读,毕竟GWR是从回归分析里面演化出来的,OLS又是回顾 ...

  2. 白话空间统计二十四:地理加权回归(八)结果解读(一)

    地理加权回归分析完成之后,与OLS不同的是会默认生成一张可视化图,像下面这张一样的: 这种图里面数值和颜色,主要是系数的标准误差.主要用来衡量每个系数估计值的可靠性.标准误差与实际系数值相比较小时,这 ...

  3. 白话空间统计二十一:密度分析(五)带宽与核表面曲率的关系

    白话空间统计二十一:密度分析(五) 上次讲密度分析的时候,有同学问道带宽的问题,实际上我翻 了一下以前写的文章,在密度分析一.二里面,都对这个有过描述,详细的可以回去翻一下(很老的文章了--可能要翻到 ...

  4. 白话空间统计二十一:密度分析(一)

    白话空间统计二十一:密度分析(一) 密度分析这个概念其实很早就想写了,也有无数同学都问过我,虾神你能不能讲讲那些漂亮的热度图是怎么做的啊?比如下面这种: 如果说,这是互联网地图里面,最让人喜闻乐见的一 ...

  5. 白话空间统计二十一:密度分析(四)

    白话空间统计系列断了好久了--虽然写了很多其他的文章,但是有同学问,还是系列性的文章效果比较好,当然这些文章大部分都能分开来读,没有啥前后联系,但是系列文章最大的特点就是能够形成知识体系,无论是对于写 ...

  6. 白话空间统计二十七:统计学七支柱之空间统计版本(二)聚合(2)

    还记得a long long time ago 的青葱岁月--作为学渣的虾神最怕的就是各种(不擅长)的考试,虾神读书时候有个习惯,就拿到试卷之后,第一时间会把试卷翻到最后一页,去看最后一道大题.然后以 ...

  7. 白话空间统计二十九:空间插值(二)

    前文再续,书接上一回--上回书说到,空间插值可以对数据进行估算,这一张我们来具体说说空间插值的一些概念. 首先,来说说插值的输入与输出问题. 首先输入的肯定是用来进行插值的观测点数据,一般来说都是点要 ...

  8. 白话空间统计二十四:地理加权回归(九)结果解读(二)

    实际上,除了辅助表以外,GWR还会生成一份全要素的表.对回归的每一个样本都给出相应的信息,今天就来看看这些信息代表了什么内容. 生成的新的要素类字段信息如下: 实际上,Coeffcient(系数)和S ...

  9. 白话空间统计二十一:密度分析(七) Python实现

    R语言的核密度渲染弄完了,今天来看看Python的核密度.本来没准备些Python,但是今天在玩seaborn包的时候,发现了强大的kdeplot这样一样工具,让虾神我惊为天人,不写感觉都对不起这个方 ...

最新文章

  1. 从Dart列表中删除重复项的2种方法
  2. Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory
  3. 使用Python往Elasticsearch插入数据
  4. struts2+spring+hibernte整合示例
  5. wireshark基本用法及过虑规则
  6. 清华计算机系人工智能学院,CoAI - 清华大学交互式人工智能课题组
  7. 【翻译】图解Janusgraph系列-事务详解(Janusgraph Transactions)
  8. ReadHub源码阅读笔记(一)
  9. CocosCreater 接入手Q (QQ小游戏)、小米快游戏 接入指南、脱坑指南
  10. UEditor(集成 135 编辑器插件)(附源码)
  11. 如何编程阶梯形c语言,阶梯式C语言程序设计实验指导书.doc
  12. 爪哇国新游记之十六----泛型单链表类
  13. PS 选区的基础使用
  14. win10删除Windows更新和预览的版本,关闭自动更新
  15. Java版本 图书管理系统
  16. 优质神器!推荐7个小众好用的软件,也许你还没用过
  17. 浅谈ICMP/ping、traceroute、MTR、fping
  18. 2021-03-22linux内核编译和安装过程
  19. 如何从100万个数中找出最大的前100个数
  20. 京瓷一体复印机设置账户权限的驱动设置

热门文章

  1. 智能车入门——简单驱动常用模块 <新手从零做车>
  2. 吾辈楷模!工作2年的漂亮小姐姐成功入职阿里,昨晚12点来向我分享自己的面试经验!
  3. 深度学习文本摘要_使用深度神经网络的文本摘要
  4. 【jdk1.8的下载与安装详细教程】
  5. u码转换 java_把Java中\u格式的unicode编码转成中文
  6. 同网段的设备通信信路径配置
  7. 2021全球城市500强亚洲上榜城市排行榜:中国40个城市上榜,上海和香港跻身进了前十(附年榜TOP154详单)
  8. be2014备份oracle,BE 12.5在备份ORACLE的问题
  9. 电控针阀和手动可变泄漏阀组合在超高真空度精密PID控制中的应用
  10. ControlState和ControlStyle属性详解