0、术语

0.4、回归和预测

响应变量

想要预测的变量。

自变量

用于预测响应的变量。

记录

一个表示特定个体或实例的向量,由因子和结果值组成。

截距

回归线的截距,即当 X = 0 时的预测值。

回归系数

回归线的斜率。

拟合值

从回归线获得的估计值

残差

观测值和拟合值之间的差异。

最小二乘法

一种通过最小化残差的平方和而拟合回归的方法

均方根误差

回归均方误差的平方根,它是比较回归模型时使用最广泛的度量

标准残差

与均方根误差的计算一样,只是根据自由度做了调整

R

可以被模型解释的变异的比例,值介于 0 到 1 之间

t 统计量

预测因子的系数,除以系数的标准误差。它提供了一种比较模型中变量重要性的度量

加权回归

在回归中,记录具有不同的权重

预测区间

个体预测值的不确定区间范围

外推法

将模型扩展到拟合所用的数据范围之外

虚拟变量

二元的 0/1 变量,通过对因子数据重新编码得到,可用于回归模型或其他模型

参考编码

统计学家最常使用的编码类型。它以因子的一层作为参考层,并将其他因子与参考层进行对比

独热编码(one hot encoder)

机器学习领域中常用的一种编码。它保留了所有的因子层。虽然该编码适用于部分机器学习算法,但并不适用于多元线性回归

偏差编码

在编码中用于对比的并不是参考层,而是将每一层与整体均值进行对比。

相关变量

当预测变量高度相关时,难以解释单个回归系数。

多重共线性

当预测变量间存在完美的或近乎完美的相关性时,回归是不稳定的,或者说是不

可能计算的。

混淆变量

一种重要的预测变量。忽视该变量可导致回归方程给出伪关系。

主效应

预测变量和结果变量之间的关系,该关系独立于其他的变量。

交互作用

两个或两个以上预测变量和响应之间的相互依赖关系。

标准残差

残差除以残差的标准误差。

离群值

距离其他记录(或预测结果)很远的记录(或结果值)。

强影响值(inflfluential value)

一个值或记录,其存在与否会使回归方程有很大差异。

杠杆

单个记录对回归方程的影响程度。

非正态残差

非正态分布的残差可能会导致一些对回归的技术需求失效。但在数据科学中,通

常并不会关注该问题。

异方差性

在输出的部分范围中具有较高变异性的残差。这可能表明在回归方程中缺失了某

个预测变量。

偏残差图

展示结果变量和单个预测变量之间关系的一种诊断图。

多项式回归

在回归方程中添加了多项式项,例如平方项、三次方项等。

样条回归

使用一系列多项式片段去拟合一条平滑曲线。

结点

分隔样条片段的值。

广义加性模型

可以自动选择结点的样条模型。

4、回归和预测

变量X和变量Y之间是否有关联,可否用这种关联去预测Y?

4.1、简单线性回归

相关性衡量的是两个变量的关联程度,而回归则量化了两个变量间关系的本质。

4.1.1、回归方程

4.1.2、拟合值与残差

4.1.3、最小二乘法

回归线是使残差值的平方和最小化的估计值。残差值的平方和也称残差平方和(RSS)

使得 RSS 最小化的方法为最小二乘法回归

回归系数计算公式

4.2、多元线性回归

4.2.1、评估模型

性能度量是均方根误差(RMSE)

标准残差(RSE)

决定系数,也称R方统计量,评估模型拟合数据的程度

t统计量,决定系数“统计显著”的程度,t越大,p值越低,显著性越高

4.2.2、交叉验证

将数据分为训练样本和验证样本

4.2.3、模型选择和逐步回归法

添加更多的变量并不意味着就会得到一个更好的模型,

奥卡姆剃刀原则(principle of Occam’s razor):在其他条件相同的情况下,应优先选用更简单的模型而不是更复杂的模型。

模型选择的AIC(赤池信息量准则)指标

如何找到AIC最小的模型

  • 全子集回归法 搜索所有可能的模型
  • 逐步回归法 连续添加并丢弃预测因子
    • 前向选择 开始没有预测因子,依次添加
    • 后向选择 完整模型的逐步删除

惩罚回归,思想类似于AIC,但不清除预测变量,而是减小系数

4.2.4、加权回归

归用于拟合函数中,可以对特定记录给予更大或更小的权重

4.3、使用回归做预测

4.3.1、外推法的风险

回归模型不应外推到所使用的数据范围之外。回归模型仅对具有足够数据值的预测因子有效。

4.3.2、置信区间和预测区间

置信区间量化了回归系数的不确定度。

预测区间量化了单个预测中的不确定度

4.4、回归中的因子变量

也称分类变量,一组数量有限的离散值

4.4.1、虚拟变量的表示

将其转换为二元变量集合,即转换为数值变量

一个具有P个层(不同值)的因子变量,通常会使用只有P-1列的矩阵表示(表示为P-1个虚拟变量)

4.4.2、多层因子变量

根据其他变量对因子进行分组

4.4.3、有序因子变量

一些因子变量体现出了因子的层级,被称为有序因子变量有序分类变量。例如,贷款等级包括 A、B、C 等。可以表示为单一的数值变量

4.5、解释回归方程

4.5.1、相关的预测变量

如果预测变量是相互关联的,那么回归系数的符号和值会难以解释(并且会提高估计量的标准误差)。必须注意如何解释回归系数

4.5.2、多重共线性

预测变量间存在冗余。会导致拟合回归方程中存在数值不稳定的问题

原因:

  • 在误差中多次包含同一个变量
  • 从一个因子变量创建了 P 个虚拟变量,而非 P−1 个虚拟变量
  • 两个变量近乎完美相关

解决办法:依次移除变量

4.5.3、混淆变量

相关变量在于回归方程中包括了多个与响应变量具有相似预测关系的变量

混淆变量在于遗漏某个重要变量,导致存在虚假关系的回归方程

4.5.4、交互作用和主效应

主效应一般指回归方程中的预测变量

主效应(或自变量)和主效应之间具有交互作用

如果变量和响应之间存在相互依赖的关系,那么需要在两个变量间添加一个交互项

4.6、检验假设:回归诊断

评估模型和数据的拟合度。大多基于残差分析

不能直接解决预测的准确性问题,但可以为预测提供有用见解

4.6.1、离群值

远离其他大部分观测值的极端值。

通过标准残差残差除以残差的标准误差)检测离群值,可以解释为“距离回归线的标准误差倍数”

4.6.2、强影响值

如果某个值的缺失会显著地改变回归方程,那么该值就是一个强影响观测值

尽管移除的数据点与大的离群点毫无关联,但是它对回归有很大的影响。我们称这样的数据点在回归中具有高杠杆

帽值是对杠杆的一个常用度量

库克距离(Cook’s distance),它通过组合杠杆和残差规模,定义了对回归的

影响情况。

影响图,也被称为气泡图,在单个绘图中展示了标准残差帽值库克距离

4.6.3、异方差性、非正态分布和相关误差

残差分布主要与形式统计推断的有效性(即假设验证和 p 值)相关,假定残差符合正态分布,方差相同,并且是独立的。

异方差性指在整个预测值范围内并不具有一个恒定的残差变异性。即在整个预测值范围内,部分数据的误差要大于其他部分的误差。表明模型可能并不完整。

散点图平滑如图:

在评估一个回归模型时,使用散点图平滑以可视化方式明确两个变量之间的关系是有用的。

4.6.4、偏残差图和非线性

偏残差图以可视化方式展示了估计的拟合值是否很好地反映了预测变量和输出之间的关系。将预测变量与响应变量间的关系独立出来,并考虑所有其他的预测变量。

偏残差图可以用于定性地评估每个回归项的拟合情况

4.7、多项式回归和样条回归

响应变量和预测变量之间的关系并非总是线性的

4.7.1、多项式回归

响应变量 Y 和预测变量 X 间的二项式回归

相比于线性拟合,多项式拟合线更接近对匹配偏残差的平滑

4.7.2、样条回归

添加高阶项(例如三次方项),通常会导致回归线中出现我们所不期望的“摇摆”(wiggliness)现象。更好

的做法是在建模非线性关系时使用样条

样条是一种在不动点间平滑插值的方法,是一组分段的连续多项式。多项式片段在预测变量中的一组不动点处平滑地连接,这些不动点被称为结点

  • 样条模型更近似于匹配了平滑,这表明样条具有更大的灵活性
  • 样条项的系数不可解释
  • 结点一般置于各个边界处。此外,结点也可置于下四分位数、中四分位数和上四分位数等处

4.7.3、广义加性模型

假设我们基于先验知识或回归诊断,怀疑响应变量和预测变量之间存在某种非线性关系。多项式项可能不够灵活,无法捕获这种非线性关系,而样条项则需要指定各个结点。广义加性模型(GAM)是一种自动拟合样条回归的方法。

统计学基础专栏04---回归和预测相关推荐

  1. 统计学基础专栏02---数据和抽样分布

    统计学基础专栏02-数据和抽样分布 0.术语 0.2.数据和抽样分布 样本 大型数据集的一个子集 总体 一个大型数据集,或是一个构想的数据集 N(或n) 一般用N表示总体的规模,n表示样本的规模 随机 ...

  2. 统计学基础专栏01---探索性数据分析

    统计学基础专栏01-探索性数据分析 0.术语 0.1.探索性数据分析 连续型数据 数据可在一个区间内取任意值 离散型数据 数据只能取整数,例如计数 分类型数据 数据只能从特定集合中取值,表示一系列可能 ...

  3. 统计学习基础:数据挖掘、推理和预测_数据挖掘——智能财务进阶之梯(含视频、PPT)...

    6月20日,由上海国家会计学院主办,用友.元年科技.中兴新云.金蝶集团.浪潮集团联合主办的"信息技术赋能会计融合创新"高峰论坛暨2020年影响中国会计人员的十大信息技术评选结果发布 ...

  4. NumPy 快速入门系列:应用统计学基础概念、相关统计指标与NumPy的实现

    NumPy 快速入门系列:应用统计学基础概念.相关统计指标与NumPy的实现 前言: 统计学导论: 统计学定义: 统计学分类: 统计学基本概念: 统计过程: 统计指标与NumPy: 用 Python ...

  5. 神经网络基础及逻辑回归实现

    神经网络基础及逻辑回归实现 1. Logistic回归 1.1 Logistic回归 逻辑回归是一个主要用于二分分类类的算法.逻辑回归是给定一个x , 输出一个该样本属于1对应类别的预测概率​​=P( ...

  6. Coursera吴恩达《神经网络与深度学习》课程笔记(2)-- 神经网络基础之逻辑回归...

    转至:https://blog.csdn.net/red_stone1/article/details/77851177 上节课我们主要对深度学习(Deep Learning)的概念做了简要的概述.我 ...

  7. Coursera吴恩达《神经网络与深度学习》课程笔记(2)-- 神经网络基础之逻辑回归

    红色石头的个人网站:redstonewill.com 上节课我们主要对深度学习(Deep Learning)的概念做了简要的概述.我们先从房价预测的例子出发,建立了标准的神经网络(Neural Net ...

  8. 神经网络 测试集loss不下降_代码实践 | 全连接神经网络回归---房价预测

    学习目录 阿力阿哩哩:深度学习 | 学习目录​zhuanlan.zhihu.com 前面我们介绍了: 阿力阿哩哩:深度学习开端|全连接神经网络​zhuanlan.zhihu.com 4.7代码实践 & ...

  9. 为葡萄酒数据集构造SVM分类器和使用随机森林回归模型预测葡萄酒质量

    目录 前言 一.实验目的 二.实验环境 三.实验内容与结果 1.SVM(support vector Machine)是什么? 2.SVM能干什么? 3.SVM如何实现? 4.独热编码:独热编码(On ...

最新文章

  1. 面试AI算法岗,你被要求复现顶会了嘛?
  2. 20160512关于mac安装caffe的记录
  3. linux动态库与静态库混合连接
  4. 主成分分析的可视化展示
  5. 3.0-rsync格式
  6. 2013年9月份第2周51Aspx源码发布详情
  7. 机械汽修word模板素材推荐 精品 小众
  8. TheChroniclesOfNarnia写作年代
  9. 模式识别与智能系统和计算机视觉,模式识别与智能系统(论文).docx
  10. precede和previous_构词法词缀
  11. 程序包com.wonhyoo.common.entity不存在, 找不到符号
  12. 树莓派3下开启SSH服务
  13. Web安全—文件上传漏洞
  14. Linux gzip压缩输出
  15. MAC10.15登录EasyConnect失败报“版本太低,请更新到最新版”
  16. 离散数学及其应用基本结构知识总结
  17. Notepad++ 正则表达式 中文处理
  18. CMD命令压缩和解压缩
  19. 综艺小王子黄子稻,是否从实力派转为偶像?
  20. captcha.class.php,clicaptcha/clicaptcha.class.php at master · xnianq/clicaptcha · GitHub

热门文章

  1. Mysql——》三星索引
  2. 计算机基本原理问答题及答案
  3. 【NLP开发】Python实现中文、英文分词
  4. 关键点检测评价指标OKS
  5. 高速公路上遇事故报警,微信扫这个二维码一键报警定位
  6. cad.net 依照旧样条曲线数据生成一条新样条曲线的代码段. spline生成
  7. 快速寻找研究方向+发文章的方法!!按头安利!
  8. 新生儿喝奶后不要马上放回床上睡觉,为宝宝健康着想,先做1件事
  9. 基于大数据分析技术在会计方面的研究
  10. 企业微信如何快速高效添加好友?