统计学基础专栏04---回归和预测

0、术语

0.4、回归和预测

响应变量

想要预测的变量。

自变量

用于预测响应的变量。

记录

一个表示特定个体或实例的向量，由因子和结果值组成。

截距

回归线的截距，即当 X = 0 时的预测值。

回归系数

回归线的斜率。

拟合值

从回归线获得的估计值

残差

观测值和拟合值之间的差异。

最小二乘法

一种通过最小化残差的平方和而拟合回归的方法

均方根误差

回归均方误差的平方根，它是比较回归模型时使用最广泛的度量

标准残差

与均方根误差的计算一样，只是根据自由度做了调整

R 方

可以被模型解释的变异的比例，值介于 0 到 1 之间

t 统计量

预测因子的系数，除以系数的标准误差。它提供了一种比较模型中变量重要性的度量

加权回归

在回归中，记录具有不同的权重

预测区间

个体预测值的不确定区间范围

外推法

将模型扩展到拟合所用的数据范围之外

虚拟变量

二元的 0/1 变量，通过对因子数据重新编码得到，可用于回归模型或其他模型

参考编码

统计学家最常使用的编码类型。它以因子的一层作为参考层，并将其他因子与参考层进行对比

独热编码（one hot encoder）

机器学习领域中常用的一种编码。它保留了所有的因子层。虽然该编码适用于部分机器学习算法，但并不适用于多元线性回归

偏差编码

在编码中用于对比的并不是参考层，而是将每一层与整体均值进行对比。

相关变量

当预测变量高度相关时，难以解释单个回归系数。

多重共线性

当预测变量间存在完美的或近乎完美的相关性时，回归是不稳定的，或者说是不

可能计算的。

混淆变量

一种重要的预测变量。忽视该变量可导致回归方程给出伪关系。

主效应

预测变量和结果变量之间的关系，该关系独立于其他的变量。

交互作用

两个或两个以上预测变量和响应之间的相互依赖关系。

标准残差

残差除以残差的标准误差。

离群值

距离其他记录（或预测结果）很远的记录（或结果值）。

强影响值（inflfluential value）

一个值或记录，其存在与否会使回归方程有很大差异。

杠杆

单个记录对回归方程的影响程度。

非正态残差

非正态分布的残差可能会导致一些对回归的技术需求失效。但在数据科学中，通

常并不会关注该问题。

异方差性

在输出的部分范围中具有较高变异性的残差。这可能表明在回归方程中缺失了某

个预测变量。

偏残差图

展示结果变量和单个预测变量之间关系的一种诊断图。

多项式回归

在回归方程中添加了多项式项，例如平方项、三次方项等。

样条回归

使用一系列多项式片段去拟合一条平滑曲线。

结点

分隔样条片段的值。

广义加性模型

可以自动选择结点的样条模型。

4、回归和预测

变量X和变量Y之间是否有关联，可否用这种关联去预测Y？

4.1、简单线性回归

相关性衡量的是两个变量的关联程度，而回归则量化了两个变量间关系的本质。

4.1.1、回归方程

4.1.2、拟合值与残差

4.1.3、最小二乘法

回归线是使残差值的平方和最小化的估计值。残差值的平方和也称残差平方和（RSS）

使得 RSS 最小化的方法为最小二乘法回归

回归系数计算公式

4.2、多元线性回归

4.2.1、评估模型

性能度量是均方根误差（RMSE）

标准残差（RSE）

决定系数，也称R方统计量，评估模型拟合数据的程度

t统计量，决定系数“统计显著”的程度，t越大，p值越低，显著性越高

4.2.2、交叉验证

将数据分为训练样本和验证样本

4.2.3、模型选择和逐步回归法

添加更多的变量并不意味着就会得到一个更好的模型，

奥卡姆剃刀原则（principle of Occam’s razor）：在其他条件相同的情况下，应优先选用更简单的模型而不是更复杂的模型。

模型选择的AIC（赤池信息量准则）指标

如何找到AIC最小的模型

全子集回归法 搜索所有可能的模型
逐步回归法 连续添加并丢弃预测因子
- 前向选择开始没有预测因子，依次添加
- 后向选择完整模型的逐步删除

惩罚回归，思想类似于AIC，但不清除预测变量，而是减小系数

4.2.4、加权回归

归用于拟合函数中，可以对特定记录给予更大或更小的权重

4.3、使用回归做预测

4.3.1、外推法的风险

回归模型不应外推到所使用的数据范围之外。回归模型仅对具有足够数据值的预测因子有效。

4.3.2、置信区间和预测区间

置信区间量化了回归系数的不确定度。

预测区间量化了单个预测中的不确定度

4.4、回归中的因子变量

也称分类变量，一组数量有限的离散值

4.4.1、虚拟变量的表示

将其转换为二元变量集合，即转换为数值变量

一个具有P个层（不同值）的因子变量，通常会使用只有P-1列的矩阵表示（表示为P-1个虚拟变量）

4.4.2、多层因子变量

根据其他变量对因子进行分组

4.4.3、有序因子变量

一些因子变量体现出了因子的层级，被称为有序因子变量或有序分类变量。例如，贷款等级包括 A、B、C 等。可以表示为单一的数值变量

4.5、解释回归方程

4.5.1、相关的预测变量

如果预测变量是相互关联的，那么回归系数的符号和值会难以解释（并且会提高估计量的标准误差）。必须注意如何解释回归系数

4.5.2、多重共线性

预测变量间存在冗余。会导致拟合回归方程中存在数值不稳定的问题

原因：

在误差中多次包含同一个变量
从一个因子变量创建了 P 个虚拟变量，而非 P−1 个虚拟变量
两个变量近乎完美相关

解决办法：依次移除变量

4.5.3、混淆变量

相关变量在于回归方程中包括了多个与响应变量具有相似预测关系的变量

混淆变量在于遗漏某个重要变量，导致存在虚假关系的回归方程

4.5.4、交互作用和主效应

主效应一般指回归方程中的预测变量

主效应（或自变量）和主效应之间具有交互作用

如果变量和响应之间存在相互依赖的关系，那么需要在两个变量间添加一个交互项

4.6、检验假设：回归诊断

评估模型和数据的拟合度。大多基于残差分析

不能直接解决预测的准确性问题，但可以为预测提供有用见解

4.6.1、离群值

远离其他大部分观测值的极端值。

通过标准残差（残差除以残差的标准误差）检测离群值，可以解释为“距离回归线的标准误差倍数”

4.6.2、强影响值

如果某个值的缺失会显著地改变回归方程，那么该值就是一个强影响观测值。

尽管移除的数据点与大的离群点毫无关联，但是它对回归有很大的影响。我们称这样的数据点在回归中具有高杠杆

帽值是对杠杆的一个常用度量

库克距离（Cook’s distance），它通过组合杠杆和残差规模，定义了对回归的

影响情况。

影响图，也被称为气泡图，在单个绘图中展示了标准残差、帽值和库克距离

4.6.3、异方差性、非正态分布和相关误差

残差分布主要与形式统计推断的有效性（即假设验证和 p 值）相关，假定残差符合正态分布，方差相同，并且是独立的。

异方差性指在整个预测值范围内并不具有一个恒定的残差变异性。即在整个预测值范围内，部分数据的误差要大于其他部分的误差。表明模型可能并不完整。

散点图平滑如图：

在评估一个回归模型时，使用散点图平滑以可视化方式明确两个变量之间的关系是有用的。

4.6.4、偏残差图和非线性

偏残差图以可视化方式展示了估计的拟合值是否很好地反映了预测变量和输出之间的关系。将预测变量与响应变量间的关系独立出来，并考虑所有其他的预测变量。

偏残差图可以用于定性地评估每个回归项的拟合情况

4.7、多项式回归和样条回归

响应变量和预测变量之间的关系并非总是线性的

4.7.1、多项式回归

响应变量 Y 和预测变量 X 间的二项式回归

相比于线性拟合，多项式拟合线更接近对匹配偏残差的平滑

4.7.2、样条回归

添加高阶项（例如三次方项），通常会导致回归线中出现我们所不期望的“摇摆”（wiggliness）现象。更好

的做法是在建模非线性关系时使用样条。

样条是一种在不动点间平滑插值的方法，是一组分段的连续多项式。多项式片段在预测变量中的一组不动点处平滑地连接，这些不动点被称为结点。

样条模型更近似于匹配了平滑，这表明样条具有更大的灵活性
样条项的系数不可解释
结点一般置于各个边界处。此外，结点也可置于下四分位数、中四分位数和上四分位数等处

4.7.3、广义加性模型

假设我们基于先验知识或回归诊断，怀疑响应变量和预测变量之间存在某种非线性关系。多项式项可能不够灵活，无法捕获这种非线性关系，而样条项则需要指定各个结点。广义加性模型（GAM）是一种自动拟合样条回归的方法。