R语言回归分析

回归分析可以说是统计学的核心，它其实是一个广义的概念，通指那些用一个或多个预测变量（也称自变量或解释变量）来预测响应变量（也称因变量、效标变量或结果变量）的方法。通常，回归分析可以用来挑选与响应变量相关的解释变量，可以描述两者的关系，也可以生成一个等式，通过解释变量来预测响应变量。
最小二乘法回归是通过预测变量的加权和来预测量化的因变量，其中权重是通过数据估计而得的参
数，目标是通过减少响应变量的真实值与预测值的差值来获得模型参数（截距项和斜率），具体而言，即使得残差平方和最小。下面将通过几篇博客介绍回归分析，这是第二篇：回归诊断。

一、回归诊断

使用 lm() 函数来拟合最小二乘法回归模型，通过 summary() 函数获取模型参数和相关统计量。但是，没有任何输出告诉你模型是否合适，对模型参数推断的信心依赖于它在多大程度上满足最小二乘法模型统计假设。数据的无规律性或者错误设定了预测变量与响应变量的关系，都将致使模型产生巨大的偏差。一方面，可能得出某个预测变量与响应变量无关的结论，但事实上它们是相关的；另一方面，情况可能恰好相反。

1.1 统计假设

为了能够恰当地解释最小二乘法模型的系数，数据必须满足以下统计假设：

正态性。对于固定的自变量值，因变量值成正态分布。
独立性。Y[i]值之间相互独立。
线性。因变量与自变量之间为线性相关。
同方差性。因变量的方差不随自变量的水平不同而变化。也可称作不变方差，但是说同
方差性感觉上更犀利。

下面将分别针对这四种假设进行检验：

1.2 基本方法

R基础安装中提供了大量检验回归分析中统计假设的方法。最常见的方法就是对 lm() 函数
返回的对象使用 plot() 函数，可以生成评价模型拟合情况的四幅图形。

#回归诊断
lm.fit5 <- lm(weight ~ height, data=women)
par(mfrow=c(2,2)) #一个平面绘制四幅图
plot(lm.fit5)

1.2.1 正态性

理论解释：当预测变量值固定时，因变量成正态分布，则残差值也应该是一个均值为0的正
态分布。
图形显示：数据是否符合正态分布假设可以通过“正态Q-Q图”（Normal Q-Q，右上）图反映出来。若满足正态假设，那么图上的点应该落在呈45度角的直线上；若不是如此，那么就违反了正态性的假设。

1.2.2 独立性

无法从这些图中分辨出因变量值是否相互独立，只能从收集的数据中来验证，或者下文有其他方法。

1.2.3 线性

理论解释：若因变量与自变量线性相关，那么残差值与预测（拟合）值就没有任何系统关联。换句话说，除了白噪声，模型应该包含数据中所有的系统方差。
图形显示：数据是否符合线性假设可以通过“残差图与拟合图”（Residuals vs Fitted，左上）反映出来，若该图的点没有任何规律，则满足该假设，若明显的曲线，则暗示应该加上一个多项式。

1.2.4 同方差性

理论解释：因变量的方差不随自变量的水平不同而变化。
图形显示：同方差性可以通过“位置尺度图”（Scale-Location Graph，左下）反映出来，若点在水平线周围附近分布，则满足假设。

1.2.4 “残差与杠杆图”（Residuals vs Leverage，右下）

该图提供了单个观测点的信息，从图形可以鉴别出离群点、高杠杆值点和强影响点，将会在下篇博客——R语言分析-异常观测值中详细讲解，这里只对其概念做大致解释：

离群点：表明拟合回归模型对其预测效果不佳（产生了巨大的或正或负的残差）。
高杠杆值点：表明它是一个异常的预测变量值的组合。也就是说，在预测变量空间中，它是一个离群点。因变量值不参与计算一个观测点的杠杆值。
强影响点：表明它对模型参数的估计产生的影响过大，非常不成比例。强影响点可以通过Cook距离即Cook’s D统计量来鉴别。

1.3 `car`包方法

car 包提供了大量函数，大大增强了拟合和评价回归模型的能力：

函数	描述
qqPlot()	分位数比较图
durbinWatsonTest()	对误差自相关性做 Durbin-Watson 检验
crPlots()	成分与残差图
ncvTest()	对非恒定的误差方差做得分检验
spreadLevelPlot()	分散水平检验
outlierTest()	Bonferroni离群点检验
avPlots()	添加的变量图形
inluencePlot()	回归影响图
scatterplot()	增强的散点图
scatterplotmatrix()	增强的散点图矩阵
vif()	方差膨胀因子

1.3.1 正态性

检验数据是否符合正态性假设，可以使用 qqPlot() 函数。与基础包中的 plot() 函数相比， qqPlot() 函数提供了更为精确的正态假设检验方法，它画出了在n–p–1个自由度的t分布下的学生化残差（studentized residual，也称学生化删除残差或折叠化残差）图形，其中n是样本大小，p是回归参数的数目（包括截距项）。

id.method = "identify" 选项能够交互式绘图——待图形绘制后，用鼠标单击图形内的点，将会标注函数中 labels 选项的设定值。敲击Esc键，从图形下拉菜单中选择Stop，或者在图形上右击，都将关闭这种交互模式。
当 simulate=TRUE 时，95%的置信区间将会用参数自助法生成。

library(car)
states <- as.data.frame(state.x77[,c("Murder", "Population","Illiteracy", "Income", "Frost")])
lm.fit6 <- lm(Murder ~ Population + Illiteracy + Income + Frost, data=states)
qqPlot(lm.fit6, labels=row.names(states), id.method="identify",simulate=TRUE, main="Q-Q Plot")states["Nevada",] #对具有大残差的点进行分析
fitted(lm.fit6)["Nevada"]
residuals(lm.fit6)["Nevada"]

理论解释：当预测变量值固定时，因变量成正态分布，则残差值也应该是一个均值为0的正
态分布。
图形显示：若满足正态假设，那么图上的点应该落在呈45度角的直线上；若不是如此，那么就违反了正态性的假设，另外可以对其中标注出的数据点可以进行更为细致的分析。

1.3.2 独立性

判断数据是否符合独立性假设可以使用durbinWatsonTest()函数。虽然在前文提过，判断因变量值（或残差）是否相互独立，最好的方法是依据收集数据方式的先验知识。但是 car包提供了一个可做Durbin-Watson检验的函数，能够检测误差的序列相关性。在多元回归中，使用durbinWatsonTest()`函数可以做Durbin-Watson检验：

> durbinWatsonTest(lm.fit6)lag Autocorrelation D-W Statistic p-value1      -0.2006929      2.317691   0.214Alternative hypothesis: rho != 0

p值不显著（p=0.214）说明无自相关性，误差项之间独立。
滞后项（ lag=1 ）表明数据集中每个数据都是与其后一个数据进行比较的。该检验适用于时间独立的数据，对于非聚集型的数据并不适用。
simulate=TRUE ，则每次运行测试时获得的结果都将略有不同。

1.3.3 线性

判断数据是否符合线性假设可以使用 crPlots() 函数绘制。若图形存在非线性，则说明你可能对预测变量的函数形式建模不够充分，那么就需要添加一些曲线成分，比如多项式项，或对一个或多个变量进行变换（如用 log(X) 代替 X ），或用其他回归变体形式而不是线性回归。

library(car)
crPlots(lm.fit6)

1.3.4 同方差性

判断数据是否符合同方差性假设可以使用 ncvTest() 函数和spreadLevelPlot() 函数。 ncvTest() 函数生成一个计分检验，零假设为误差方差不变，备择假设为误差方差随着拟合值水平的变化而变化。若检验显著，则说明存在异方差性（误差方差不恒定）。spreadLevelPlot() 函数创建一个添加了最佳拟合曲线的散点图，展示标准化残差绝对值与拟合值的关系。

ncvTest(lm.fit6)
spreadLevelPlot(lm.fit6)

1.4 线性模型假设的综合验证

使用 gvlma 包中的 gvlma() 函数，gvlma() 函数由Pena和Slate（2006）编写，能对线性模型假设进行综合验证，同时还能做偏斜度、峰度和异方差性的评价。换句话说，它给模型假设提供了一个单独的综合检验（通过/不通过）。

若分析结果Decision 下的文字表明违反了假设条件（比如p<0.05），可以使用前面讨论的方法来判断哪些假设没有被满足。

library(gvlma)
gvmodel <- gvlma(lm.fit6)
summary(gvmodel)

1.5 多重共线性

多重共线性可用统计量VIF（Variance Inflation Factor，方差膨胀因子）进行检测。car包中的vif()函数提供VIF值。一般原则下，vif >2就表明存在多重共线性问题。

library(car)
vif(lm.fit6)