对LARS(Least Angle Regression)的简单理解

前言

我在本科的时候接触过用LASSO筛选变量的方法，但了解不多。这几天在公司实习，学习到特征选择，发现还有个LARS是经常和LASSO一起被提起的，于是我临时抱佛脚，大概了解了一下LARS的原理。

在看文章的时候发现很多人提到Solution Path这样一个概念，起初很费解，后来看了Efron等人的"Least Angle Regression"论文，算是明白了一些。不过本人由于懒，原文后面数学证明的部分直接跳过了，这里推荐想了解LASSO和LARS的人先读一下这篇论文，极其有助于理解。

在介绍LARS之前，需要简单讲一下它的前辈：Foward Stepwise Regression（向前逐步回归）、Stagewise Regression（“逐步的逐步回归”）、还有LASSO回归。

Stepwise（逐步回归）

为什么会需要对变量进行逐步回归，这是因为有的时候备选变量太多，全部丢进回归模型会导致模型复杂度过高、甚至是拟合精度下降。逐步回归是一种挑选变量的方式，就像买萝卜一样，从最大的萝卜挑起，再挑次大的，次次大的，一直到挑够10个萝卜，然后去结账。但挑选变量不是买萝卜这么简单，变量之间或多或少有相关性，而我们用逐步回归挑选变量的时候，可能会错过一些和现有变量相关度高，而又很重要的变量。

这是逐步回归模型本身的问题。逐步回归的原理是：先挑一个和 y 相关度最高的变量 x1，然后跑 y 和 x1 的回归，这时 x1 的回归系数会等于 x1 和 y 的相关系数ρ1，模型的残差为 r1，再从剩下变量中选出和 r1 相关系数（绝对值）最大的变量 x2，再把 ρ2x2 加入回归中，以此类推。

注意，线性回归当前选用的 X 组成一个向量空间，y_fit 是 y 在这个向量空间上的投影，而残差 r 垂直于这个向量空间，即残差和当前所有变量无关。

那么在挑选下一个变量时，我们会选择那些与 r 相关的变量，而忽视那些与 r 无关，但和 X 有关的变量。这是逐步回归的一大缺点。

那么，有没有一种不那么激进的方法呢？有，其一便是Stagewise法。

Stagewise

Stepwise在挑选完变量后，直接把 ρx 加入模型中，但Stagewise不这么做，他一次加一部分，一次加一部分，这一部分记作 εx。ε 可以理解为步长，是一个很小的数。

初始时模型中没有变量，所有 β = 0，我们求得与 y 最相关的变量是 x1，于是从 β1 = ±ε 开始，按增量 ±ε 改变 β1（步长正负取决于相关系数的正负），而随着添加进回归的 ±εx 增多，x 和模型残差的相关系数会越来越小，或者说，残差中越来越多的部分被x所解释。当 corr(x1, r) 低至一个阈值时——这个阈值就是残差和次位赢家 x2 的相关系数 corr(x2, r) ，我们开始把 ±εx2 加进模型。这时 x1 的系数 β1 固定不变了，我们以步长 ±ε 改变 β2，降低 corr(x2, r’) ，直到 corr(x2, r’) = max(corr(xi, r’))，以此类推。

这个方法相比Stepwise要谨慎许多，但显而易见的是，这个模型的运算速度受步长限制，当步长很小时，模型的运算十分复杂。

LARS

LARS的思路很简单：我们让步长ε尽量大一点，再尽量大一点。