【机器学习】Lasso回归（L1正则，MAP+拉普拉斯先验）

前言

目前这个方法还没有一个正规的中文名，如果从lasso这个单词讲的话，叫套索。那么套索是啥呢，就是套马脖子的东西，见下图：

就是拿这个东西把动物脖子套住，不要它随便跑。lasso 回归就是这个意思，就是让回归系数不要太大，以免造成过度拟合（overfitting）。所以呢，lasso regression是个啥呢，就是一个回归，并且回归系数不要太大。

具体的实现方式是加了一个L1正则的惩罚项。

拉普拉斯分布

在概率论与统计学中，拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起，所以它也叫作双指数分布。两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动，所以它遵循拉普拉斯分布。

如果随机变量的概率密度函数为：

那么它就是拉普拉斯分布。记为：

$x\sim Laplace(\mu,b)$

其中，是位置参数，是尺度参数。

与正态分布有一些差别。在均值处变化的相当迅速。

数字特征：

MAP概率推导

推导方式与贝叶斯线性回归类似贝叶斯线性回归（最大后验估计+高斯先验）

对于线性回归 $y_i=h_\theta(x_i)=w^Tx_i$ ，有 $t_i=y_i+\epsilon _i$

记误差 $\epsilon \sim N(0,\sigma_\epsilon ^2)\sim N(0,\alpha^{-1})$ ，则 $t\sim N(y=h_\theta(x),\sigma_t^2)\sim N(w^Tx,\beta^{-1})$

对参数 $w$ 的分布加入先验分布信息（注不加任何先验就是普通的线性回归）， $w\sim Laplace(0,{1\over \lambda})$

$p(w|x,t)={p(t|x,w)\cdot p(w) \over p(t)}$

可以得到MAP方程：

$\begin{align*} \arg\max\limits_{w}L(w)&=likelihood\times prior\\ &=P(x,y|w)\times P(w)\\ &={\prod_{i=1}^m{\sqrt{{\beta \over 2\pi}}}\exp({-\beta (t-w^Tx_i)^2\over 2})\cdot \prod_{j=1}^n\frac{\lambda}{2}\exp(-\lambda|w_j|)}\\ \end{align*}$

取对数得：

$\begin{align*} \arg\max\limits_{w}\ell(w)&=\ln L(w)\\ &=\ln\left [ {\prod_{i=1}^m{\sqrt{{\beta \over 2\pi}}}\exp({-\beta (t-w^Tx_i)^2\over 2})\cdot \prod_{j=1}^n\frac{\lambda}{2}\exp(-\lambda|w_j|)} \right ]\\ &=\ln\prod_i^m+\ln\prod_j^n\\ &=\sum_i^m\ln+\sum_j^n\ln\\ &=\sum_i^m\left [{1\over 2}\ln {\beta \over 2\pi}-{\beta \over 2}(t-w^Tx_i)^2 \right ]+ \sum_j^n\left [ \ln {\lambda \over 2}-\lambda\left | w_j \right | \right ]\\ &= -{\beta \over 2}\sum_i^m(t-w^Tx_i)^2-\lambda\sum_j^n \left | w_j \right | + \sum_i^m{1\over 2}\ln {\beta\over 2\pi}+\sum_j^n\ln {\lambda \over 2}\\ &=-{\beta \over 2}\sum_i^m(t-w^Tx_i)^2-\lambda\sum_j^n \left | w_j \right | +constant \end{align*}$

上面的所有 $t$ 都应改为 $t_i$ ，记 $T$ 为 $t$ 的集合。

等价于：

$\begin{align*} \arg\min\limits_w\ell(w)&=\sum_i^m(t_i-w^Tx_i)^2+\lambda\sum_j^n\left | w_j \right |\\ &= (T-XW)^2+\lambda\left \| W \right \|_1\\ &= \left \| T-XW \right \|^2_2 + \lambda\left \| W \right \|_1 \end{align*}$

至此，我们已经通过MAP最大后验估计加上对于参数 $w$ 的Laplace先验分布得到了带L1正则项的线性回归目标函数。

正则项的意义

对于上面的目标函数，我们还可以写成以下这种带约束条件的形式：

$\min\limits_w \frac{1}{2}\left \| T-XW \right \|^2_2\\ subject \ to\ \left \| W \right \|_1\leq C$

妙处就在这个地方，在第一范数的约束下，一部分回归系数刚好可以被约束为0。这样的话，就达到了特征选择的效果。至于为什么大家可以看看下图（在岭回归（L2正则在干嘛！）中有介绍过了）。

不再详细解释了，如果有需要可以参阅之前的博客。

L1正则项不可导的梯度下降方法

对于凸函数不可导的情形，如L1正则项在0点处不可导，我们可以使用坐标下降法或者次梯度方法。

参考文章：

Sparsity and Some Basics of L1 Regularization

Lasso回归的坐标下降法推导