次梯度（坐标法）、迭代加权最小二乘、ADMM求解Lasso

Lasso的特性及简介：
在最小二乘中，常把岭回归与Lasso来进行比较，它们都能对数据防止过拟合，这是为什么呢？
当特征之间存在高度相关关系的时候，假设有两个特征高度负相关，那么不带正则化的回归问题可能会赋予二者近似相等的很大权重，这样加权起来的结果仍然较小，但是由于权重很大，就导致了过拟合问题。Ridge Regression会倾向于在相关特征之间均匀分布权重，Lasso则倾向于从相关特征中选取出一个，其余特征权值衰减为零。在岭回归中，回归系数平方和被强制小于某定值，岭回归只改变系数的值，而不把任何值设为0。
Lasso算法是一种同时进行特征选择和正则化（数学）的回归分析方法。

由于Lasso采用的是L1正则化，所以不能像普通最小二乘那样采用梯度下降等方法去解决，这里推荐了三种解决方法，分别是次梯度法、迭代加权最小二乘、ADMM。

次梯度（坐标下降法）

当函数是可导的时候，根据泰勒展开，有： f ( x ) = f ( x 0 ) + ▽ f ( x 0 ) ( x − x 0 ) f(x)=f(x_{0})+\bigtriangledown f(x_{0})(x-x_{0}) f(x)=f(x0)+▽f(x0)(x−x0)
但是当函数在某一点的左导数不等于右导数时该点梯度不存在，存在次梯度，有： f ( x ) ≥ f ( x 0 ) + ▽ f ( x 0 ) ( x − x 0 ) f(x)\geq f(x_{0})+\bigtriangledown f(x_{0})(x-x_{0}) f(x)≥f(x0)+▽f(x0)(x−x0)

在网上总结的关于次梯度的几个点：

一阶逼近时可导的点的支撑超平面只有一个即这个点的切面，切面对应的梯度称为这个点的梯度；而不可导的点可能有很多支撑超平面，每个支撑超平面对应一个梯度，这些梯度的集合为这个点的次梯度。

用次梯度对原函数做出的一阶展开估计总是比真实值要小

函数 f ( x ) f(x) f(x)在 x x x处的次梯度可以构成一个集合

经典梯度下降算法实际上是利用负梯度总是指向最小值点这一性质，但是负次梯度方向不一定是下降方向，但是，这个方向可以让你离最小值点更近

L1正则化采用的是绝对值函数 ∣ x ∣ |x| ∣x∣，它在 x = 0 x=0 x=0处是不可导的。通常采用坐标下降法来求解Lasso
为了简便，以下公式针对于单样本。设某个样本 x x x有 K K K个属性，有损失函数： L ( w ) = 1 2 ∥ y − x w ∥ 2 2 + γ ∥ w ∥ 1 1 L(w)=\frac{1}{2}\left \| y-xw \right \|^{2}_{2}+\gamma \left \| w \right \|^{1}_{1} L(w)=21∥y−xw∥22+γ∥w∥11
梯度下降法就是将样本中的 K K K个纬度分别求导，每次对一个 w k w_{k} wk进行求偏导，其它 w i w_{i} wi当作常数，有：
γ s i g n ( w k ) = { − γ w k < 0 [ − γ , γ ] w k = 0 γ w k > 0 \gamma sign(w_{k})=\left\{\begin{matrix} -\gamma & w_{k}<0 \\ [-\gamma ,\gamma ] & w_{k}=0 \\ \gamma &w_{k}>0 \end{matrix}\right. γsign(wk)=⎩⎨⎧−γ[−γ,γ]γwk<0wk=0wk>0
∂ L ∂ w k = − x k ( y − x w ) + γ s i g n ( w k ) \frac{\partial L}{\partial w_{k}}=-x_{k}(y-xw)+\gamma sign(w_{k}) ∂wk∂L=−xk(y−xw)+γsign(wk)
= − x k y + x k x w + γ s i g n ( w k ) =-x_{k}y+x_{k}xw+\gamma sign(w_{k}) =−xky+xkxw+γsign(wk)
= − x k y + x k ∑ i ≠ k K x i w i + x k 2 w k + γ s i g n ( w k ) =-x_{k}y+x_{k}\sum_{i\neq k}^{K}x_{i}w_{i}+x_{k}^{2}w_{k}+\gamma sign(w_{k}) =−xky+xki=k∑Kxiwi+xk2wk+γsign(wk)
令偏导等于0，有： − x k y + x k ∑ i ≠ k K x i w i + x k 2 w k + γ s i g n ( w k ) = 0 -x_{k}y+x_{k}\sum_{i\neq k}^{K}x_{i}w_{i}+x_{k}^{2}w_{k}+\gamma sign(w_{k})=0 −xky+xk∑i=kKxiwi+xk2wk+γsign(wk)=0，为了找出 γ s i g n ( w k ) \gamma sign(w_{k}) γsign(wk)的值，此时应该分情况讨论：
设 p k = − x k y + x k ∑ i ≠ k K x i w i p_{k}=-x_{k}y+x_{k}\sum_{i\neq k}^{K}x_{i}w_{i} pk=−xky+xk∑i=kKxiwi。

若 p k > γ p_{k}>\gamma pk>γ：
- 如果 w k > 0 w_{k}>0 wk>0:
  p k + γ s i g n ( w k ) > 0 p_{k}+\gamma sign(w_{k})>0 pk+γsign(wk)>0，再加上一个大于0的 x k 2 w k x_{k}^{2}w_{k} xk2wk，则没有条件不满足偏导等于0的情况，因为两个正数相加大于0
- 如果 w k < 0 w_{k}<0 wk<0:
  p k + γ s i g n ( w k ) > 0 p_{k}+\gamma sign(w_{k})>0 pk+γsign(wk)>0，再加上一个小于0的 x k 2 w k x_{k}^{2}w_{k} xk2wk，有条件满足偏导等于0的情况，因为一正一负
若 p k < − γ p_{k}<-\gamma pk<−γ:
- 如果 w k > 0 w_{k}>0 wk>0:
  p k + γ s i g n ( w k ) < 0 p_{k}+\gamma sign(w_{k})<0 pk+γsign(wk)<0，再加上一个大于0的 x k 2 w k x_{k}^{2}w_{k} xk2wk，有条件满足偏导等于0，因为一正一负
- 如果 w k < 0 w_{k}<0 wk<0:
  p k + γ s i g n ( w k ) < 0 p_{k}+\gamma sign(w_{k})<0 pk+γsign(wk)<0，再加上一个小于0的 x k 2 w k x_{k}^{2}w_{k} xk2wk，则没有条件不满足偏导等于0的情况的情况，因为两个负数相加小于0
若 − γ < p k < γ -\gamma<p_{k}<\gamma −γ<pk<γ:
- 如果 w k > 0 w_{k}>0 wk>0:
  p k + γ s i g n ( w k ) > 0 p_{k}+\gamma sign(w_{k})>0 pk+γsign(wk)>0，再加上一个大于0的 x k 2 w k x_{k}^{2}w_{k} xk2wk，则没有条件不满足偏导等于0的情况，因为两个正数相加大于0
- 如果 w k < 0 w_{k}<0 wk<0:
  p k + γ s i g n ( w k ) < 0 p_{k}+\gamma sign(w_{k})<0 pk+γsign(wk)<0，再加上一个小于0的 x k 2 w k x_{k}^{2}w_{k} xk2wk，则没有条件不满足偏导等于0的情况的情况，因为两个负数相加小于0
- 只能考虑 γ s i g n ( w k ) = 0 \gamma sign(w_{k})=0 γsign(wk)=0即 w k = 0 w_{k}=0 wk=0的情况。

综上各种情况，得到 w k w_{k} wk的解： w k ∗ = { 1 x k 2 ( x k y − x k ∑ i ≠ k K x i w i − x k 2 w k + γ ) − x k y + x k ∑ i ≠ k K x i w i > γ 1 x k 2 ( x k y − x k ∑ i ≠ k K x i w i − x k 2 w k − γ ) − x k y + x k ∑ i ≠ k K x i w i < − γ 0 − γ < − x k y + x k ∑ i ≠ k K x i w i < γ w_{k}^{*}=\left\{\begin{matrix} \frac{1}{x_{k}^{2}}(x_{k}y-x_{k}\sum_{i\neq k}^{K}x_{i}w_{i}-x_{k}^{2}w_{k}+\gamma ) & -x_{k}y+x_{k}\sum_{i\neq k}^{K}x_{i}w_{i}>\gamma \\ \frac{1}{x_{k}^{2}}(x_{k}y-x_{k}\sum_{i\neq k}^{K}x_{i}w_{i}-x_{k}^{2}w_{k}-\gamma ) & -x_{k}y+x_{k}\sum_{i\neq k}^{K}x_{i}w_{i}<-\gamma \\ 0 & -\gamma <-x_{k}y+x_{k}\sum_{i\neq k}^{K}x_{i}w_{i}<\gamma \end{matrix}\right. wk∗=⎩⎪⎨⎪⎧xk21(xky−xk∑i=kKxiwi−xk2wk+γ)xk21(xky−xk∑i=kKxiwi−xk2wk−γ)0−xky+xk∑i=kKxiwi>γ−xky+xk∑i=kKxiwi<−γ−γ<−xky+xk∑i=kKxiwi<γ

迭代加权最小二乘求解

迭代加权最小二乘可以用来解决 p p p范数的问题，其推导过程参考该篇博客，这里只给出Lasso迭代的具体结果。
设 A A A为 m m m个样本，且每个样本有 n n n个属性， w w w为权重，$\theta $为参数。
有损失函数：
f ( θ ) = 1 2 ∥ A θ − y ∥ 2 2 + γ ∥ θ ∥ 1 1 f(\theta )=\frac{1}{2}\left \| A\theta -y \right \|_{2}^{2}+\gamma \left \| \theta \right \|_{1}^{1} f(θ)=21∥Aθ−y∥22+γ∥θ∥11
引入权重后：
f ( θ ) = 1 2 ∥ A θ − y ∥ 2 2 + γ ∥ w θ ∥ 2 2 f(\theta )=\frac{1}{2}\left \| A\theta -y \right \|_{2}^{2}+\gamma \left \| w \theta \right \|_{2}^{2} f(θ)=21∥Aθ−y∥22+γ∥wθ∥22
每次迭代：
θ k + 1 = ( A T A + γ w T w ) − 1 A T y \theta ^{k+1}=(A^{T}A+\gamma w^{T}w)^{-1}A^{T}y θk+1=(ATA+γwTw)−1ATy
w i k + 1 = 1 θ i k + 1 + ε w_{i}^{k+1}=\frac{1}{\theta _{i}^{k+1}+\varepsilon } wik+1=θik+1+ε1 ε \varepsilon ε是一个很小的数，为了防止 θ i k + 1 \theta _{i}^{k+1} θik+1为0。