参考原文https://github.com/Catherine08/AI-paper-reading/blob/master/Regression%20shrinkage%20and%20selection%20via%20the%20lasso%E8%AE%BA%E6%96%87.pdf

最小二乘解

这个能用的推导太多了，在此不赘述。
当 X T X X^{T} X XTX 为满秩矩阵或正定矩阵时，可以求得：
w ⃗ ∗ = ( X T X ) − 1 X T y ⃗ \vec{w}^{*}=\left(X^{T} X\right)^{-1} X^{T} \vec{y} w ∗=(XTX)−1XTy

但是，在实际问题中， X T X X^{T} X XTX往往并不是满秩矩阵：自行列向量之间存在高度多重共线
性，或列向量数大于行向量数。这会导致偏回归系数无解或结果无效，为了能够克服这问题，可以使用子集选择将高自相关变量删除，或者选用岭回归也能够避免 X T X X^{T} X XTX不可逆的情况。

岭回归推导和Shrinkage

岭回归在$X^{T} X$的基础上加上一个较小的λ扰动，从而使得行列式不再为0：
w ⃗ ∗ = ( X T X + λ I ) − 1 X T y ⃗ \vec{w}^{*}=\left(X^{T} X+\lambda I\right)^{-1} X^{T} \vec{y} w ∗=(XTX+λI)−1XTy

设 OLS （最小二乘回归）的解为 w ˉ \bar{w} wˉ，岭回归的解为 w ′ ˉ \bar{w'} w′ˉ

w ′ ˉ i = ( X T X + λ I ) − 1 X T y = ( X T X + λ I ) − 1 ( X T X ) ( X T X ) − 1 X T y = ( X T X + λ I ) − 1 ( X T X ) w ˉ = ( X T X + λ I ) − 1 ( X T X + λ I − λ I ) w ˉ = ( I − λ ( X T X + λ I ) − 1 ) w ˉ < w ˉ \begin{array}{l} \bar{w'}_{i}=\left(X^{T} X+\lambda I\right)^{-1} X^{T} y \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X\right)\left(X^{T} X\right)^{-1} X^{T} y \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X\right) \bar{w} \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X+\lambda I-\lambda I\right) \bar{w} \\ =\left(I-\lambda\left(X^{T} X+\lambda I\right)^{-1}\right) \bar{w}<\bar{w} \end{array} w′ˉi=(XTX+λI)−1XTy=(XTX+λI)−1(XTX)(XTX)−1XTy=(XTX+λI)−1(XTX)wˉ=(XTX+λI)−1(XTX+λI−λI)wˉ=(I−λ(XTX+λI)−1)wˉ<wˉ
这里就出现了shrinkage。

可以看出， w ′ ˉ \bar{w'} w′ˉ是对 w ˉ \bar{w} wˉ向原点的压缩，并不会出现某一系数为 0 的稀疏解情况。但是，在实际问题中，特征存在冗余，稀疏解有利于找到有用的维度并减少冗余，提预测高鲁棒性和准确性。

Lasso稀疏性推导

Lasso公式：
w ⃗ ∗ = arg ⁡ min ⁡ w ⃗ ∗ [ ∑ 1 N ( W T X ⃗ ι − y i ) 2 + λ ∑ j = 1 p + 1 ∣ w j ∣ ] = arg ⁡ min ⁡ w ⃗ ∗ ∑ i = 1 N ( W T X ⃗ i − y i ) 2 ∑ j = 1 p + 1 ∣ w j ∣ ≤ t \vec{w}^{*}=\arg \min _{\vec{w}^{*}}\left[\sum_{1}^{N}\left(W^{T} \vec{X}_{\iota}-y_{i}\right)^{2}+\lambda \sum_{j=1}^{p+1}\left|w_{j}\right|\right]=\arg \min _{\vec{w}^{*}} \sum_{i=1}^{N}\left(W^{T} \vec{X}_{i}-y_{i}\right)^{2} \\ \sum_{j=1}^{p+1}\left|w_{j}\right| \leq t w ∗=argw ∗min[1∑N(WTX ι−yi)2+λj=1∑p+1∣wj∣]=argw ∗mini=1∑N(WTX i−yi)2j=1∑p+1∣wj∣≤t

原文中作者还讨论了：
β ^ j = sign ⁡ ( β ^ j 0 ) ( ∣ β ^ j 0 ∣ − γ ) + \hat{\beta}_{j}=\operatorname{sign}\left(\hat{\beta}_{j}^{0}\right)\left(\left|\hat{\beta}_{j}^{0}\right|-\gamma\right)^{+} β^j=sign(β^j0)(∣∣∣β^j0∣∣∣−γ)+
有兴趣的同学可以去原文看看。

总结

对于回归问题，lasso 有两个重要特点：

对系数进行压缩；
能特征选择。
这两个特点解决了 OLS 的无解情况，相比岭回归多了特征选择的作用。
从另一角度，lasso 可以看作对 OLS 加上 l1 正则化，有控制模型复杂度的作用。

正则化，岭回归Shrinkage，lasso稀疏性推导和论文总结相关推荐

r语言岭回归参数选择_78-预测分析－Ｒ语言实现-岭回归与LASSO回归
> library(pacman) > p_load(dplyr, readr, caret) 以上一节中未去除离群值的MSE为3619.029,修正R2为0.8603和去除离群值后的MS ...
机器学习——线性回归衍生(过拟合、正则化、岭回归和LASSO回归)
过拟合.正则化.岭回归.LASSO回归为什么会出现线性回归的衍生方法--正规方程法的局限过拟合模型复杂度过拟合的概念防止过拟合的办法正则化岭回归(Ridge Regression) 1. ...
岭回归和lasso回归_正则化(2)：与岭回归相似的 Lasso 回归
Lasso回归与ridge回归有很多相似之处,但是二者之间有一些显著的区别.如果你不太清楚岭回归,请参考前一章节推文:通俗易懂的岭回归. 1 lasso回归与 ridge 回归的相同点 1.1 la ...
【机器学习】正则化的线性回归 —— 岭回归与Lasso回归
python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&am ...
【正则化；岭回归、lasso回归】（转载）
介绍正则化的博客: https://charlesliuyx.github.io/2017/10/03/[直观详解]什么是正则化/#Why-amp-What-正则化岭回归.lasso回归:https ...
【sklearn】线性回归、最小二乘法、岭回归、Lasso回归
文章目录机器学习的sklearn库一.回归分析 <1.1>线性回归 1.1.1.Python实现线性回归 <1.2>最小二乘法 1.2.1.MATLAB实现最小二乘法 1. ...
[机器学习-原理篇]学习之线性回归、岭回归、Lasso回归
线性回归.岭回归.Lasso回归前言一,线性回归--最小二乘二,Lasso回归三,岭回归四, Lasso回归和岭回归的同和异五, 为什么 lasso 更容易使部分权重变为 0 而 ridg ...
回归，岭回归。LASSO回归
矩阵表示多元线性回归 Y=BX+a Q(B)=(Y-BX)T(Y-BX)达到最小时的B值. 也即是残差平方和最小时.B(Bi)的值.可以证明B的最小二乘估计=(XTX)-1XTy 其中(XTX)-1为 ...
岭回归与lasso回归算法
模型压缩与正则化主要包含岭回归(Ridge regression)和Lasso两种方法,二者的主要原理是将系数往等于0的方向压缩. 岭回归 lasso 全称:Least absolute shrink ...

正则化，岭回归Shrinkage，lasso稀疏性推导和论文总结

最小二乘解

岭回归推导和Shrinkage

Lasso稀疏性推导

总结

正则化，岭回归Shrinkage，lasso稀疏性推导和论文总结相关推荐

最新文章

热门文章