一 线性回归(最小二乘法)

假设我们有n个样本数据,每个数据有p个特征值,然后p个特征值是线性关系。

即对应的线性模型

写成矩阵的形式即是Y=XA

由于样本与模型不一定百分百符合,存在一些噪声,即误差,用B表示,B也是一个向量

即B=Y-XA

Y为样本值,XA为模型的计算值,即期望值

误差的平方的计算公式

Xi为行向量,A为列向量。

最小二乘法的目标就是取得最小的e对应的A,由于方差的计算是一个二次函数,即抛物线,对应存在一个最小值,即导数为0对应的A。所以对e求A的偏导数,再使其等于0,求解方程即可以获得A。

误差的平方e写成矩阵形式即为

对矩阵E取迹(迹就是矩阵对角线上所有元素的累加)且对迹求导后结果为一个矩阵。

即为 

展开为  

求导化简结果为

当A的维数比Y的维数多,即样本数量n少于特征值p的时候存在多个解,可能导致结果很不稳定,所以要确保n>p

X矩阵不存在广义逆(即奇异性)的情况:
1)X本身存在线性相关关系(即多重共线性),即非满秩矩阵。
当采样值误差造成本身线性相关的样本矩阵仍然可以求出逆阵时,此时的逆阵非常不稳定,所求的解也没有什么意义。
2)当变量比样本多,即p>n时.
这时,回归系数会变得很大,无法求解。在统计学上,可证明A的最小二乘解为无偏估计,即多次得到的采样值X而计算出来的多个系数估计值向量 的平均值将无限接近于真实值向量β。

二 岭回归(Ridge Regression)

思路:在原先的A的最小二乘估计中加一个小扰动λI,是原先无法求广义逆的情况变成可以求出其广义逆,使得问题稳定并得以求解。

可以看到 变为满秩矩阵,可以求稳定的逆。

对应的推导过程如下:

上式子写成矩阵的形式为

对上式子采用一样的方式(求A的偏导数=0)可得

岭回归与最小二乘的区别在于这一项,称之为正则项,这一项可以看成是对A的各个元素,即各个特征的权的总体的平衡程度,也就是权之间的方差。

介绍一下误差(偏差)和方差

偏差bais

预测出来的数据与真实值的差距

方差 variance

预测出来的数据的分散程度

在二维的情况下可以这样来理解

RSS为误差

椭圆形抛物面为这一部分,圆柱形为这一部分,由最小二乘法求得的解是抛物面的最低点,由岭回归求得的解便是图中的黄点,一般来说,拟合的误差值(偏差)越小,A的各个元素(权)的方差越高,所以岭回归是找到一个方差不会太大,误差也不会太大的一个权衡的点,随着r增大,方差变大(随着增大,方差减小)。

岭回归性质
1)当岭参数为0,得到最小二乘解。
2)当岭参数λ趋向更大时,岭回归系数A估计趋向于0。
3)岭回归是回归参数A的有偏估计。它的结果是使得残差平和变大,但是会使系数检验变好。 
4)在认为岭参数λ是与y无关的常数时,是最小二乘估计的一个线性变换,也是y的线性函数。
但在实际应用中,由于λ总是要通过数据确定,因此λ也依赖于y、因此从本质上说,并非的线性变换,也非y的线性函数。
5)对于回归系数向量来说,有偏估计回归系数向量长度<无偏估计回归系数向量长度。


6)存在某一个λ,使得它所对应的的MSE(估计向量的均方误差)<最小二乘法对应估计向量的的MSE。
即  存在λ>0,使得

岭迹图
是λ的函数,岭迹图的横坐标为λ,纵坐标为A(λ)。而A(λ)是一个向量,由a1(λ)、a2(λ)、...等很多分量组成,每一个分量都是λ的函数,将每一个分量分别用一条线。
当不存在奇异性时,岭迹应是稳定地逐渐趋向于0

岭迹图作用:
1)观察λ较佳取值;
2)观察变量是否有多重共线性;

在λ很小时,A很大,且不稳定,当λ增大到一定程度时,A系数迅速缩小,趋于稳定。

λ的选择:一般通过观察,选取喇叭口附近的值,此时各β值已趋于稳定,但总的RSS又不是很大。
选择变量:删除那些β取值一直趋于0的变量。

岭参数的一般选择原则
选择λ值,使到
1)各回归系数的岭估计基本稳定;
2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;
3)回归系数没有不合乎实际意义的值;
4)残差平方和增大不太多。 一般λ越大,系数β会出现稳定的假象,但是残差平方和也会更大。

取λ的方法比较多,但是结果差异较大。这是岭回归的弱点之一。

岭回归选择变量的原则(不靠谱,仅供参考)
1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且值很小的自变量。
2)随着λ的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。
3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。

三 LASSO回归

LASSO回归和岭回归的区别只在于正则项不同

两者的区别对应到图形上则是

图片中的黑色粗线,即为一个底面为正方形的柱体与抛物面的交点

从投影图看则更加的直观,lasso更容易产生解为0的情况,可以起到筛选变量的目的。

参考链接

http://f.dataguru.cn/thread-598486-1-1.html

http://blog.csdn.net/google19890102/article/details/27228279

最小二乘法和岭回归区别相关推荐

  1. 数值分析:最小二乘与岭回归(Pytorch实现)

    Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...

  2. 回归 - 最小二乘,岭回归,lasso

    1. 岭回归 2. lasso 3. 偏差和方差 1. 岭回归 岭回归,又称脊回归.吉洪诺夫正则化(Tikhonov regularization),是对不适定问题(ill-posed problem ...

  3. 从最小二乘到岭回归(Ridge Regression)的深刻理解

    岭回归是带二范数惩罚的最小二乘回归. ols方法中, &amp;lt;img src="https://pic1.zhimg.com/716fd592b5b8cb384bd68771 ...

  4. “机器学习实战”刻意练习——回归问题:线性回归(最小二乘、岭回归、逐步回归)

    参考: Python3<机器学习实战>学习笔记(十一):线性回归基础篇之预测鲍鱼年龄 - Jack-Cui Python3<机器学习实战>学习笔记(十二):线性回归提高篇之乐高 ...

  5. 【机器学习】岭回归(L2正则在干嘛!)

    在之前我们有介绍过贝叶斯线性回归,贝叶斯线性回归利用了最大后验估计(MAP)加上权重的高斯分布先验推导出带有L2正则项的线性回归. 其实这就是岭回归,即     岭回归=MAP+高斯先验. 推导就参见 ...

  6. 高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据...

    原文链接:http://tecdat.cn/?p=23378 1 介绍 在本文中,我们将研究以下主题 证明为什么低维预测模型在高维中会失败. 进行主成分回归(PCR). 使用glmnet()进行岭回归 ...

  7. 最全最详细-线性规划(最小二乘、正交回归、梯度下降、仿真)

    文章目录 1. 问题描述 2. 问题分析 3. 解析解法 3.1 一般最小二乘法 3.1.1目标函数 3.1.2 求解推导 3.1.3 几何意义 3.1.4 缺点 3.1.4.1 对异常值很敏感 3. ...

  8. python 最小二乘回归 高斯核_「机器学习」一文读懂线性回归、岭回归和Lasso回归...

    点击上方蓝色字体,关注AI小白入门哟 作者 | 文杰 编辑 | yuquanle 本文介绍线性回归模型,从梯度下降和最小二乘的角度来求解线性回归问题,以概率的方式解释了线性回归为什么采用平方损失,然后 ...

  9. 应用预测建模第六章-线性回归-预测化合物溶解度练习-R语言(多元线性回归,稳健回归,偏最小二乘回归,岭回归,lasso回归,弹性网)

    模型:多元线性回归,稳健回归,偏最小二乘回归,岭回归,lasso回归,弹性网 语言:R语言 参考书:应用预测建模 Applied Predictive Modeling (2013) by Max K ...

最新文章

  1. Daily Scrum 10.27
  2. iOS开发月报#10|201904
  3. apache cxf_Apache CXF负载平衡和故障转移
  4. 研究生新生大数据!一大波00后“涌入”同济,最小博士生20岁
  5. Longhorn明年5月完成 微软将推7个版本
  6. 自检代码中trustmanager漏洞_通达OA远程代码执行漏洞通告
  7. 华为机试HJ44:Sudoku(数独问题,深度优先遍历DFS解法)
  8. php igbinary_php_igbinary.dll,下载,简介,描述,修复,等相关问题一站搞定_DLL之家
  9. Android动画之补间动画详解
  10. java inflater_Android下LayoutInflater的正确使用姿势
  11. 福利福利!20行代码教大家抓取斗鱼美女主播封面
  12. Foxit PDF SDK for Linux (C++ Library) 8.4.1 Crack
  13. AJAX IE7清除缓存
  14. 汽车软件行业工程师详细介绍?(中)
  15. vue图片裁剪插件:vue-img-cutter
  16. Java方法excel文件转换成xml文件
  17. ubuntu16.04安装rtems
  18. matlab的讲稿ppt,Matlab初步(讲稿200508)之一_Matlab讲解_doc_大学课件预览_高等教育资讯网...
  19. P3386二分图最大匹配模版
  20. 邻接矩阵与拉普拉斯矩阵

热门文章

  1. (五)2.自动控制原理 Frequency Responce Methods 之 Nyquist曲线
  2. 专访|十年程序员董一凡:生命不息,学习不止
  3. 动态规划------求解决策过程中最优化的数学方法
  4. input类型为file时,accept为表格xlsl
  5. 加密授权验证学习之五——RSA非对称加密算法将机器码加密为注册码
  6. 给移动硬盘装上LINUX全攻略,简单几步把Ubuntu装进移动硬盘引导使用
  7. Bitvise SSH Client下载
  8. python做工控机_「上位机软件」工控机上位机软件的开发历程(一) - seo实验室...
  9. 离开腾讯首创业,贾佳亚谈人工智能 2.0 革命,技术究竟该如何变革?
  10. emoji表情的处理和保存