sPLS:Sparse partial least-squares regression 稀疏偏最小二乘回归

最小二乘法,又称最小平方法,是一种数学优化建模方法。它通过最小化误差的平方和寻找数据的最佳函数匹配。 利用最小二乘法可以简便的求得未知的数据,并使得求得的数据与实际数据之间误差的平方和为最小。 “最小二乘法”是对线性方程组,即方程个数比未知数更多的方程组,以回归分析求得近似解的标准方法。最小二乘法,所谓“二乘”就是平方的意思,就是最小化误差的平方。

首先什么是最小二乘回归?其实就是多元线性回归,而标准线性回归(linear regression),就是用线性函数去拟合一组数据,使得损失最小,一般采用cost function (mse) 。

那么lasso 回归和岭回归(ridge regression)又是什么?它们俩实就是在标准线性回归的基础上分别加入 L1 和 L2 正则化(regularization)。

那么为什么 L1 正则化会比 L2 正则化让线性回归的权重更加稀疏,即使得线性回归中很多权重为 0,而不是接近 0。或者说,为什么 L1 正则化(lasso)可以进行 feature selection,而 L2 正则化(ridge)不行。

Lasso 的全称为 least absolute shrinkage and selection operator,又译最小绝对值收敛和选择算子、套索算法。

从贝叶斯角度看,lasso(L1 正则)等价于参数 ww 的先验概率分布满足拉普拉斯分布,而 ridge(L2 正则)等价于参数 ww 的先验概率分布满足高斯分布。

lasso 限制了 ω 的取值范围为有棱角的方形,而 ridge 限制了ω的取值范围为圆形,等高线和方形区域的切点更有可能在坐标轴上,而等高线和圆形区域的切点在坐标轴上的概率很小。这就是为什么 lasso(L1 正则化)更容易使得部分权重取 0,使权重变稀疏;而 ridge(L2 正则化)只能使权重接近 0,很少等于 0。

正是由于 lasso 容易使得部分权重取 0,所以可以用其做 feature selection,lasso 的名字就指出了它是一个 selection operator。权重为 0 的 feature 对回归问题没有贡献,直接去掉权重为 0 的 feature,模型的输出值不变。

那到这里对最小二乘回归,稀疏有了一点概念,那LASSO回归就是sPLS(稀疏偏最小二乘回归)吗?

那我们还得先介绍偏最小二乘回归(PLS)是什么? 又是对各种回归傻傻分不清的一天。。。

  • 主成分回归:类似于主成分分析,将具有相关性的多维变量降维到互不相关的少数几维变量上,可以处理变量之间具有相关性的情况。
  • 岭回归:同上,但方法不同。
  • 偏最小二乘回归:当数据量小,甚至比变量维数还小,而相关性又比较大时使用,这个方法甚至优于主成分回归。所以说和主成分回归有类似,但是适用场景不同。
  • 多元线性回归:入门练习常见,但用在模型上基本无用,因为多个变量之间难免有复杂的相关性,多元线性回归不能处理多个自变量之间的“糅合”性。
  • 逻辑回归:当预测的是1/0时使用。 这也是机器学习中的一种常用二分类方法。

那么建模的时候到底应该怎么选呢?回归的检验:

  • 自变量与因变量是否具有预期的关系。如果有非常不符合逻辑的系数,我们就应该考虑剔除它了。
  • 自变量对模型是否有帮助。如果自变量的系数为零(或非常接近零),我们认为这个自变量对模型没有帮助,统计检验就用来计算系数为零的概率。如果统计检验返回一个小概率值(p值),则表示系数为零的概率很小。如果概率小于0.05,汇总报告上概率(Probability)旁边的一个星号(*)表示相关自变量对模型非常重要。换句话说,其系数在95%置信度上具有统计显著性。
  • 残差是否有空间聚类。残差在空间上应该是随机分布的,而不应该出现聚类。
  • 模型是否出现了倾向性。如果我们正确的构建了回归分析模型,那么模型的残差会符合完美的正态分布,其图形为钟形曲线。
  • 自变量中是否存在冗余。建模的过程中,应尽量去选择表示各个不同方面的自变量,也就是尽量避免传达相同或相似信息的自变量。
  • 评估模型的性能。评估矫R2值,有时还要加上修正的Akaike信息准则/Akaike's information criterion (AIC),效果是否好。

为什么会产生偏最小二乘回归?

  • 一般来说,能用主成分分析就能用偏最小二乘。偏最小二乘集成了主成分分析、典型相关分析、线性回归分析的优点。在普通多元线形回归的应用中,我们常受到许多限制。 最典型的问题就是:自变量之间的多重相关性。并且有的时候样例很少,甚至比变量的维度还少,变量之间又存在多重相关性。偏最小二乘回归就是为解决这些棘手的问题而生的。
  • 举个例子,比如现在,有一堆因素(X1,X2,...Xn)(这是自变量),这些因素可以导致(Y1,Y2,...Yn)(这是因变量),给的样例很少,而我们又完全不清楚自变量之间、因变量之间存在的关系,这时问自变量与因变量之间到底是一个什么关系?这就是偏最小二乘要解决的问题。

推导偏最小二乘回归的步骤:

  • step1:数据说明与标准化
  • step2:求符合要求的主成分
  • step3:建立主成分与原自变量、因变量之间的回归
  • step4:继续求主成分,直到满足要求
  • step5:推导因变量之于自变量的回归表达式
  • step6:检验-交叉有效性

主成分分析是从普通最小二乘回归过度到偏最小二乘回归法的最关键的技术。

那为什么又有稀疏偏最小二乘回归呢?稀疏偏最小二乘回归方法在PLS中内置了变量选择过程,并且在融合两组组学和对结果的生物学解释方面有良好的性能。也就是将lass惩罚变量选择法加入了PLS。

参考:

线性回归——lasso回归和岭回归(ridge regression)

PLS偏最小二乘回归原理与应用

关于sPLS analysis的一些学习相关推荐

  1. Complex Network Analysis in Python学习笔记

    Complex Network Analysis in Python简介:https://www.oreilly.com/library/view/complex-network-analysis/9 ...

  2. Principal Component Analysis 主成分分析 【学习笔记】

    Principal Component Analysis 主成分分析笔记 文章目录 Principal Component Analysis 主成分分析笔记 PCA是什么? 数据的线性变换 拉伸操作: ...

  3. 机器学习 cs229学习笔记4 EM for factor analysis PCA(Principal comp

    ============================================================================= EM FOR FACTOR ANALYSIS ...

  4. 迁移学习笔记——Adapting Component Analysis

    <Adapting Component Analysis>文章学习 2012 IEEE 12th International Conference on Data Mining 文章目录 ...

  5. Python学习打卡【Task3】异常处理

    目录 一.学习知识点概要(review) 二.学习内容(record) 三.学习问题与解答(analysis) 四.学习思考与总结(summary) 一.学习知识点概要(review) 1.Pytho ...

  6. 迁移学习笔记3: TCA, Finetune, 与Triplet Network(元学习)

    主要想讲的内容有: TCA, Finetune, Triplet Network 迁移学习与元学习有哪几类方法 想讲的目标(但不一定完全能写完, 下一次笔记补充): 分别属于什么方法, 处于什么位置, ...

  7. A Survey on Deep Learning in Medical Image Analysis

    A Survey on Deep Learning in Medical Image Analysis Abstract 深度学习算法特别是卷积神经网络已经快速成为分析医疗图像的一种方法.本文总结了与 ...

  8. Python学习打卡【Task4】列表,字典和元组

    目录 一.学习知识点概要(review)     二.学习内容(record) 三.学习问题与解答(analysis) 四.学习思考与总结(summary) 一.学习知识点概要(review)     ...

  9. 迁移学习一——TCA和SSTCA

    本篇文章是对论文<Domain Adaptation via Transfer Component Analysis>进行学习 1 背景 首先我们引入域的概念,通常认为域由两部分组成:输入 ...

最新文章

  1. c语言:【顺序表】静态顺序表的初始化、打印、尾插、尾删
  2. 网络推广下叮咚买菜已完成D轮融资,生鲜电商下一次融资又在何方?
  3. hls.js播放hls直播源
  4. kSum,实现方式,动态规划
  5. 数据库实现,以及工厂方法模式实现
  6. Linux命令学习手册-tr命令 2015-07-26 20:35 9人阅读 评论(0) 收藏...
  7. linux tips 技巧笔记一
  8. win7压缩文件夹怎么压缩到最小
  9. 你们是魔鬼吗?Adobe研发了一款反PS工具:自己打自己?
  10. 关于linux学习的热身知识八
  11. [Istioc]Istio部署sock-shop时rabbitmq出现CrashLoopBackOff
  12. STL容器 之 vector
  13. 随心而行----我与计算机的缘分
  14. (附源码)springboot水利机械厂仓储管理系统 毕业设计 091408
  15. 目前惯导的几大类型介绍(一文了解)
  16. c++的继承与派生之从入门到入坟-------集大成者
  17. 注销使用苹果登录的账号
  18. MPII数据集下载缓慢
  19. 留学计算机专业排名,2016年美国留学计算机专业大学排名
  20. 想成为管理者必须会讲的68个超级经典小故事

热门文章

  1. 第一个OpenDayLight项目:HelloWorld
  2. 描写火车站场景_描写火车站的优秀句子
  3. 如何从A页面跳转到B页面并且带着很长的参数
  4. [BZOJ]4605 崂山白花蛇草水 线段树套KD-Tree
  5. 前端基础学习之h5c3-购物车宣传页动画小练习
  6. webRTC(十四):webrtc 端到端文本聊天
  7. Android Studio 快速连接 MuMu 模拟器调试
  8. java用代码实现星期菜谱_基于JAVA的菜谱大全接口调用代码实例
  9. 学计算机用啥u盘好,U盘制作工具哪个好用?2020U盘制作工具推荐
  10. python基础经典问题-判断身份证号码是否有效