3.6 讨论:选择和收缩方法的比较

这是一篇有关《统计学习基础》,原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高,有很棒的学者将其翻译成中文并放在自己的个人网站上,翻译质量非常高,本博客中有关翻译的内容都是出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记,结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件,可在作者GitHub上查看下载。

原文 The Elements of Statistical Learning
翻译 szcf-weiya
时间 2018-08-21
解读 Hytn Chen
更新 2020-02-21

翻译原文

一些简单的设定会帮助我们更好地理解上面描述的不同方法之间的关系.考虑相关系数为 ρ\rhoρ 的两个相关输入变量X1,X2\mathbf X_1,\mathbf X_2X1​,X2​.我们假设实际的回归系数为 β1=4,β2=2\beta_1=4,\beta_2=2β1​=4,β2​=2.

图 3.18:关于一个简单问题不同方法的系数曲线,这个问题有两个相关性为 ±0.5\pm 0.5±0.5 的输入变量,真实的回归系数为 β=(4,2)\beta=(4,2)β=(4,2).

!!! info “weiya 注:”
已经重现了本节的模拟实验,详见模拟:Fig. 3.18

图 3.18 显示了不同方法下当它们惩罚参数改变时的系数曲线.上图 ρ=0.5\rho=0.5ρ=0.5,下图 ρ=−0.5\rho=-0.5ρ=−0.5.岭回归和 lasso 的惩罚参数在一个连续的区域内变化,而最优子集,PLS 和 PCR 只要两个离散的步骤便达到了最小二乘解.在上面的图中,从零点开始,岭回归整体收缩参数直到最后收缩到最小二乘.尽管 PLS 和 PCR 是离散的且更加极端,但它们显示了类似岭回归的行为.最优子集超出解然后回溯.lasso 的行为是其他方法的过渡.当相关系数为负数时(下图),PLS 和 PCR 再一次大致地跟随岭回归的路径,而所有的方法都更加相似.

比较不同方法的收缩行为是很有趣的.岭回归对所有方向都有收缩但在低方差方向收缩程度更厉害.主成分回归将 MMM 个高方差的方向单独取出来,然后丢掉剩下的.有趣的是,可以证明偏最小二乘也趋向于收缩低方差的方向,但是实际上会使得某些高方差方向膨胀.这使得 PLS 稍微不太稳定,因此相比于岭回归会有较大的预测误差.整个研究由 Frank and Friedman (1993)1 给出.他们总结到对于最小化预测误差,岭回归一般比变量子集选择、主成分回归和偏最小二乘更好.然而,相对于后两种方法的提高只是很小的.

总结一下,PLS,PCR 以及岭回归趋向于表现一致.岭回归可能会更好,因为它收缩得很光滑,不像离散步骤中一样.Lasso 介于岭回归和最优子集回归中间,并且有两者的部分性质.

个人解读

这里的相关系数应该指的是皮尔逊相关系数。皮尔逊相关系数是两变量间线性相关关系的统计指标,用来表征两个变量之间线性关系紧密程度。其表达式如下
r(X,Y)=Cov⁡(X,Y)Var⁡[X]Var⁡[Y]r(X, Y)=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}[X] \operatorname{Var}[Y]}} r(X,Y)=Var[X]Var[Y]​Cov(X,Y)​
这里ρxy=r(x,y)\rho_{x y}=r(x, y)ρxy​=r(x,y),该变量具有两个性质

∣ρXY∣≤1\left|\rho_{X Y}\right| \leq 1∣ρXY​∣≤1;

∣ρXY∣=1\left|\rho_{X Y}\right| = 1∣ρXY​∣=1的充要条件为,存在常数a和b,使得P{Y=a+bX}=1P\{Y=a+b X\}=1P{Y=a+bX}=1。

若∣ρXY∣\left|\rho_{X Y}\right|∣ρXY​∣越大,则相关程度越大,∣ρXY∣=0\left|\rho_{X Y}\right|=0∣ρXY​∣=0时相关程度最低,∣ρXY∣=1\left|\rho_{X Y}\right| = 1∣ρXY​∣=1时两个变量之间则存在线性关系。ρXY\rho_{X Y}ρXY​的正负和协方差有关,而关于协方差的较全的详细解释可参考这篇文章。


  1. Frank, I. and Friedman, J. (1993). A statistical view of some chemometrics regression tools (with discussion), Technometrics 35(2): 109–148. ↩︎

ESL3.6 几种线性回归方法比较学习笔记(含协方差相关系数概念)相关推荐

  1. ListView的两种使用方法--Android学习笔记

    1. 继承ListActivity ,使用listActivity中的  setListActivity()方法,注意在xml中listView的id一定要设置为android:id="@+ ...

  2. SVO中 Inverse Compositional Image Alignment方法的学习笔记

    SVO中 Inverse Compositional Image Alignment方法的学习笔记 这篇文章 光流法简介 逆向光流法 结尾 这篇文章  在SVO系统中的"Relaxation ...

  3. 7 种 Javascript 常用设计模式学习笔记

    7 种 Javascript 常用设计模式学习笔记 由于 JS 或者前端的场景限制,并不是 23 种设计模式都常用. 有的是没有使用场景,有的模式使用场景非常少,所以只是列举 7 个常见的模式 本文的 ...

  4. 基于迁移学习的旋转机械故障诊断方法研究学习笔记

    基于迁移学习的旋转机械故障诊断方法研究学习笔记 现在大一点的神经网络模型也要求数据量的足够大,但是对于小样本的数据,有一些神经网络模型也能够处理的很好 2. 这是现在神经网络也要求的数据最好能够独立同 ...

  5. 12种降维方法终极指南(含Python代码)

    12种降维方法终极指南(含Python代码) 你遇到过特征超过1000个的数据集吗?超过5万个的呢?我遇到过.降维是一个非常具有挑战性的任务,尤其是当你不知道该从哪里开始的时候.拥有这么多变量既是一个 ...

  6. python面向对象编程中方法和属性_Python面向对象编程中关于类和方法的学习笔记...

    Python面向对象编程中关于类和方法的学习笔记 类与类方法是面向对象的编程语言中必不可少的特性,本文总结了Python面向对象编程中关于类和方法的学习笔记,需要的朋友可以参考下 类和实例 pytho ...

  7. 国密消息鉴别码学习笔记 ——含GB/T 15852和HMAC(第2章 基于分组密码的MAC)

    国密消息鉴别码学习笔记  --含GB/T 15852和HMAC 摘要:本文档对我国标准规定的消息鉴别码的生成算法进行了简要介绍,包括算法生成步骤,注意事项等.我国的相关标准包括GB/T 15852.1 ...

  8. vue学习笔记-03-浅谈组件-概念,入门,如何用props给组件传值?

    vue学习笔记-03-浅谈组件-概念,入门,如何用props给组件传值? 文章目录 vue学习笔记-03-浅谈组件-概念,入门,如何用props给组件传值? 什么是组件? 为什么要使用组件? 如何使用 ...

  9. c语言注释语句执行吗,C语言学习笔记之C语言概念解析(附资料分享)每一个语句都必须以分号结尾但预处理命令函数头和花括号“}”之后不能加分号...

    [[怪兽爱C语言]C语言学习笔记之C语言概念解析(附资料分享)]https://toutiao.com/group/6582429294901854728/?iid=15906422033&a ...

  10. MySQL学习笔记01【数据库概念、MySQL安装与使用】

    MySQL 文档-黑马程序员(腾讯微云):https://share.weiyun.com/RaCdIwas 1-MySQL基础.pdf.2-MySQL约束与设计.pdf.3-MySQL多表查询与事务 ...

最新文章

  1. Cocos2d-精灵的几个常识
  2. SQL进阶提升(疑惑篇order by)-学习sql server2005 step by step(十一)
  3. Linux系统文件类型 特殊文件 和 进程间通信机制
  4. 作者:潘柱廷,启明星辰首席战略官。
  5. pcp pmda mysql_linux下的mysql的安装
  6. Android开发笔记(一百四十九)约束布局ConstraintLayout
  7. ESP32开发 0.windows Vscode开发环境搭建,基于esp-idf-V4.2 | Cmake | Vscode插件
  8. 最新消息!Cloudera 全球发行版正式集成 Apache Flink
  9. MP算法与OMP算法讲解一
  10. Pandas深入浅出
  11. android动态注册服务器,Android 6.0动态权限申请教程
  12. neo4j实现Louvain算法
  13. 中国省份区域json
  14. 分享可用的谷歌学术(google scholar) hosts
  15. QQ心跳包格式分析 监听局域网QQ号代码
  16. Qt雪花飘落程序,下雪
  17. 4s团队项目前端layui整合使用步骤
  18. TP3.2.3到TP5的变化
  19. 计算机组成原理(一)绪论
  20. Caddy 源码阅读

热门文章

  1. 2017年下半年网络工程师真题+答案解析
  2. 米兰•昆德拉 漂浮的一生
  3. chrome 下载 中断_如何在Google Chrome浏览器中恢复中断的下载
  4. Intent详解及其用法
  5. 引入YouTube视频自动控制开始和暂停
  6. 科学计算机中的dms在哪,计算机视觉方向简介 | 驾驶员监控DMS
  7. OpenWrt 安装中文语言包
  8. 可一键生成数据分析报告的两个库
  9. 12.STC15W408AS单片机比较器
  10. python中的加减乘除(运算符)