UA MATH567 高维统计 专题1 Supervised PCA Regression概述

  • 相关结果
  • Supervised PCA Regression

相关结果

考虑经典的回归问题y=Xβ+ϵ,X∈Rp,ϵ∼N(0,σ2In)y=X\beta+\epsilon,X \in \mathbb{R}^p,\epsilon \sim N(0,\sigma^2I_n)y=Xβ+ϵ,X∈Rp,ϵ∼N(0,σ2In​),根据Gauss-Markov定理,在满足定理的假设时,OLS估计量具有非常好的渐近性质,但是当ppp与nnn非常接近或者模型存在比较强的多重共线性时,OLS是nonstable估计。

PCA Regression是一种改进OLS不稳定性的模型,它分为下面几个步骤:

  1. 计算XXX的principle component(PC),选择前几个主成分作为新的regressor
  2. 用新的regressor做OLS

PCA方法使得PC互相正交,这样新的OLS就没有多重共线性的;OLS的另一种不稳定性主要来自(XTX)−1(X^TX)^{-1}(XTX)−1的计算,但因为正交性,PC的这一步计算只需要计算对角阵的逆,所以从计算上讲PCA Regression更稳定。PCA Regression的缺陷是PCA是非监督学习,是对特征XXX进行降维的;而我们最终目标是要用XXX对YYY回归,这是一种监督学习,直接把这两步串起来我们没有办法确保特征XXX的PC与YYY之间的dependence与XXX与YYY之间的dependence仍然是完全一致的。

另一种改进多重共线性的方法是Penalized Regression,比如Ridge Regression:
arg min⁡β1n∑i=1n(yi−xiTβ)2+λ∥β∥22\argmin_{\beta} \frac{1}{n}\sum_{i=1}^n (y_i-x_i^T\beta)^2+\lambda \left\| \beta\right\|^2_2βargmin​n1​i=1∑n​(yi​−xiT​β)2+λ∥β∥22​

这个方法的优点是我们能拿到岭回归估计量的表达式,
β^ridge=(XTX/n+λI)−1XTy\hat \beta_{ridge}=(X^TX/n+\lambda I)^{-1}X^Tyβ^​ridge​=(XTX/n+λI)−1XTy

即使ppp与nnn接近,因为λI\lambda IλI的存在,计算矩阵的逆时也不会不稳定(不会是non-singular矩阵);需要注意的是岭回归是有偏的,它只能做proportional shrinkage,不能处理sparsity的问题。作为另一种常用的shrinkage estimation,LASSO可以把一些系数shrink到0,因此它能处理sparsity。
arg min⁡β1n∑i=1n(yi−xiTβ)2+λ∥β∥1\argmin_{\beta} \frac{1}{n}\sum_{i=1}^n (y_i-x_i^T\beta)^2+\lambda \left\| \beta\right\|_1βargmin​n1​i=1∑n​(yi​−xiT​β)2+λ∥β∥1​

它在计算上比岭回归更复杂,但这二十年来,统计学家开发了许多用来计算LASSO,所以现在已经不是个问题了。关于sparsity,通常用的假设是∣{j:βj≠0}∣<<p|\{j:\beta_j \ne 0\}|<<p∣{j:βj​​=0}∣<<p,但是如果p>np>np>n,并且没有sparsity,那就没有能处理的方法了。

Supervised PCA Regression

综合PCA Regression与Penalized Regression的特点,我们可以设计Supervised PCA Regression,假设XXX是centered design matrix,引入Σ^=XTX/n\hat \Sigma = X^TX/nΣ^=XTX/n,δ^=XTy/n\hat \delta = X^Ty/nδ^=XTy/n,定义
Σ^ρ=Σ^+ρδ^δ^T\hat \Sigma_{\rho}=\hat \Sigma + \rho \hat \delta \hat \delta ^TΣ^ρ​=Σ^+ρδ^δ^T

这个值形式上与样本协方差类似,但他包含了feature与label共同的信息,我们提取它的主成分,然后用来做PCA,这就是Supervised PCA Regression。如果ρ→0\rho \to 0ρ→0,这就是一个PCA regression,如果ρ→∞\rho \to \inftyρ→∞,这就是一个marginal regression。Marginal Regression的含义是分别对每一个feature做一元回归:
y1=x1β1+ϵ1y2=x2β2+ϵ2⋯yp=xpβp+ϵpy_1 = x_1\beta_1+\epsilon_1 \\ y_2 = x_2 \beta_2 + \epsilon_2 \\ \cdots \\ y_p=x_p\beta_p+\epsilon_py1​=x1​β1​+ϵ1​y2​=x2​β2​+ϵ2​⋯yp​=xp​βp​+ϵp​

这种模型在variable screening中有一些应用,并且在需要初值的迭代算法中可以作为系数的初始值。

下面我们再介绍一些Supervised PCA Regression的特点。假设
Σ=EXTX,δ=EXTy\Sigma=EX^TX,\delta = EX^TyΣ=EXTX,δ=EXTy


β=Σ−1δ\beta = \Sigma^{-1}\deltaβ=Σ−1δ

如果Σ\SigmaΣ的特征值为λ1≥⋯≥λk>λk+1=⋯=λd\lambda_1 \ge \cdots \ge \lambda_k > \lambda_{k+1}=\cdots = \lambda_dλ1​≥⋯≥λk​>λk+1​=⋯=λd​,那么做谱分解
Σ=∑i=1k(λi−λd)ξiξiT+λdId\Sigma = \sum_{i=1}^k(\lambda_i - \lambda_d)\xi_i\xi_i^T+\lambda_d I_dΣ=i=1∑k​(λi​−λd​)ξi​ξiT​+λd​Id​

根据Σ−1Σ=Id\Sigma^{-1}\Sigma=I_dΣ−1Σ=Id​,我们可以得到∃ai,a0\exists a_i,a_0∃ai​,a0​,
Σ−1=∑i=1kaiξiξiT+a0Id\Sigma^{-1} = \sum_{i=1}^k a_i \xi_i\xi_i^T+a_0I_dΣ−1=i=1∑k​ai​ξi​ξiT​+a0​Id​

于是
β=Σ−1δ=∑i=1kai(ξiTδ)ξi+λdδ∈span(ξ1,⋯,ξk,δ)\beta = \Sigma^{-1}\delta=\sum_{i=1}^ka_i(\xi_i^T\delta)\xi_i+\lambda_d \delta \in span(\xi_1,\cdots,\xi_k,\delta)β=Σ−1δ=i=1∑k​ai​(ξiT​δ)ξi​+λd​δ∈span(ξ1​,⋯,ξk​,δ)

而Σρ=Σ+ρδδT\Sigma_{\rho}=\Sigma+\rho \delta \delta^TΣρ​=Σ+ρδδT的前k+1k+1k+1个主成分张成的子空间就是span(ξ1,⋯,ξk,δ)span(\xi_1,\cdots,\xi_k,\delta)span(ξ1​,⋯,ξk​,δ),这说明用Σρ\Sigma_{\rho}Σρ​的前k+1k+1k+1个主成分对特征空间进行降维是不存在信息损失的。而Davis-Kahan定理又能保证Σ^ρ\hat \Sigma_{\rho}Σ^ρ​与Σρ\Sigma_{\rho}Σρ​是足够接近的,所以在以上的理论分析支撑下,我们可以认可Supervised PCA Regression。但关于这个模型的统计理论还有一些问题需要解决:

  1. Supervised PCA Regression系数估计量的统计性质;
  2. 关于特征值的假设λ1≥⋯≥λk>λk+1=⋯=λd\lambda_1 \ge \cdots \ge \lambda_k > \lambda_{k+1}=\cdots = \lambda_dλ1​≥⋯≥λk​>λk+1​=⋯=λd​,如果不成立是否还有降维没有信息损失的性质?

UA MATH567 高维统计 专题1 Supervised PCA Regression概述相关推荐

  1. UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介

    UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介 Stochastic Gradient Descent的思想 Varian ...

  2. UA MATH567 高维统计专题3 含L1-norm的凸优化4 Nesterov方法与Accelerate Proximal Gradient

    UA MATH567 高维统计专题3 含L1-norm的凸优化4 一阶方法的加速 Nesterov方法 Accelerate Proximal Gradient (APG) 梯度下降与Proximal ...

  3. UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient Descent

    UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient Descent Proximal Gradient Descent的公式推导 Proximal O ...

  4. UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP

    UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP Low-rank matrix completion的模型是rank minimization,上一讲我们介绍了 ...

  5. UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm

    UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm 上一讲我们已经提到了用rank-minimization对参数矩阵进 ...

  6. UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Matrix Completion简介

    UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Low-rank Matrix简介 例 在推荐系统中,Netflix data是非常经典的数据集.考虑它的电影评分数据,用矩阵的每 ...

  7. UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性

    UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性 Prediction Error Variable Selection Consistency Pred ...

  8. UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差

    UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差 上一讲我们推导了noisy setting下LASSO估计误差的阶O(slog⁡d/n)O(\sqrt{s ...

  9. UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差

    UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差 Signal Recovery Noisy Setting LASSO的估计误差 Signal Recovery Noi ...

最新文章

  1. EMAIL发送系统(C#+基于SMTP认证) 2.0
  2. 13-Introduction to security
  3. C语言多种方法实现同一个功能
  4. 网易云的朋友给我这份339页的Android面经,持续更新中
  5. 大名鼎鼎的电影胶片滤镜--DxO FilmPack 5 mac
  6. 区块链JAVA数字交易所官方商业版开发级全套三端纯源码
  7. jquery操作表格
  8. 天猫标的就是虚价,果然败家节啊
  9. iOS版本更新的方法
  10. 全局拉普拉斯平滑之(1)Strucutre extraction from texture via relative total variation及稀疏矩阵求解
  11. 『PyTorch x TensorFlow』第六弹_从最小二乘法看自动求导
  12. USB(UVC协议)摄像头
  13. python全栈开发工程师_Python Web全栈开发工程师修炼之路
  14. windows域与工作组概念
  15. 字符图形自动生成(C语言)
  16. 从全息投影到全息平台,必须克服7个障碍
  17. Matlab系列教程_基础知识_绘图(一)
  18. 无法将类中的构造器应用到给定类型
  19. python绘制决策树图片
  20. 上课签到 php,福建一高校学生上课需刷脸签到 被赞高大上

热门文章

  1. 【Python-ML】神经网络-多层感知器
  2. 【正一专栏】读《怎样做社会研究》——社会研究的意义
  3. 【Python学习系列二十六】networkx库图最短路径求解
  4. Linux操作系统Ubuntu部署Oracle篇
  5. linux sh 字符截取,shell字符截断
  6. 父类卡子类卡java_Java中关于子类覆盖父类的抛出异常问题
  7. this和self区别
  8. jQuery 对象和 DOM 对象
  9. MATLAB知识点2
  10. eclipse的安装使用