UA MATH567 高维统计专题1 Supervised PCA Regression概述

相关结果
Supervised PCA Regression

Supervised PCA Regression

综合PCA Regression与Penalized Regression的特点，我们可以设计Supervised PCA Regression，假设XXX是centered design matrix，引入Σ^=XTX/n\hat \Sigma = X^TX/nΣ^=XTX/n，δ^=XTy/n\hat \delta = X^Ty/nδ^=XTy/n，定义
Σ^ρ=Σ^+ρδ^δ^T\hat \Sigma_{\rho}=\hat \Sigma + \rho \hat \delta \hat \delta ^TΣ^ρ=Σ^+ρδ^δ^T

这个值形式上与样本协方差类似，但他包含了feature与label共同的信息，我们提取它的主成分，然后用来做PCA，这就是Supervised PCA Regression。如果ρ→0\rho \to 0ρ→0，这就是一个PCA regression，如果ρ→∞\rho \to \inftyρ→∞，这就是一个marginal regression。Marginal Regression的含义是分别对每一个feature做一元回归：
y1=x1β1+ϵ1y2=x2β2+ϵ2⋯yp=xpβp+ϵpy_1 = x_1\beta_1+\epsilon_1 \\ y_2 = x_2 \beta_2 + \epsilon_2 \\ \cdots \\ y_p=x_p\beta_p+\epsilon_py1=x1β1+ϵ1y2=x2β2+ϵ2⋯yp=xpβp+ϵp

这种模型在variable screening中有一些应用，并且在需要初值的迭代算法中可以作为系数的初始值。

下面我们再介绍一些Supervised PCA Regression的特点。假设
Σ=EXTX,δ=EXTy\Sigma=EX^TX,\delta = EX^TyΣ=EXTX,δ=EXTy

则
β=Σ−1δ\beta = \Sigma^{-1}\deltaβ=Σ−1δ

如果Σ\SigmaΣ的特征值为λ1≥⋯≥λk>λk+1=⋯=λd\lambda_1 \ge \cdots \ge \lambda_k > \lambda_{k+1}=\cdots = \lambda_dλ1≥⋯≥λk>λk+1=⋯=λd，那么做谱分解
Σ=∑i=1k(λi−λd)ξiξiT+λdId\Sigma = \sum_{i=1}^k(\lambda_i - \lambda_d)\xi_i\xi_i^T+\lambda_d I_dΣ=i=1∑k(λi−λd)ξiξiT+λdId

根据Σ−1Σ=Id\Sigma^{-1}\Sigma=I_dΣ−1Σ=Id，我们可以得到∃ai,a0\exists a_i,a_0∃ai,a0，
Σ−1=∑i=1kaiξiξiT+a0Id\Sigma^{-1} = \sum_{i=1}^k a_i \xi_i\xi_i^T+a_0I_dΣ−1=i=1∑kaiξiξiT+a0Id

于是
β=Σ−1δ=∑i=1kai(ξiTδ)ξi+λdδ∈span(ξ1,⋯,ξk,δ)\beta = \Sigma^{-1}\delta=\sum_{i=1}^ka_i(\xi_i^T\delta)\xi_i+\lambda_d \delta \in span(\xi_1,\cdots,\xi_k,\delta)β=Σ−1δ=i=1∑kai(ξiTδ)ξi+λdδ∈span(ξ1,⋯,ξk,δ)

而Σρ=Σ+ρδδT\Sigma_{\rho}=\Sigma+\rho \delta \delta^TΣρ=Σ+ρδδT的前k+1k+1k+1个主成分张成的子空间就是span(ξ1,⋯,ξk,δ)span(\xi_1,\cdots,\xi_k,\delta)span(ξ1,⋯,ξk,δ)，这说明用Σρ\Sigma_{\rho}Σρ的前k+1k+1k+1个主成分对特征空间进行降维是不存在信息损失的。而Davis-Kahan定理又能保证Σ^ρ\hat \Sigma_{\rho}Σ^ρ与Σρ\Sigma_{\rho}Σρ是足够接近的，所以在以上的理论分析支撑下，我们可以认可Supervised PCA Regression。但关于这个模型的统计理论还有一些问题需要解决：

Supervised PCA Regression系数估计量的统计性质；
关于特征值的假设λ1≥⋯≥λk>λk+1=⋯=λd\lambda_1 \ge \cdots \ge \lambda_k > \lambda_{k+1}=\cdots = \lambda_dλ1≥⋯≥λk>λk+1=⋯=λd，如果不成立是否还有降维没有信息损失的性质？