UA MATH567 高维统计 专题1 Supervised PCA Regression概述
UA MATH567 高维统计 专题1 Supervised PCA Regression概述
- 相关结果
- Supervised PCA Regression
相关结果
考虑经典的回归问题y=Xβ+ϵ,X∈Rp,ϵ∼N(0,σ2In)y=X\beta+\epsilon,X \in \mathbb{R}^p,\epsilon \sim N(0,\sigma^2I_n)y=Xβ+ϵ,X∈Rp,ϵ∼N(0,σ2In),根据Gauss-Markov定理,在满足定理的假设时,OLS估计量具有非常好的渐近性质,但是当ppp与nnn非常接近或者模型存在比较强的多重共线性时,OLS是nonstable估计。
PCA Regression是一种改进OLS不稳定性的模型,它分为下面几个步骤:
- 计算XXX的principle component(PC),选择前几个主成分作为新的regressor
- 用新的regressor做OLS
PCA方法使得PC互相正交,这样新的OLS就没有多重共线性的;OLS的另一种不稳定性主要来自(XTX)−1(X^TX)^{-1}(XTX)−1的计算,但因为正交性,PC的这一步计算只需要计算对角阵的逆,所以从计算上讲PCA Regression更稳定。PCA Regression的缺陷是PCA是非监督学习,是对特征XXX进行降维的;而我们最终目标是要用XXX对YYY回归,这是一种监督学习,直接把这两步串起来我们没有办法确保特征XXX的PC与YYY之间的dependence与XXX与YYY之间的dependence仍然是完全一致的。
另一种改进多重共线性的方法是Penalized Regression,比如Ridge Regression:
arg minβ1n∑i=1n(yi−xiTβ)2+λ∥β∥22\argmin_{\beta} \frac{1}{n}\sum_{i=1}^n (y_i-x_i^T\beta)^2+\lambda \left\| \beta\right\|^2_2βargminn1i=1∑n(yi−xiTβ)2+λ∥β∥22
这个方法的优点是我们能拿到岭回归估计量的表达式,
β^ridge=(XTX/n+λI)−1XTy\hat \beta_{ridge}=(X^TX/n+\lambda I)^{-1}X^Tyβ^ridge=(XTX/n+λI)−1XTy
即使ppp与nnn接近,因为λI\lambda IλI的存在,计算矩阵的逆时也不会不稳定(不会是non-singular矩阵);需要注意的是岭回归是有偏的,它只能做proportional shrinkage,不能处理sparsity的问题。作为另一种常用的shrinkage estimation,LASSO可以把一些系数shrink到0,因此它能处理sparsity。
arg minβ1n∑i=1n(yi−xiTβ)2+λ∥β∥1\argmin_{\beta} \frac{1}{n}\sum_{i=1}^n (y_i-x_i^T\beta)^2+\lambda \left\| \beta\right\|_1βargminn1i=1∑n(yi−xiTβ)2+λ∥β∥1
它在计算上比岭回归更复杂,但这二十年来,统计学家开发了许多用来计算LASSO,所以现在已经不是个问题了。关于sparsity,通常用的假设是∣{j:βj≠0}∣<<p|\{j:\beta_j \ne 0\}|<<p∣{j:βj=0}∣<<p,但是如果p>np>np>n,并且没有sparsity,那就没有能处理的方法了。
Supervised PCA Regression
综合PCA Regression与Penalized Regression的特点,我们可以设计Supervised PCA Regression,假设XXX是centered design matrix,引入Σ^=XTX/n\hat \Sigma = X^TX/nΣ^=XTX/n,δ^=XTy/n\hat \delta = X^Ty/nδ^=XTy/n,定义
Σ^ρ=Σ^+ρδ^δ^T\hat \Sigma_{\rho}=\hat \Sigma + \rho \hat \delta \hat \delta ^TΣ^ρ=Σ^+ρδ^δ^T
这个值形式上与样本协方差类似,但他包含了feature与label共同的信息,我们提取它的主成分,然后用来做PCA,这就是Supervised PCA Regression。如果ρ→0\rho \to 0ρ→0,这就是一个PCA regression,如果ρ→∞\rho \to \inftyρ→∞,这就是一个marginal regression。Marginal Regression的含义是分别对每一个feature做一元回归:
y1=x1β1+ϵ1y2=x2β2+ϵ2⋯yp=xpβp+ϵpy_1 = x_1\beta_1+\epsilon_1 \\ y_2 = x_2 \beta_2 + \epsilon_2 \\ \cdots \\ y_p=x_p\beta_p+\epsilon_py1=x1β1+ϵ1y2=x2β2+ϵ2⋯yp=xpβp+ϵp
这种模型在variable screening中有一些应用,并且在需要初值的迭代算法中可以作为系数的初始值。
下面我们再介绍一些Supervised PCA Regression的特点。假设
Σ=EXTX,δ=EXTy\Sigma=EX^TX,\delta = EX^TyΣ=EXTX,δ=EXTy
则
β=Σ−1δ\beta = \Sigma^{-1}\deltaβ=Σ−1δ
如果Σ\SigmaΣ的特征值为λ1≥⋯≥λk>λk+1=⋯=λd\lambda_1 \ge \cdots \ge \lambda_k > \lambda_{k+1}=\cdots = \lambda_dλ1≥⋯≥λk>λk+1=⋯=λd,那么做谱分解
Σ=∑i=1k(λi−λd)ξiξiT+λdId\Sigma = \sum_{i=1}^k(\lambda_i - \lambda_d)\xi_i\xi_i^T+\lambda_d I_dΣ=i=1∑k(λi−λd)ξiξiT+λdId
根据Σ−1Σ=Id\Sigma^{-1}\Sigma=I_dΣ−1Σ=Id,我们可以得到∃ai,a0\exists a_i,a_0∃ai,a0,
Σ−1=∑i=1kaiξiξiT+a0Id\Sigma^{-1} = \sum_{i=1}^k a_i \xi_i\xi_i^T+a_0I_dΣ−1=i=1∑kaiξiξiT+a0Id
于是
β=Σ−1δ=∑i=1kai(ξiTδ)ξi+λdδ∈span(ξ1,⋯,ξk,δ)\beta = \Sigma^{-1}\delta=\sum_{i=1}^ka_i(\xi_i^T\delta)\xi_i+\lambda_d \delta \in span(\xi_1,\cdots,\xi_k,\delta)β=Σ−1δ=i=1∑kai(ξiTδ)ξi+λdδ∈span(ξ1,⋯,ξk,δ)
而Σρ=Σ+ρδδT\Sigma_{\rho}=\Sigma+\rho \delta \delta^TΣρ=Σ+ρδδT的前k+1k+1k+1个主成分张成的子空间就是span(ξ1,⋯,ξk,δ)span(\xi_1,\cdots,\xi_k,\delta)span(ξ1,⋯,ξk,δ),这说明用Σρ\Sigma_{\rho}Σρ的前k+1k+1k+1个主成分对特征空间进行降维是不存在信息损失的。而Davis-Kahan定理又能保证Σ^ρ\hat \Sigma_{\rho}Σ^ρ与Σρ\Sigma_{\rho}Σρ是足够接近的,所以在以上的理论分析支撑下,我们可以认可Supervised PCA Regression。但关于这个模型的统计理论还有一些问题需要解决:
- Supervised PCA Regression系数估计量的统计性质;
- 关于特征值的假设λ1≥⋯≥λk>λk+1=⋯=λd\lambda_1 \ge \cdots \ge \lambda_k > \lambda_{k+1}=\cdots = \lambda_dλ1≥⋯≥λk>λk+1=⋯=λd,如果不成立是否还有降维没有信息损失的性质?
UA MATH567 高维统计 专题1 Supervised PCA Regression概述相关推荐
- UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介
UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介 Stochastic Gradient Descent的思想 Varian ...
- UA MATH567 高维统计专题3 含L1-norm的凸优化4 Nesterov方法与Accelerate Proximal Gradient
UA MATH567 高维统计专题3 含L1-norm的凸优化4 一阶方法的加速 Nesterov方法 Accelerate Proximal Gradient (APG) 梯度下降与Proximal ...
- UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient Descent
UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient Descent Proximal Gradient Descent的公式推导 Proximal O ...
- UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP
UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP Low-rank matrix completion的模型是rank minimization,上一讲我们介绍了 ...
- UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm
UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm 上一讲我们已经提到了用rank-minimization对参数矩阵进 ...
- UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Matrix Completion简介
UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Low-rank Matrix简介 例 在推荐系统中,Netflix data是非常经典的数据集.考虑它的电影评分数据,用矩阵的每 ...
- UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性
UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性 Prediction Error Variable Selection Consistency Pred ...
- UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差
UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差 上一讲我们推导了noisy setting下LASSO估计误差的阶O(slogd/n)O(\sqrt{s ...
- UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差
UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差 Signal Recovery Noisy Setting LASSO的估计误差 Signal Recovery Noi ...
最新文章
- EMAIL发送系统(C#+基于SMTP认证) 2.0
- 13-Introduction to security
- C语言多种方法实现同一个功能
- 网易云的朋友给我这份339页的Android面经,持续更新中
- 大名鼎鼎的电影胶片滤镜--DxO FilmPack 5 mac
- 区块链JAVA数字交易所官方商业版开发级全套三端纯源码
- jquery操作表格
- 天猫标的就是虚价,果然败家节啊
- iOS版本更新的方法
- 全局拉普拉斯平滑之(1)Strucutre extraction from texture via relative total variation及稀疏矩阵求解
- 『PyTorch x TensorFlow』第六弹_从最小二乘法看自动求导
- USB(UVC协议)摄像头
- python全栈开发工程师_Python Web全栈开发工程师修炼之路
- windows域与工作组概念
- 字符图形自动生成(C语言)
- 从全息投影到全息平台,必须克服7个障碍
- Matlab系列教程_基础知识_绘图(一)
- 无法将类中的构造器应用到给定类型
- python绘制决策树图片
- 上课签到 php,福建一高校学生上课需刷脸签到 被赞高大上