UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差
UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差
- Signal Recovery Noisy Setting
- LASSO的估计误差
Signal Recovery Noisy Setting
前四讲算是把无噪声的情况讨论得差不多了,这一讲开始我们讨论含噪声的稀疏信号恢复问题。假设observations是
y=Ax∗+wy=Ax^*+wy=Ax∗+w
其中A∈Rn×dA \in \mathbb{R^{n \times d}}A∈Rn×d是design matrix,x∗∈Rdx^* \in \mathbb{R}^dx∗∈Rd是true signal,www是noise;现在的问题是我们知道yyy和AAA,想要得到真实信号的一个估计量x^\hat xx^;关于这个问题有三种等价的分析框架:
Penalized Least Square
minx12n∥y−Ax∥22+λnϕ(x)\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2+\lambda_n\phi(x)xmin 2n1∥y−Ax∥22+λnϕ(x)
其中λn\lambda_nλn是regularization parameter,ϕ(x)\phi(x)ϕ(x)是penalty function,12n∥y−Ax∥22\frac{1}{2n}\left\| y -Ax \right\|_2^22n1∥y−Ax∥22是least square loss:
- ϕ(x)=∥x∥1\phi(x)=\left\| x \right\|_1ϕ(x)=∥x∥1: LASSO
- ϕ(x)=∥x∥2\phi(x)=\left\| x \right\|_2ϕ(x)=∥x∥2: Ridge regression
- ϕ(x)=η∥x∥1+(1−η)∥x∥2\phi(x)=\eta \left\| x\right\|_1+(1-\eta)\left\| x\right\|_2ϕ(x)=η∥x∥1+(1−η)∥x∥2: Elastic net
此外还有adaptive lasso, adaptive elastic net, SCAD (smoothly clipped absolute deviations), MCP (minimax concave penalty)等一系列通过设计penalty function得到能实现不同目的的penalized least square模型;
Constraint Least Square
minx12n∥y−Ax∥22s.t.ϕ(x)≤R\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \phi(x) \le Rxmin 2n1∥y−Ax∥22s.t. ϕ(x)≤R
这与Penalized Least Square是完全等价的。
Relaxed Basis Pursuit或者Basis Pursuit Denoising
minxϕ(x)s.t.12n∥y−Ax∥22≤b2\min_x \ \ \phi(x) \\ s.t. \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \le b^2xmin ϕ(x)s.t. 2n1∥y−Ax∥22≤b2
这种一般在EECS的文献中比较常见,统计学一般用前两种(主要是第一种)框架。
LASSO的估计误差
在noisy setting下,full recovery自然是不可能的了,但我们希望估计误差∥x^−x∗∥\left\| \hat x - x^*\right\|∥x^−x∗∥尽可能小,下面我们讨论一下LASSO估计误差的下界。
在第二讲推导L1L_1L1-minimization时,为了构造L0L_0L0-norm的scale-invariant性质,我们引入了一个凸锥
C(S)={Rd:∥ΔSC∥1≤∥ΔS∥1}C(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1\}C(S)={Rd:∥ΔSC∥1≤∥ΔS∥1}
其中S⊂{1,2,⋯,d}S \subset \{1,2,\cdots,d\}S⊂{1,2,⋯,d}是一个指标集;在讨论LASSO估计量时,我们需要再对这个凸锥做一点修正,考虑到LASSO估计量的特点是L1L_1L1-norm作为penalty提供sparse solution,没有被shrink to zero的那些observation会被proportional shrink,据此我们引入一个新的凸锥
Cα(S)={Rd:∥ΔSC∥1≤α∥ΔS∥1}C_{\alpha}(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \alpha \left\| \Delta_{S} \right\|_1\}Cα(S)={Rd:∥ΔSC∥1≤α∥ΔS∥1}
Restricted Eigenvalue Condition
称design matrix AAA满足Restricted Eigenvalue Condition over index set SSS with parameter (κ,α)(\kappa,\alpha)(κ,α)如果
1n∥AΔ∥22≥κ∥Δ∥22,∀Δ∈Cα(S)\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2,\forall \Delta \in C_{\alpha}(S)n1∥AΔ∥22≥κ∥Δ∥22,∀Δ∈Cα(S)
通常将这个条件简单记为RE(κ,α)RE(\kappa,\alpha)RE(κ,α)。
评注
如果κ>0\kappa>0κ>0,则RE(κ,α)RE(\kappa,\alpha)RE(κ,α)说明
1n∥AΔ∥22≥κ∥Δ∥22>0,∀Δ∈Cα(S)∖{0}\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2>0,\forall \Delta \in C_{\alpha}(S) \setminus \{0\}n1∥AΔ∥22≥κ∥Δ∥22>0,∀Δ∈Cα(S)∖{0}
这说明
C1(S)∩Null(A)={0}C_{1}(S) \cap Null(A) = \{0\}C1(S)∩Null(A)={0}
也就是Restricted Null Property成立。
定理 如果supp(x∗)=Ssupp(x^*)=Ssupp(x∗)=S,∣S∣=s|S|=s∣S∣=s,AAA满足RE(κ,α)RE(\kappa,\alpha)RE(κ,α) over SSS:
- 在Penalized Least Square形式的LASSO中,如果λn≥2∥ATwn∥∞\lambda_n \ge 2 \left\| \frac{A^Tw}{n}\right\|_{\infty}λn≥2∥∥∥∥nATw∥∥∥∥∞则∥x^−x∗∥2≤3κsλn\left\| \hat x-x^* \right\|_2 \le \frac{3}{\kappa}\sqrt{s}\lambda_n∥x^−x∗∥2≤κ3sλn因此最小的上界为6κs∥ATwn∥∞\frac{6}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}κ6s∥∥∥nATw∥∥∥∞
- 在Constraint Least Square形式的LASSO中,如果R=∥x∗∥1R=\left\| x^*\right\|_1R=∥x∗∥1,则∥x^−x∗∥2≤4κs∥ATwn∥∞\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}∥x^−x∗∥2≤κ4s∥∥∥∥nATw∥∥∥∥∞
- 在Relaxed Basis Pursuit形式的LASSO中,如果b2≥∥w∥222nb^2 \ge \frac{\left\| w \right\|_2^2}{2n}b2≥2n∥w∥22,则∥x^−x∗∥2≤4κsλn∥ATwn∥∞+2κb2−∥w∥222n\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s}\lambda_n \left\| \frac{A^Tw}{n}\right\|_{\infty}+\frac{2}{\sqrt{\kappa}}\sqrt{b^2-\frac{\left\| w\right\|_2^2}{2n}}∥x^−x∗∥2≤κ4sλn∥∥∥∥nATw∥∥∥∥∞+κ2b2−2n∥w∥22因此,当b2=∥w∥222nb^2 = \frac{\left\| w \right\|_2^2}{2n}b2=2n∥w∥22时,上界最小,为4κs∥ATwn∥∞\frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}κ4s∥∥∥nATw∥∥∥∞;
评注
从上面这几个结果来看,κ\kappaκ越大(restricted eigenvalue condition越严格),sss越小(信号越系数),估计量的误差就越小;另外,上界的大小主要由∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}∥∥∥nATw∥∥∥∞决定,其中www是noise term;如果AAA是固定的,w∼iidN(0,σ2)w \sim_{iid} N(0,\sigma^2)w∼iidN(0,σ2),假设(标准化design matrix的列向量)
∥Aj∥2n=1\frac{\left\|A_j \right\|_2}{n}=1n∥Aj∥2=1
且AAA满足RE(κ,α)RE(\kappa,\alpha)RE(κ,α),则
ATwn∼N(0,ATAn2σ2)\frac{A^Tw}{n} \sim N(0,\frac{A^TA}{n^2}\sigma^2)nATw∼N(0,n2ATAσ2)
ATwn\frac{A^Tw}{n}nATw中每个元素的边缘分布为N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n),因此ATwn\frac{A^Tw}{n}nATw的L∞L_{\infty}L∞-norm其实就是ddd个N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n)的最大值;根据UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用:拐点侦测的统计量及假设检验中介绍的最大值的概率不等式,
P(∥ATwn∥∞≥σ(2logdn+δ))≤2e−nδ22P(\left\| \frac{A^Tw}{n}\right\|_{\infty} \ge \sigma(\sqrt{\frac{2 \log d}{n}}+\delta)) \le 2e^{-\frac{n\delta^2}{2}}P(∥∥∥∥nATw∥∥∥∥∞≥σ(n2logd+δ))≤2e−2nδ2
取1n≲δ\frac{1}{\sqrt{n}} \lesssim \deltan1≲δ,则nδ2→∞n\delta^2 \to \inftynδ2→∞,从而以上概率的上界为0,这说明∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}∥∥∥nATw∥∥∥∞依概率1满足
∥ATwn∥∞=O(slogdn)\left\| \frac{A^Tw}{n}\right\|_{\infty} =O(\sqrt{\frac{s\log d}{n}})∥∥∥∥nATw∥∥∥∥∞=O(nslogd)
这是一个非常重要的结果,这时到目前为止的Frequentist Optimality;
证明第二条结论
考虑
minx12n∥y−Ax∥22s.t.∥x∥1≤R=∥x∗∥1\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \left\| x\right\|_1 \le R=\left\|x^* \right\|_1xmin 2n1∥y−Ax∥22s.t. ∥x∥1≤R=∥x∗∥1
假设θ^\hat \thetaθ^是它的解,x∗x^*x∗是true signal,定义Δ=x^−x∗\Delta=\hat x - x^*Δ=x^−x∗;根据解的定义,
∥y−Ax^∥22≤∥y−Ax∗∥22∥Ax∗+w−Ax^∥22≤∥w∥22∥w−AΔ∥22≤∥w∥22∥w∥22+∥AΔ∥22−2wTAΔ≤∥w∥22∥AΔ∥22≤2wTAΔ\left\| y -A\hat x \right\|_2^2 \le \left\| y -Ax^* \right\|_2^2 \\ \left\| Ax^* +w-A\hat x \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w-A\Delta \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w \right\|_2^2 +\left\|A\Delta \right\|_2^2-2w^TA\Delta \le \left\|w \right\|_2^2 \\ \left\|A\Delta \right\|_2^2 \le 2w^TA\Delta∥y−Ax^∥22≤∥y−Ax∗∥22∥Ax∗+w−Ax^∥22≤∥w∥22∥w−AΔ∥22≤∥w∥22∥w∥22+∥AΔ∥22−2wTAΔ≤∥w∥22∥AΔ∥22≤2wTAΔ
根据Cauchy不等式
∥AΔ∥22n≤2wTAΔn≤2∥ATwn∥∞∥Δ∥1\frac{ \left\|A\Delta \right\|_2^2}{n} \le \frac{2w^TA\Delta}{n} \le 2\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1n∥AΔ∥22≤n2wTAΔ≤2∥∥∥∥nATw∥∥∥∥∞∥Δ∥1
下面我们说明Δ∈C1(S)⊂C3(S)\Delta \in C_1(S) \subset C_3(S)Δ∈C1(S)⊂C3(S):因为x∗x^*x∗是true signal,所以
∥xS∗∥=∥x∗∥1=R≥∥x^∥1=∥x∗+Δ∥1=∥xS∗+ΔS∥1+∥ΔSC∥1≥∥xS∗∥−∥ΔS∥1+∥ΔSC∥1\left\| x^*_S \right\| = \left\|x^* \right\|_1=R \ge \left\| \hat x\right\|_1 = \left\| x^*+\Delta\right\|_1 \\= \left\| x^*_S+\Delta_S\right\|_1+\left\| \Delta_{S^C} \right\|_1 \ge \left\| x^*_S \right\|-\left\| \Delta_{S} \right\|_1+\left\| \Delta_{S^C} \right\|_1∥xS∗∥=∥x∗∥1=R≥∥x^∥1=∥x∗+Δ∥1=∥xS∗+ΔS∥1+∥ΔSC∥1≥∥xS∗∥−∥ΔS∥1+∥ΔSC∥1
所以
∥ΔSC∥1≤∥ΔS∥1\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1∥ΔSC∥1≤∥ΔS∥1
也就是说Δ∈C1(S)\Delta \in C_1(S)Δ∈C1(S);根据RE(κ,1)RE(\kappa,1)RE(κ,1),
∥Δ∥22≤1nκ∥AΔ∥22≤2κ∥ATwn∥∞∥Δ∥1\left\| \Delta \right\|_2^2 \le \frac{1}{n\kappa}\left\| A \Delta\right\|_2^2 \le \frac{2}{\kappa}\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1 ∥Δ∥22≤nκ1∥AΔ∥22≤κ2∥∥∥∥nATw∥∥∥∥∞∥Δ∥1
其中
∥Δ∥1=∥ΔS∥1+∥ΔSC∥1≤2∥ΔS∥1≤2s∥ΔS∥2\left\| \Delta \right\|_1=\left\| \Delta_S \right\|_1+\left\| \Delta_{S^C} \right\|_1 \le 2\left\| \Delta_S \right\|_1 \le 2 \sqrt{s}\left\| \Delta_S \right\|_2∥Δ∥1=∥ΔS∥1+∥ΔSC∥1≤2∥ΔS∥1≤2s∥ΔS∥2
代入上式中可得
∥Δ∥2≤4κs∥ATwn∥∞\left\| \Delta \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}∥Δ∥2≤κ4s∥∥∥∥nATw∥∥∥∥∞
,
UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差相关推荐
- UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性
UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性 Prediction Error Variable Selection Consistency Pred ...
- UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差
UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差 上一讲我们推导了noisy setting下LASSO估计误差的阶O(slogd/n)O(\sqrt{s ...
- UA MATH567 高维统计专题1 稀疏信号及其恢复4 Basis Pursuit的算法 Projected Gradient Descent
UA MATH567 高维统计专题1 稀疏信号及其恢复4 Basis Pursuit的算法 Projected Gradient Descent 前三讲完成了对sparse signal recove ...
- UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介
UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介 Pairwise inc oherence Mutual Coherence RIP 前两讲介绍了L0-min ...
- UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation
UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation L1L_1L1-norm minimization L1L_1L1 ...
- UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimization
UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimization L0L^0L0-norm L0L_0L0-norm minimization Exhaustive ...
- UA MATH567 高维统计 专题0 为什么需要高维统计理论?——理解稀疏向量与hard-threshold
UA MATH567 高维统计 专题0 为什么需要高维统计理论?--理解稀疏向量与hard-threshold 稀疏向量的soft-threshold与hard-threshold近似 引入hard- ...
- UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设
UA MATH567 高维统计 专题0 为什么需要高维统计理论?--高维统计理论的常用假设 延续前三讲对线性判别分析的讨论,在高维时,根据中心极限定理 n(Xˉ−μ)→dN(0,Id)\sqrt{n} ...
- UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介
UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介 Stochastic Gradient Descent的思想 Varian ...
最新文章
- oracle如何降低逻辑读,如何降低该SQL的逻辑读
- ASP.NET MVC笔记
- rxjs里使用from operator从一个generator里生成Observable
- 测试linux nginx,linux系统肿么检测安装了nginx
- oracle基础授权,Oracle基础学习3--Oracle创建用户并授权
- 3d怎么把两个面拼接在一起_vr全景看房用什么软件做的?3D看房是怎么拍摄的?...
- 小甲鱼Python第二十二讲课后习题
- 把字母排序ASC表c语言,c语言ASCII码排序
- CompoundButton
- 免费而强大的十款PCB设计软件
- 图解项目绩效考核表实例--绩效考核不用愁
- BigDecimal类型加减乘除运算(Java必备知识)
- MapBox使用之路线规划
- QT中使用以管理员权限启动一个进程
- C++的模糊查找的实现(简版)
- 完美实现苹果轮廓检测opencv-python检测图像轮廓处理
- duilib适配高分屏(高DPI适配)
- 【UE4 005】自定义人物角色(Charactor) 替换小白人
- 工业智能网关BL110应用之60:如何实现智能楼宇控制BACnet 接入阿里云平台
- js将数字金额转换为大写人民币
热门文章
- 单射(或称单变换)、双射与满射
- js 获取地址栏参数
- 求最大连续子序列和——解法1 – 暴力出奇迹||解法2 – 分治
- explain 之 select_type
- Optimize Search Results
- Docker selenium自动化 - windows版docker的安装与运行环境检测
- Keil编译出现sct(7): error: L6236E: No section matches selector - no section to be FIRST/LAST.报错的解决方法
- 单片机模块学习之数码管
- CTFshow 反序列化 web277
- linux platform匹配机制,Linux驱动中的platform总线详解