UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差

  • Signal Recovery Noisy Setting
  • LASSO的估计误差

Signal Recovery Noisy Setting

前四讲算是把无噪声的情况讨论得差不多了,这一讲开始我们讨论含噪声的稀疏信号恢复问题。假设observations是
y=Ax∗+wy=Ax^*+wy=Ax∗+w

其中A∈Rn×dA \in \mathbb{R^{n \times d}}A∈Rn×d是design matrix,x∗∈Rdx^* \in \mathbb{R}^dx∗∈Rd是true signal,www是noise;现在的问题是我们知道yyy和AAA,想要得到真实信号的一个估计量x^\hat xx^;关于这个问题有三种等价的分析框架:

Penalized Least Square
min⁡x12n∥y−Ax∥22+λnϕ(x)\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2+\lambda_n\phi(x)xmin​  2n1​∥y−Ax∥22​+λn​ϕ(x)

其中λn\lambda_nλn​是regularization parameter,ϕ(x)\phi(x)ϕ(x)是penalty function,12n∥y−Ax∥22\frac{1}{2n}\left\| y -Ax \right\|_2^22n1​∥y−Ax∥22​是least square loss:

  1. ϕ(x)=∥x∥1\phi(x)=\left\| x \right\|_1ϕ(x)=∥x∥1​: LASSO
  2. ϕ(x)=∥x∥2\phi(x)=\left\| x \right\|_2ϕ(x)=∥x∥2​: Ridge regression
  3. ϕ(x)=η∥x∥1+(1−η)∥x∥2\phi(x)=\eta \left\| x\right\|_1+(1-\eta)\left\| x\right\|_2ϕ(x)=η∥x∥1​+(1−η)∥x∥2​: Elastic net

此外还有adaptive lasso, adaptive elastic net, SCAD (smoothly clipped absolute deviations), MCP (minimax concave penalty)等一系列通过设计penalty function得到能实现不同目的的penalized least square模型;

Constraint Least Square
min⁡x12n∥y−Ax∥22s.t.ϕ(x)≤R\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \phi(x) \le Rxmin​  2n1​∥y−Ax∥22​s.t.  ϕ(x)≤R

这与Penalized Least Square是完全等价的。

Relaxed Basis Pursuit或者Basis Pursuit Denoising

min⁡xϕ(x)s.t.12n∥y−Ax∥22≤b2\min_x \ \ \phi(x) \\ s.t. \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \le b^2xmin​  ϕ(x)s.t.  2n1​∥y−Ax∥22​≤b2

这种一般在EECS的文献中比较常见,统计学一般用前两种(主要是第一种)框架。


LASSO的估计误差

在noisy setting下,full recovery自然是不可能的了,但我们希望估计误差∥x^−x∗∥\left\| \hat x - x^*\right\|∥x^−x∗∥尽可能小,下面我们讨论一下LASSO估计误差的下界。

在第二讲推导L1L_1L1​-minimization时,为了构造L0L_0L0​-norm的scale-invariant性质,我们引入了一个凸锥
C(S)={Rd:∥ΔSC∥1≤∥ΔS∥1}C(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1\}C(S)={Rd:∥ΔSC​∥1​≤∥ΔS​∥1​}

其中S⊂{1,2,⋯,d}S \subset \{1,2,\cdots,d\}S⊂{1,2,⋯,d}是一个指标集;在讨论LASSO估计量时,我们需要再对这个凸锥做一点修正,考虑到LASSO估计量的特点是L1L_1L1​-norm作为penalty提供sparse solution,没有被shrink to zero的那些observation会被proportional shrink,据此我们引入一个新的凸锥
Cα(S)={Rd:∥ΔSC∥1≤α∥ΔS∥1}C_{\alpha}(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \alpha \left\| \Delta_{S} \right\|_1\}Cα​(S)={Rd:∥ΔSC​∥1​≤α∥ΔS​∥1​}

Restricted Eigenvalue Condition
称design matrix AAA满足Restricted Eigenvalue Condition over index set SSS with parameter (κ,α)(\kappa,\alpha)(κ,α)如果
1n∥AΔ∥22≥κ∥Δ∥22,∀Δ∈Cα(S)\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2,\forall \Delta \in C_{\alpha}(S)n1​∥AΔ∥22​≥κ∥Δ∥22​,∀Δ∈Cα​(S)

通常将这个条件简单记为RE(κ,α)RE(\kappa,\alpha)RE(κ,α)。

评注
如果κ>0\kappa>0κ>0,则RE(κ,α)RE(\kappa,\alpha)RE(κ,α)说明
1n∥AΔ∥22≥κ∥Δ∥22>0,∀Δ∈Cα(S)∖{0}\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2>0,\forall \Delta \in C_{\alpha}(S) \setminus \{0\}n1​∥AΔ∥22​≥κ∥Δ∥22​>0,∀Δ∈Cα​(S)∖{0}

这说明
C1(S)∩Null(A)={0}C_{1}(S) \cap Null(A) = \{0\}C1​(S)∩Null(A)={0}

也就是Restricted Null Property成立。

定理 如果supp(x∗)=Ssupp(x^*)=Ssupp(x∗)=S,∣S∣=s|S|=s∣S∣=s,AAA满足RE(κ,α)RE(\kappa,\alpha)RE(κ,α) over SSS:

  1. 在Penalized Least Square形式的LASSO中,如果λn≥2∥ATwn∥∞\lambda_n \ge 2 \left\| \frac{A^Tw}{n}\right\|_{\infty}λn​≥2∥∥∥∥​nATw​∥∥∥∥​∞​则∥x^−x∗∥2≤3κsλn\left\| \hat x-x^* \right\|_2 \le \frac{3}{\kappa}\sqrt{s}\lambda_n∥x^−x∗∥2​≤κ3​s​λn​因此最小的上界为6κs∥ATwn∥∞\frac{6}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}κ6​s​∥∥∥​nATw​∥∥∥​∞​
  2. 在Constraint Least Square形式的LASSO中,如果R=∥x∗∥1R=\left\| x^*\right\|_1R=∥x∗∥1​,则∥x^−x∗∥2≤4κs∥ATwn∥∞\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}∥x^−x∗∥2​≤κ4​s​∥∥∥∥​nATw​∥∥∥∥​∞​
  3. 在Relaxed Basis Pursuit形式的LASSO中,如果b2≥∥w∥222nb^2 \ge \frac{\left\| w \right\|_2^2}{2n}b2≥2n∥w∥22​​,则∥x^−x∗∥2≤4κsλn∥ATwn∥∞+2κb2−∥w∥222n\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s}\lambda_n \left\| \frac{A^Tw}{n}\right\|_{\infty}+\frac{2}{\sqrt{\kappa}}\sqrt{b^2-\frac{\left\| w\right\|_2^2}{2n}}∥x^−x∗∥2​≤κ4​s​λn​∥∥∥∥​nATw​∥∥∥∥​∞​+κ​2​b2−2n∥w∥22​​​因此,当b2=∥w∥222nb^2 = \frac{\left\| w \right\|_2^2}{2n}b2=2n∥w∥22​​时,上界最小,为4κs∥ATwn∥∞\frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}κ4​s​∥∥∥​nATw​∥∥∥​∞​;

评注
从上面这几个结果来看,κ\kappaκ越大(restricted eigenvalue condition越严格),sss越小(信号越系数),估计量的误差就越小;另外,上界的大小主要由∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}∥∥∥​nATw​∥∥∥​∞​决定,其中www是noise term;如果AAA是固定的,w∼iidN(0,σ2)w \sim_{iid} N(0,\sigma^2)w∼iid​N(0,σ2),假设(标准化design matrix的列向量)
∥Aj∥2n=1\frac{\left\|A_j \right\|_2}{n}=1n∥Aj​∥2​​=1

且AAA满足RE(κ,α)RE(\kappa,\alpha)RE(κ,α),则
ATwn∼N(0,ATAn2σ2)\frac{A^Tw}{n} \sim N(0,\frac{A^TA}{n^2}\sigma^2)nATw​∼N(0,n2ATA​σ2)

ATwn\frac{A^Tw}{n}nATw​中每个元素的边缘分布为N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n),因此ATwn\frac{A^Tw}{n}nATw​的L∞L_{\infty}L∞​-norm其实就是ddd个N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n)的最大值;根据UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用:拐点侦测的统计量及假设检验中介绍的最大值的概率不等式,
P(∥ATwn∥∞≥σ(2log⁡dn+δ))≤2e−nδ22P(\left\| \frac{A^Tw}{n}\right\|_{\infty} \ge \sigma(\sqrt{\frac{2 \log d}{n}}+\delta)) \le 2e^{-\frac{n\delta^2}{2}}P(∥∥∥∥​nATw​∥∥∥∥​∞​≥σ(n2logd​​+δ))≤2e−2nδ2​

取1n≲δ\frac{1}{\sqrt{n}} \lesssim \deltan​1​≲δ,则nδ2→∞n\delta^2 \to \inftynδ2→∞,从而以上概率的上界为0,这说明∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}∥∥∥​nATw​∥∥∥​∞​依概率1满足
∥ATwn∥∞=O(slog⁡dn)\left\| \frac{A^Tw}{n}\right\|_{\infty} =O(\sqrt{\frac{s\log d}{n}})∥∥∥∥​nATw​∥∥∥∥​∞​=O(nslogd​​)

这是一个非常重要的结果,这时到目前为止的Frequentist Optimality;

证明第二条结论
考虑
min⁡x12n∥y−Ax∥22s.t.∥x∥1≤R=∥x∗∥1\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \left\| x\right\|_1 \le R=\left\|x^* \right\|_1xmin​  2n1​∥y−Ax∥22​s.t.  ∥x∥1​≤R=∥x∗∥1​

假设θ^\hat \thetaθ^是它的解,x∗x^*x∗是true signal,定义Δ=x^−x∗\Delta=\hat x - x^*Δ=x^−x∗;根据解的定义,
∥y−Ax^∥22≤∥y−Ax∗∥22∥Ax∗+w−Ax^∥22≤∥w∥22∥w−AΔ∥22≤∥w∥22∥w∥22+∥AΔ∥22−2wTAΔ≤∥w∥22∥AΔ∥22≤2wTAΔ\left\| y -A\hat x \right\|_2^2 \le \left\| y -Ax^* \right\|_2^2 \\ \left\| Ax^* +w-A\hat x \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w-A\Delta \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w \right\|_2^2 +\left\|A\Delta \right\|_2^2-2w^TA\Delta \le \left\|w \right\|_2^2 \\ \left\|A\Delta \right\|_2^2 \le 2w^TA\Delta∥y−Ax^∥22​≤∥y−Ax∗∥22​∥Ax∗+w−Ax^∥22​≤∥w∥22​∥w−AΔ∥22​≤∥w∥22​∥w∥22​+∥AΔ∥22​−2wTAΔ≤∥w∥22​∥AΔ∥22​≤2wTAΔ

根据Cauchy不等式
∥AΔ∥22n≤2wTAΔn≤2∥ATwn∥∞∥Δ∥1\frac{ \left\|A\Delta \right\|_2^2}{n} \le \frac{2w^TA\Delta}{n} \le 2\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1n∥AΔ∥22​​≤n2wTAΔ​≤2∥∥∥∥​nATw​∥∥∥∥​∞​∥Δ∥1​

下面我们说明Δ∈C1(S)⊂C3(S)\Delta \in C_1(S) \subset C_3(S)Δ∈C1​(S)⊂C3​(S):因为x∗x^*x∗是true signal,所以
∥xS∗∥=∥x∗∥1=R≥∥x^∥1=∥x∗+Δ∥1=∥xS∗+ΔS∥1+∥ΔSC∥1≥∥xS∗∥−∥ΔS∥1+∥ΔSC∥1\left\| x^*_S \right\| = \left\|x^* \right\|_1=R \ge \left\| \hat x\right\|_1 = \left\| x^*+\Delta\right\|_1 \\= \left\| x^*_S+\Delta_S\right\|_1+\left\| \Delta_{S^C} \right\|_1 \ge \left\| x^*_S \right\|-\left\| \Delta_{S} \right\|_1+\left\| \Delta_{S^C} \right\|_1∥xS∗​∥=∥x∗∥1​=R≥∥x^∥1​=∥x∗+Δ∥1​=∥xS∗​+ΔS​∥1​+∥ΔSC​∥1​≥∥xS∗​∥−∥ΔS​∥1​+∥ΔSC​∥1​

所以
∥ΔSC∥1≤∥ΔS∥1\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1∥ΔSC​∥1​≤∥ΔS​∥1​

也就是说Δ∈C1(S)\Delta \in C_1(S)Δ∈C1​(S);根据RE(κ,1)RE(\kappa,1)RE(κ,1),
∥Δ∥22≤1nκ∥AΔ∥22≤2κ∥ATwn∥∞∥Δ∥1\left\| \Delta \right\|_2^2 \le \frac{1}{n\kappa}\left\| A \Delta\right\|_2^2 \le \frac{2}{\kappa}\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1 ∥Δ∥22​≤nκ1​∥AΔ∥22​≤κ2​∥∥∥∥​nATw​∥∥∥∥​∞​∥Δ∥1​

其中
∥Δ∥1=∥ΔS∥1+∥ΔSC∥1≤2∥ΔS∥1≤2s∥ΔS∥2\left\| \Delta \right\|_1=\left\| \Delta_S \right\|_1+\left\| \Delta_{S^C} \right\|_1 \le 2\left\| \Delta_S \right\|_1 \le 2 \sqrt{s}\left\| \Delta_S \right\|_2∥Δ∥1​=∥ΔS​∥1​+∥ΔSC​∥1​≤2∥ΔS​∥1​≤2s​∥ΔS​∥2​

代入上式中可得
∥Δ∥2≤4κs∥ATwn∥∞\left\| \Delta \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}∥Δ∥2​≤κ4​s​∥∥∥∥​nATw​∥∥∥∥​∞​

UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差相关推荐

  1. UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性

    UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性 Prediction Error Variable Selection Consistency Pred ...

  2. UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差

    UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差 上一讲我们推导了noisy setting下LASSO估计误差的阶O(slog⁡d/n)O(\sqrt{s ...

  3. UA MATH567 高维统计专题1 稀疏信号及其恢复4 Basis Pursuit的算法 Projected Gradient Descent

    UA MATH567 高维统计专题1 稀疏信号及其恢复4 Basis Pursuit的算法 Projected Gradient Descent 前三讲完成了对sparse signal recove ...

  4. UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介

    UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介 Pairwise inc oherence Mutual Coherence RIP 前两讲介绍了L0-min ...

  5. UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation

    UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation L1L_1L1​-norm minimization L1L_1L1​ ...

  6. UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimization

    UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimization L0L^0L0-norm L0L_0L0​-norm minimization Exhaustive ...

  7. UA MATH567 高维统计 专题0 为什么需要高维统计理论?——理解稀疏向量与hard-threshold

    UA MATH567 高维统计 专题0 为什么需要高维统计理论?--理解稀疏向量与hard-threshold 稀疏向量的soft-threshold与hard-threshold近似 引入hard- ...

  8. UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设

    UA MATH567 高维统计 专题0 为什么需要高维统计理论?--高维统计理论的常用假设 延续前三讲对线性判别分析的讨论,在高维时,根据中心极限定理 n(Xˉ−μ)→dN(0,Id)\sqrt{n} ...

  9. UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介

    UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介 Stochastic Gradient Descent的思想 Varian ...

最新文章

  1. oracle如何降低逻辑读,如何降低该SQL的逻辑读
  2. ASP.NET MVC笔记
  3. rxjs里使用from operator从一个generator里生成Observable
  4. 测试linux nginx,linux系统肿么检测安装了nginx
  5. oracle基础授权,Oracle基础学习3--Oracle创建用户并授权
  6. 3d怎么把两个面拼接在一起_vr全景看房用什么软件做的?3D看房是怎么拍摄的?...
  7. 小甲鱼Python第二十二讲课后习题
  8. 把字母排序ASC表c语言,c语言ASCII码排序
  9. CompoundButton
  10. 免费而强大的十款PCB设计软件
  11. 图解项目绩效考核表实例--绩效考核不用愁
  12. BigDecimal类型加减乘除运算(Java必备知识)
  13. MapBox使用之路线规划
  14. QT中使用以管理员权限启动一个进程
  15. C++的模糊查找的实现(简版)
  16. 完美实现苹果轮廓检测opencv-python检测图像轮廓处理
  17. duilib适配高分屏(高DPI适配)
  18. 【UE4 005】自定义人物角色(Charactor) 替换小白人
  19. 工业智能网关BL110应用之60:如何实现智能楼宇控制BACnet 接入阿里云平台
  20. js将数字金额转换为大写人民币

热门文章

  1. 单射(或称单变换)、双射与满射
  2. js 获取地址栏参数
  3. 求最大连续子序列和——解法1 – 暴力出奇迹||解法2 – 分治
  4. explain 之 select_type
  5. Optimize Search Results
  6. Docker selenium自动化 - windows版docker的安装与运行环境检测
  7. Keil编译出现sct(7): error: L6236E: No section matches selector - no section to be FIRST/LAST.报错的解决方法
  8. 单片机模块学习之数码管
  9. CTFshow 反序列化 web277
  10. linux platform匹配机制,Linux驱动中的platform总线详解