UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差

Signal Recovery Noisy Setting
LASSO的估计误差

Signal Recovery Noisy Setting

前四讲算是把无噪声的情况讨论得差不多了，这一讲开始我们讨论含噪声的稀疏信号恢复问题。假设observations是
y=Ax∗+wy=Ax^*+wy=Ax∗+w

其中A∈Rn×dA \in \mathbb{R^{n \times d}}A∈Rn×d是design matrix，x∗∈Rdx^* \in \mathbb{R}^dx∗∈Rd是true signal，www是noise；现在的问题是我们知道yyy和AAA，想要得到真实信号的一个估计量x^\hat xx^；关于这个问题有三种等价的分析框架：

Penalized Least Square
min⁡x12n∥y−Ax∥22+λnϕ(x)\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2+\lambda_n\phi(x)xmin 2n1∥y−Ax∥22+λnϕ(x)

其中λn\lambda_nλn是regularization parameter，ϕ(x)\phi(x)ϕ(x)是penalty function，12n∥y−Ax∥22\frac{1}{2n}\left\| y -Ax \right\|_2^22n1∥y−Ax∥22是least square loss：

ϕ(x)=∥x∥1\phi(x)=\left\| x \right\|_1ϕ(x)=∥x∥1: LASSO
ϕ(x)=∥x∥2\phi(x)=\left\| x \right\|_2ϕ(x)=∥x∥2: Ridge regression
ϕ(x)=η∥x∥1+(1−η)∥x∥2\phi(x)=\eta \left\| x\right\|_1+(1-\eta)\left\| x\right\|_2ϕ(x)=η∥x∥1+(1−η)∥x∥2: Elastic net

此外还有adaptive lasso, adaptive elastic net, SCAD (smoothly clipped absolute deviations), MCP (minimax concave penalty)等一系列通过设计penalty function得到能实现不同目的的penalized least square模型；

Constraint Least Square
min⁡x12n∥y−Ax∥22s.t.ϕ(x)≤R\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \phi(x) \le Rxmin 2n1∥y−Ax∥22s.t. ϕ(x)≤R

这与Penalized Least Square是完全等价的。

Relaxed Basis Pursuit或者Basis Pursuit Denoising

min⁡xϕ(x)s.t.12n∥y−Ax∥22≤b2\min_x \ \ \phi(x) \\ s.t. \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \le b^2xmin ϕ(x)s.t. 2n1∥y−Ax∥22≤b2

这种一般在EECS的文献中比较常见，统计学一般用前两种（主要是第一种）框架。

LASSO的估计误差

在noisy setting下，full recovery自然是不可能的了，但我们希望估计误差∥x^−x∗∥\left\| \hat x - x^*\right\|∥x^−x∗∥尽可能小，下面我们讨论一下LASSO估计误差的下界。

在第二讲推导L1L_1L1-minimization时，为了构造L0L_0L0-norm的scale-invariant性质，我们引入了一个凸锥
C(S)={Rd:∥ΔSC∥1≤∥ΔS∥1}C(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1\}C(S)={Rd:∥ΔSC∥1≤∥ΔS∥1}

其中S⊂{1,2,⋯,d}S \subset \{1,2,\cdots,d\}S⊂{1,2,⋯,d}是一个指标集；在讨论LASSO估计量时，我们需要再对这个凸锥做一点修正，考虑到LASSO估计量的特点是L1L_1L1-norm作为penalty提供sparse solution，没有被shrink to zero的那些observation会被proportional shrink，据此我们引入一个新的凸锥
Cα(S)={Rd:∥ΔSC∥1≤α∥ΔS∥1}C_{\alpha}(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \alpha \left\| \Delta_{S} \right\|_1\}Cα(S)={Rd:∥ΔSC∥1≤α∥ΔS∥1}

Restricted Eigenvalue Condition
称design matrix AAA满足Restricted Eigenvalue Condition over index set SSS with parameter (κ,α)(\kappa,\alpha)(κ,α)如果
1n∥AΔ∥22≥κ∥Δ∥22,∀Δ∈Cα(S)\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2,\forall \Delta \in C_{\alpha}(S)n1∥AΔ∥22≥κ∥Δ∥22,∀Δ∈Cα(S)

通常将这个条件简单记为RE(κ,α)RE(\kappa,\alpha)RE(κ,α)。

评注
如果κ>0\kappa>0κ>0，则RE(κ,α)RE(\kappa,\alpha)RE(κ,α)说明
1n∥AΔ∥22≥κ∥Δ∥22>0,∀Δ∈Cα(S)∖{0}\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2>0,\forall \Delta \in C_{\alpha}(S) \setminus \{0\}n1∥AΔ∥22≥κ∥Δ∥22>0,∀Δ∈Cα(S)∖{0}

这说明
C1(S)∩Null(A)={0}C_{1}(S) \cap Null(A) = \{0\}C1(S)∩Null(A)={0}

也就是Restricted Null Property成立。

定理如果supp(x∗)=Ssupp(x^*)=Ssupp(x∗)=S，∣S∣=s|S|=s∣S∣=s，AAA满足RE(κ,α)RE(\kappa,\alpha)RE(κ,α) over SSS:

在Penalized Least Square形式的LASSO中，如果λn≥2∥ATwn∥∞\lambda_n \ge 2 \left\| \frac{A^Tw}{n}\right\|_{\infty}λn≥2∥∥∥∥nATw∥∥∥∥∞则∥x^−x∗∥2≤3κsλn\left\| \hat x-x^* \right\|_2 \le \frac{3}{\kappa}\sqrt{s}\lambda_n∥x^−x∗∥2≤κ3sλn因此最小的上界为6κs∥ATwn∥∞\frac{6}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}κ6s∥∥∥nATw∥∥∥∞
在Constraint Least Square形式的LASSO中，如果R=∥x∗∥1R=\left\| x^*\right\|_1R=∥x∗∥1，则∥x^−x∗∥2≤4κs∥ATwn∥∞\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}∥x^−x∗∥2≤κ4s∥∥∥∥nATw∥∥∥∥∞
在Relaxed Basis Pursuit形式的LASSO中，如果b2≥∥w∥222nb^2 \ge \frac{\left\| w \right\|_2^2}{2n}b2≥2n∥w∥22，则∥x^−x∗∥2≤4κsλn∥ATwn∥∞+2κb2−∥w∥222n\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s}\lambda_n \left\| \frac{A^Tw}{n}\right\|_{\infty}+\frac{2}{\sqrt{\kappa}}\sqrt{b^2-\frac{\left\| w\right\|_2^2}{2n}}∥x^−x∗∥2≤κ4sλn∥∥∥∥nATw∥∥∥∥∞+κ2b2−2n∥w∥22因此，当b2=∥w∥222nb^2 = \frac{\left\| w \right\|_2^2}{2n}b2=2n∥w∥22时，上界最小，为4κs∥ATwn∥∞\frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}κ4s∥∥∥nATw∥∥∥∞；

评注
从上面这几个结果来看，κ\kappaκ越大（restricted eigenvalue condition越严格），sss越小（信号越系数），估计量的误差就越小；另外，上界的大小主要由∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}∥∥∥nATw∥∥∥∞决定，其中www是noise term；如果AAA是固定的，w∼iidN(0,σ2)w \sim_{iid} N(0,\sigma^2)w∼iidN(0,σ2)，假设（标准化design matrix的列向量）
∥Aj∥2n=1\frac{\left\|A_j \right\|_2}{n}=1n∥Aj∥2=1

且AAA满足RE(κ,α)RE(\kappa,\alpha)RE(κ,α)，则
ATwn∼N(0,ATAn2σ2)\frac{A^Tw}{n} \sim N(0,\frac{A^TA}{n^2}\sigma^2)nATw∼N(0,n2ATAσ2)

ATwn\frac{A^Tw}{n}nATw中每个元素的边缘分布为N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n)，因此ATwn\frac{A^Tw}{n}nATw的L∞L_{\infty}L∞-norm其实就是ddd个N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n)的最大值；根据UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用：拐点侦测的统计量及假设检验中介绍的最大值的概率不等式，
P(∥ATwn∥∞≥σ(2log⁡dn+δ))≤2e−nδ22P(\left\| \frac{A^Tw}{n}\right\|_{\infty} \ge \sigma(\sqrt{\frac{2 \log d}{n}}+\delta)) \le 2e^{-\frac{n\delta^2}{2}}P(∥∥∥∥nATw∥∥∥∥∞≥σ(n2logd+δ))≤2e−2nδ2

取1n≲δ\frac{1}{\sqrt{n}} \lesssim \deltan1≲δ，则nδ2→∞n\delta^2 \to \inftynδ2→∞，从而以上概率的上界为0，这说明∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}∥∥∥nATw∥∥∥∞依概率1满足
∥ATwn∥∞=O(slog⁡dn)\left\| \frac{A^Tw}{n}\right\|_{\infty} =O(\sqrt{\frac{s\log d}{n}})∥∥∥∥nATw∥∥∥∥∞=O(nslogd)

这是一个非常重要的结果，这时到目前为止的Frequentist Optimality；

证明第二条结论
考虑
min⁡x12n∥y−Ax∥22s.t.∥x∥1≤R=∥x∗∥1\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \left\| x\right\|_1 \le R=\left\|x^* \right\|_1xmin 2n1∥y−Ax∥22s.t. ∥x∥1≤R=∥x∗∥1

根据Cauchy不等式
∥AΔ∥22n≤2wTAΔn≤2∥ATwn∥∞∥Δ∥1\frac{ \left\|A\Delta \right\|_2^2}{n} \le \frac{2w^TA\Delta}{n} \le 2\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1n∥AΔ∥22≤n2wTAΔ≤2∥∥∥∥nATw∥∥∥∥∞∥Δ∥1

下面我们说明Δ∈C1(S)⊂C3(S)\Delta \in C_1(S) \subset C_3(S)Δ∈C1(S)⊂C3(S)：因为x∗x^*x∗是true signal，所以
∥xS∗∥=∥x∗∥1=R≥∥x^∥1=∥x∗+Δ∥1=∥xS∗+ΔS∥1+∥ΔSC∥1≥∥xS∗∥−∥ΔS∥1+∥ΔSC∥1\left\| x^*_S \right\| = \left\|x^* \right\|_1=R \ge \left\| \hat x\right\|_1 = \left\| x^*+\Delta\right\|_1 \\= \left\| x^*_S+\Delta_S\right\|_1+\left\| \Delta_{S^C} \right\|_1 \ge \left\| x^*_S \right\|-\left\| \Delta_{S} \right\|_1+\left\| \Delta_{S^C} \right\|_1∥xS∗∥=∥x∗∥1=R≥∥x^∥1=∥x∗+Δ∥1=∥xS∗+ΔS∥1+∥ΔSC∥1≥∥xS∗∥−∥ΔS∥1+∥ΔSC∥1

所以
∥ΔSC∥1≤∥ΔS∥1\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1∥ΔSC∥1≤∥ΔS∥1

也就是说Δ∈C1(S)\Delta \in C_1(S)Δ∈C1(S)；根据RE(κ,1)RE(\kappa,1)RE(κ,1)，
∥Δ∥22≤1nκ∥AΔ∥22≤2κ∥ATwn∥∞∥Δ∥1\left\| \Delta \right\|_2^2 \le \frac{1}{n\kappa}\left\| A \Delta\right\|_2^2 \le \frac{2}{\kappa}\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1 ∥Δ∥22≤nκ1∥AΔ∥22≤κ2∥∥∥∥nATw∥∥∥∥∞∥Δ∥1

其中
∥Δ∥1=∥ΔS∥1+∥ΔSC∥1≤2∥ΔS∥1≤2s∥ΔS∥2\left\| \Delta \right\|_1=\left\| \Delta_S \right\|_1+\left\| \Delta_{S^C} \right\|_1 \le 2\left\| \Delta_S \right\|_1 \le 2 \sqrt{s}\left\| \Delta_S \right\|_2∥Δ∥1=∥ΔS∥1+∥ΔSC∥1≤2∥ΔS∥1≤2s∥ΔS∥2

代入上式中可得
∥Δ∥2≤4κs∥ATwn∥∞\left\| \Delta \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}∥Δ∥2≤κ4s∥∥∥∥nATw∥∥∥∥∞

，