UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation

L1L_1L1-norm minimization
- L1L_1L1-norm是L0L_0L0-norm的凸包络
- L1L_1L1-norm minimization的full recovery

上一讲我们在无噪声的设定下讨论了稀疏信号的恢复，假设yyy是我们对稀疏信号的测量，y=Axoy=Ax_oy=Axo，系数AAA已知，目标是从测量中还原出信号xox_oxo，一种可行的操作是在y=Axy=Axy=Ax的解集中找到最稀疏的向量，以此作为sparse signal的估计，所以要求解的问题是：
min⁡∥x∥0s.t.y=Ax\min \ \ \left\| x\right\|_0 \\ s.t. \ \ y = Axmin ∥x∥0s.t. y=Ax

用Exhaustive Search可以求解这个问题，当xox_oxo足够sparse的时候（∥xo∥0≤12krank(A)\left\| x_o \right\|_0 \le \frac{1}{2}krank(A)∥xo∥0≤21krank(A)），L0L_0L0-norm minimization可以把xox_oxo准确还原出来，其中krank(A)krank(A)krank(A)为矩阵AAA的Kruskal rank，任意krank(A)krank(A)krank(A)个AAA的列向量线性无关，但存在krank(A)+1krank(A)+1krank(A)+1个AAA的列向量线性相关。遗憾的是，L0L_0L0-norm minimization是NP-hard问题，我们无法保证求解L0L_0L0-norm minimization的算法会在多久以后收敛，因此L0L_0L0-norm minimization的实用价值不大。

这一讲我们讨论，既然实践中无法使用L0L_0L0-norm minimization，那能不能设计一些近似的算法，让我们在时间复杂度与近似误差之间有做取舍的余地？

L1L_1L1-norm minimization

可以简单回忆一下，在凸优化中我们讨论过的优化问题的relaxation，因为凸优化是多项式时间复杂度问题，所以我们可以找L0L_0L0-norm minimization的convex relaxation作为它的近似。上一讲我们讨论了LpL_pLp-norm中ppp最小的邻域为凸集的是L1L_1L1-norm，因为ppp越小，邻域中的向量越sparse，所以我们有理由相信，L1L_1L1-norm minimization是L0L_0L0-norm minimization的一种优秀convex relaxation。同样考虑无噪声的情况：

min⁡∥x∥1=∑i=1n∣xi∣s.t.y=Ax\min \ \ \left\| x\right\|_1 = \sum_{i=1}^n |x_i| \\ s.t. \ \ y = Axmin ∥x∥1=i=1∑n∣xi∣s.t. y=Ax

我们称这个问题为basis pursuit。

L1L_1L1-norm是L0L_0L0-norm的凸包络

考虑B∞={x:∥x∥∞=1}B_{\infty}=\{x:\left\|x \right\|_{\infty}=1\}B∞={x:∥x∥∞=1}，L1L_1L1-norm是L0L_0L0-norm的凸包络的含义是，对任意凸函数f:B∞→Rf:B_{\infty} \to \mathbb{R}f:B∞→R，如果∀x∈B∞\forall x \in B_{\infty}∀x∈B∞，f(x)≤∥x∥0f(x) \le \left\|x \right\|_0f(x)≤∥x∥0，则f(x)≤∥x∥1f(x) \le \left\|x \right\|_1f(x)≤∥x∥1。引入Hamming cube上的向量σ∈{0,1}n\sigma \in \{0,1\}^nσ∈{0,1}n，则∀x∈B∞\forall x \in B_{\infty}∀x∈B∞，我们可以用Hamming cube中的向量作为xxx的基：
x=∑i=1Nλiσix = \sum_{i=1}^N \lambda_i \sigma_ix=i=1∑Nλiσi

f(x)≤∥x∥0f(x) \le \left\|x \right\|_0f(x)≤∥x∥0说明
f(σi)≤∥σi∥0f(\sigma_i) \le \left\|\sigma_i \right\|_0f(σi)≤∥σi∥0

Hamming cube上的向量满足∥σi∥0=∥σi∥1\left\|\sigma_i \right\|_0=\left\|\sigma_i \right\|_1∥σi∥0=∥σi∥1，所以我们用Jensen不等式：
f(x)=f(∑i=1Nλiσi)≤∑i=1Nλif(σi)≤∑i=1Nλi∥σi∥0=∑i=1Nλi∥σi∥1≤∑i=1N∣λi∣∥σi∥1=∥x∥1f(x)=f(\sum_{i=1}^N \lambda_i \sigma_i) \le \sum_{i=1}^N \lambda_i f(\sigma_i) \le \sum_{i=1}^N \lambda_i \left\|\sigma_i \right\|_0 \\ =\sum_{i=1}^N \lambda_i \left\|\sigma_i \right\|_1 \le \sum_{i=1}^N |\lambda_i| \left\|\sigma_i \right\|_1=\left\| x \right\|_1f(x)=f(i=1∑Nλiσi)≤i=1∑Nλif(σi)≤i=1∑Nλi∥σi∥0=i=1∑Nλi∥σi∥1≤i=1∑N∣λi∣∥σi∥1=∥x∥1

L1L_1L1-norm minimization的full recovery

我们知道L0L_0L0-norm minimization在signal足够sparse的情况下可以把signal准确还原出来，也就是可以实现full recovery，那么L1L_1L1-norm minimization是否有类似的性质？

一种可能的情况：考虑y=Axy=Axy=Ax的解空间，因为xox_oxo是一个特解，所以y=Axy=Axy=Ax的解空间为xo+Null(A)x_o+Null(A)xo+Null(A)，也就是基于核空间Null(A)Null(A)Null(A)做平移得到的一个线性流形，如果xo+Null(A)∩{x:∥x∥1≤∥xo∥1}=xox_o+Null(A) \cap \{x:\left\|x \right\|_1 \le \left\| x_o \right\|_1\}=x_oxo+Null(A)∩{x:∥x∥1≤∥xo∥1}=xo，那么
arg min⁡x∈xo+Null(A)∥x∥1=xo\argmin_{x \in x_o+Null(A)} \left\| x\right\|_1=x_ox∈xo+Null(A)argmin∥x∥1=xo

简单地说，就是可行域与目标函数的contour使得L1L_1L1-norm minimization取角点解时，L1L_1L1-norm minimization实现full recovery。

评注
L0L_0L0-norm不满足正齐次性，所以变换xxx的单位、乘除一个常数不会影响xxx的L0L_0L0-norm；但是L1L_1L1-norm是一个范数，满足正齐次性，所以变换xxx的单位、乘除一个常数会影响xxx的L1L_1L1-norm；那么在L1L_1L1-norm minimization的实践中是否标准化xxx？在统计学文献中，我们一般把随机向量方差标准化，或者把随机矩阵的列向量的方差标准化。

我们把上面那个简单情况抽象化，定义指标集S⊂{1,⋯,n}S \subset \{1,\cdots,n\}S⊂{1,⋯,n}，基于指标集定义一个cone：
C(S)={Δ∈Rn:∥ΔSC∥1≤∥ΔS∥1}C(S)=\{\Delta \in \mathbb{R}^n:\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_S \right\|_1\}C(S)={Δ∈Rn:∥ΔSC∥1≤∥ΔS∥1}

cone这种结构的好处是cone中的任一向量乘除一个常数后依然属于这个cone，这样就凑出了L0L_0L0-norm的scale-invariant的特点。称矩阵AAA关于指标集SSS有restricted nullspace property如果
C(S)∩Null(A)={0}C(S)\cap Null(A)=\{0\}C(S)∩Null(A)={0}

定理假设xox_oxo非零的元素的指标构成指标集SSS，则basis pursuit的唯一解为xox_oxo的充要条件是AAA关于指标集SSS有restricted nullspace property。

证明
⇐\Leftarrow⇐: 记x^\hat xx^为basis pursuit的解，则y=Ax^=Axoy=A\hat x = Ax_oy=Ax^=Axo，并且∥x^∥1≤∥xo∥1\left\| \hat x\right\|_1 \le \left\| x_o\right\|_1∥x^∥1≤∥xo∥1，前者说明
Δ≜x^−xo∈null(A)\Delta \triangleq \hat x - x_o \in null(A)Δ≜x^−xo∈null(A)

计算
∥xoS∥1=∥xo∥1≥∥x^∥1=∥xo+Δ∥1=∥xo+ΔS+ΔSC∥1≥∥xo∥1−∥ΔS∥1+∥ΔSC∥1\left\| x_{oS} \right\|_1= \left\| x_o\right\|_1 \ge \left\| \hat x\right\|_1 = \left\| x_o+\Delta \right\|_1 \\= \left\| x_o+\Delta_S+\Delta_{S^C} \right\|_1 \ge \left\| x_o\right\|_1- \left\| \Delta_S\right\|_1+ \left\| \Delta_{S^C}\right\|_1 ∥xoS∥1=∥xo∥1≥∥x^∥1=∥xo+Δ∥1=∥xo+ΔS+ΔSC∥1≥∥xo∥1−∥ΔS∥1+∥ΔSC∥1

所以
∥ΔSC∥1≤∥ΔS∥1,Δ∈C(S)\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_S \right\|_1,\Delta \in C(S)∥ΔSC∥1≤∥ΔS∥1,Δ∈C(S)

根据restricted nullspace property，
C(S)∩Null(A)={0}C(S) \cap Null(A)=\{0\}C(S)∩Null(A)={0}

因为SSS是xox_oxo的支撑集的指标集，所以上式等价于xo+Null(A)∩{x:∥x∥1≤∥xo∥1}=xox_o+Null(A) \cap \{x:\left\|x \right\|_1 \le \left\| x_o \right\|_1\}=x_oxo+Null(A)∩{x:∥x∥1≤∥xo∥1}=xo

因此
arg min⁡x∈xo+Null(A)∥x∥1=xo\argmin_{x \in x_o+Null(A)} \left\| x\right\|_1=x_ox∈xo+Null(A)argmin∥x∥1=xo

⇒\Rightarrow⇒: ∀x∗∈Null(A)∖{0}\forall x^* \in Null(A)\setminus \{0\}∀x∗∈Null(A)∖{0}，考虑basis pursuit，
min⁡∥x∥1s.t.Ax=A[xS∗0]\min \ \left\| x \right\|_1\ s.t. A x = A \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right]min ∥x∥1 s.t.Ax=A[xS∗0]

根据假设，它的唯一解为
x^=[xS∗0]\hat x = \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right]x^=[xS∗0]

因为Ax∗=0Ax^*=0Ax∗=0，也就是
A[xS∗xSC∗]=0⇒A[xS∗0]=A[0−xSC∗]A \left[ \begin{matrix} x^*_S \\ x^*_{S^C} \end{matrix} \right]=0 \Rightarrow A \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right] = A \left[ \begin{matrix} 0 \\ -x^*_{S^C} \end{matrix} \right]A[xS∗xSC∗]=0⇒A[xS∗0]=A[0−xSC∗]

也就是说[0−xSC∗]\left[ \begin{matrix} 0 \\ -x^*_{S^C} \end{matrix} \right][0−xSC∗]也是一个可行解，因此
∥[0−xSC∗]∥1≥∥[xS∗0]∥1∥θSC∗∥1≥∥θS∗∥1\left\| \left[ \begin{matrix} 0 \\ -x^*_{S^C} \end{matrix} \right] \right\|_1 \ge \left\| \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right] \right\|_1 \\ \left\| \theta^*_{S^C} \right\|_1 \ge \left\| \theta_S^* \right\|_1∥∥∥∥[0−xSC∗]∥∥∥∥1≥∥∥∥∥[xS∗0]∥∥∥∥1∥θSC∗∥1≥∥θS∗∥1

所以θ∗∈C(S)\theta^* \in C(S)θ∗∈C(S)