UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation

  • L1L_1L1​-norm minimization
    • L1L_1L1​-norm是L0L_0L0​-norm的凸包络
    • L1L_1L1​-norm minimization的full recovery

上一讲我们在无噪声的设定下讨论了稀疏信号的恢复,假设yyy是我们对稀疏信号的测量,y=Axoy=Ax_oy=Axo​,系数AAA已知,目标是从测量中还原出信号xox_oxo​,一种可行的操作是在y=Axy=Axy=Ax的解集中找到最稀疏的向量,以此作为sparse signal的估计,所以要求解的问题是:
min⁡∥x∥0s.t.y=Ax\min \ \ \left\| x\right\|_0 \\ s.t. \ \ y = Axmin  ∥x∥0​s.t.  y=Ax

用Exhaustive Search可以求解这个问题,当xox_oxo​足够sparse的时候(∥xo∥0≤12krank(A)\left\| x_o \right\|_0 \le \frac{1}{2}krank(A)∥xo​∥0​≤21​krank(A)),L0L_0L0​-norm minimization可以把xox_oxo​准确还原出来,其中krank(A)krank(A)krank(A)为矩阵AAA的Kruskal rank,任意krank(A)krank(A)krank(A)个AAA的列向量线性无关,但存在krank(A)+1krank(A)+1krank(A)+1个AAA的列向量线性相关。遗憾的是,L0L_0L0​-norm minimization是NP-hard问题,我们无法保证求解L0L_0L0​-norm minimization的算法会在多久以后收敛,因此L0L_0L0​-norm minimization的实用价值不大。

这一讲我们讨论,既然实践中无法使用L0L_0L0​-norm minimization,那能不能设计一些近似的算法,让我们在时间复杂度与近似误差之间有做取舍的余地?


L1L_1L1​-norm minimization

可以简单回忆一下,在凸优化中我们讨论过的优化问题的relaxation,因为凸优化是多项式时间复杂度问题,所以我们可以找L0L_0L0​-norm minimization的convex relaxation作为它的近似。上一讲我们讨论了LpL_pLp​-norm中ppp最小的邻域为凸集的是L1L_1L1​-norm,因为ppp越小,邻域中的向量越sparse,所以我们有理由相信,L1L_1L1​-norm minimization是L0L_0L0​-norm minimization的一种优秀convex relaxation。同样考虑无噪声的情况:

min⁡∥x∥1=∑i=1n∣xi∣s.t.y=Ax\min \ \ \left\| x\right\|_1 = \sum_{i=1}^n |x_i| \\ s.t. \ \ y = Axmin  ∥x∥1​=i=1∑n​∣xi​∣s.t.  y=Ax

我们称这个问题为basis pursuit。

L1L_1L1​-norm是L0L_0L0​-norm的凸包络

考虑B∞={x:∥x∥∞=1}B_{\infty}=\{x:\left\|x \right\|_{\infty}=1\}B∞​={x:∥x∥∞​=1},L1L_1L1​-norm是L0L_0L0​-norm的凸包络的含义是,对任意凸函数f:B∞→Rf:B_{\infty} \to \mathbb{R}f:B∞​→R,如果∀x∈B∞\forall x \in B_{\infty}∀x∈B∞​,f(x)≤∥x∥0f(x) \le \left\|x \right\|_0f(x)≤∥x∥0​,则f(x)≤∥x∥1f(x) \le \left\|x \right\|_1f(x)≤∥x∥1​。引入Hamming cube上的向量σ∈{0,1}n\sigma \in \{0,1\}^nσ∈{0,1}n,则∀x∈B∞\forall x \in B_{\infty}∀x∈B∞​,我们可以用Hamming cube中的向量作为xxx的基:
x=∑i=1Nλiσix = \sum_{i=1}^N \lambda_i \sigma_ix=i=1∑N​λi​σi​

f(x)≤∥x∥0f(x) \le \left\|x \right\|_0f(x)≤∥x∥0​说明
f(σi)≤∥σi∥0f(\sigma_i) \le \left\|\sigma_i \right\|_0f(σi​)≤∥σi​∥0​

Hamming cube上的向量满足∥σi∥0=∥σi∥1\left\|\sigma_i \right\|_0=\left\|\sigma_i \right\|_1∥σi​∥0​=∥σi​∥1​,所以我们用Jensen不等式:
f(x)=f(∑i=1Nλiσi)≤∑i=1Nλif(σi)≤∑i=1Nλi∥σi∥0=∑i=1Nλi∥σi∥1≤∑i=1N∣λi∣∥σi∥1=∥x∥1f(x)=f(\sum_{i=1}^N \lambda_i \sigma_i) \le \sum_{i=1}^N \lambda_i f(\sigma_i) \le \sum_{i=1}^N \lambda_i \left\|\sigma_i \right\|_0 \\ =\sum_{i=1}^N \lambda_i \left\|\sigma_i \right\|_1 \le \sum_{i=1}^N |\lambda_i| \left\|\sigma_i \right\|_1=\left\| x \right\|_1f(x)=f(i=1∑N​λi​σi​)≤i=1∑N​λi​f(σi​)≤i=1∑N​λi​∥σi​∥0​=i=1∑N​λi​∥σi​∥1​≤i=1∑N​∣λi​∣∥σi​∥1​=∥x∥1​

L1L_1L1​-norm minimization的full recovery

我们知道L0L_0L0​-norm minimization在signal足够sparse的情况下可以把signal准确还原出来,也就是可以实现full recovery,那么L1L_1L1​-norm minimization是否有类似的性质?

一种可能的情况:考虑y=Axy=Axy=Ax的解空间,因为xox_oxo​是一个特解,所以y=Axy=Axy=Ax的解空间为xo+Null(A)x_o+Null(A)xo​+Null(A),也就是基于核空间Null(A)Null(A)Null(A)做平移得到的一个线性流形,如果xo+Null(A)∩{x:∥x∥1≤∥xo∥1}=xox_o+Null(A) \cap \{x:\left\|x \right\|_1 \le \left\| x_o \right\|_1\}=x_oxo​+Null(A)∩{x:∥x∥1​≤∥xo​∥1​}=xo​,那么
arg min⁡x∈xo+Null(A)∥x∥1=xo\argmin_{x \in x_o+Null(A)} \left\| x\right\|_1=x_ox∈xo​+Null(A)argmin​∥x∥1​=xo​

简单地说,就是可行域与目标函数的contour使得L1L_1L1​-norm minimization取角点解时,L1L_1L1​-norm minimization实现full recovery。

评注
L0L_0L0​-norm不满足正齐次性,所以变换xxx的单位、乘除一个常数不会影响xxx的L0L_0L0​-norm;但是L1L_1L1​-norm是一个范数,满足正齐次性,所以变换xxx的单位、乘除一个常数会影响xxx的L1L_1L1​-norm;那么在L1L_1L1​-norm minimization的实践中是否标准化xxx?在统计学文献中,我们一般把随机向量方差标准化,或者把随机矩阵的列向量的方差标准化。

我们把上面那个简单情况抽象化,定义指标集S⊂{1,⋯,n}S \subset \{1,\cdots,n\}S⊂{1,⋯,n},基于指标集定义一个cone:
C(S)={Δ∈Rn:∥ΔSC∥1≤∥ΔS∥1}C(S)=\{\Delta \in \mathbb{R}^n:\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_S \right\|_1\}C(S)={Δ∈Rn:∥ΔSC​∥1​≤∥ΔS​∥1​}

cone这种结构的好处是cone中的任一向量乘除一个常数后依然属于这个cone,这样就凑出了L0L_0L0​-norm的scale-invariant的特点。称矩阵AAA关于指标集SSS有restricted nullspace property如果
C(S)∩Null(A)={0}C(S)\cap Null(A)=\{0\}C(S)∩Null(A)={0}

定理 假设xox_oxo​非零的元素的指标构成指标集SSS,则basis pursuit的唯一解为xox_oxo​的充要条件是AAA关于指标集SSS有restricted nullspace property。

证明
⇐\Leftarrow⇐: 记x^\hat xx^为basis pursuit的解,则y=Ax^=Axoy=A\hat x = Ax_oy=Ax^=Axo​,并且∥x^∥1≤∥xo∥1\left\| \hat x\right\|_1 \le \left\| x_o\right\|_1∥x^∥1​≤∥xo​∥1​,前者说明
Δ≜x^−xo∈null(A)\Delta \triangleq \hat x - x_o \in null(A)Δ≜x^−xo​∈null(A)

计算
∥xoS∥1=∥xo∥1≥∥x^∥1=∥xo+Δ∥1=∥xo+ΔS+ΔSC∥1≥∥xo∥1−∥ΔS∥1+∥ΔSC∥1\left\| x_{oS} \right\|_1= \left\| x_o\right\|_1 \ge \left\| \hat x\right\|_1 = \left\| x_o+\Delta \right\|_1 \\= \left\| x_o+\Delta_S+\Delta_{S^C} \right\|_1 \ge \left\| x_o\right\|_1- \left\| \Delta_S\right\|_1+ \left\| \Delta_{S^C}\right\|_1 ∥xoS​∥1​=∥xo​∥1​≥∥x^∥1​=∥xo​+Δ∥1​=∥xo​+ΔS​+ΔSC​∥1​≥∥xo​∥1​−∥ΔS​∥1​+∥ΔSC​∥1​

所以
∥ΔSC∥1≤∥ΔS∥1,Δ∈C(S)\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_S \right\|_1,\Delta \in C(S)∥ΔSC​∥1​≤∥ΔS​∥1​,Δ∈C(S)

根据restricted nullspace property,
C(S)∩Null(A)={0}C(S) \cap Null(A)=\{0\}C(S)∩Null(A)={0}

因为SSS是xox_oxo​的支撑集的指标集,所以上式等价于xo+Null(A)∩{x:∥x∥1≤∥xo∥1}=xox_o+Null(A) \cap \{x:\left\|x \right\|_1 \le \left\| x_o \right\|_1\}=x_oxo​+Null(A)∩{x:∥x∥1​≤∥xo​∥1​}=xo​

因此
arg min⁡x∈xo+Null(A)∥x∥1=xo\argmin_{x \in x_o+Null(A)} \left\| x\right\|_1=x_ox∈xo​+Null(A)argmin​∥x∥1​=xo​

⇒\Rightarrow⇒: ∀x∗∈Null(A)∖{0}\forall x^* \in Null(A)\setminus \{0\}∀x∗∈Null(A)∖{0},考虑basis pursuit,
min⁡∥x∥1s.t.Ax=A[xS∗0]\min \ \left\| x \right\|_1\ s.t. A x = A \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right]min ∥x∥1​ s.t.Ax=A[xS∗​0​]

根据假设,它的唯一解为
x^=[xS∗0]\hat x = \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right]x^=[xS∗​0​]

因为Ax∗=0Ax^*=0Ax∗=0,也就是
A[xS∗xSC∗]=0⇒A[xS∗0]=A[0−xSC∗]A \left[ \begin{matrix} x^*_S \\ x^*_{S^C} \end{matrix} \right]=0 \Rightarrow A \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right] = A \left[ \begin{matrix} 0 \\ -x^*_{S^C} \end{matrix} \right]A[xS∗​xSC∗​​]=0⇒A[xS∗​0​]=A[0−xSC∗​​]

也就是说[0−xSC∗]\left[ \begin{matrix} 0 \\ -x^*_{S^C} \end{matrix} \right][0−xSC∗​​]也是一个可行解,因此
∥[0−xSC∗]∥1≥∥[xS∗0]∥1∥θSC∗∥1≥∥θS∗∥1\left\| \left[ \begin{matrix} 0 \\ -x^*_{S^C} \end{matrix} \right] \right\|_1 \ge \left\| \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right] \right\|_1 \\ \left\| \theta^*_{S^C} \right\|_1 \ge \left\| \theta_S^* \right\|_1∥∥∥∥​[0−xSC∗​​]∥∥∥∥​1​≥∥∥∥∥​[xS∗​0​]∥∥∥∥​1​∥θSC∗​∥1​≥∥θS∗​∥1​

所以θ∗∈C(S)\theta^* \in C(S)θ∗∈C(S)

UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation相关推荐

  1. UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimization

    UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimization L0L^0L0-norm L0L_0L0​-norm minimization Exhaustive ...

  2. UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性

    UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性 Prediction Error Variable Selection Consistency Pred ...

  3. UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差

    UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差 上一讲我们推导了noisy setting下LASSO估计误差的阶O(slog⁡d/n)O(\sqrt{s ...

  4. UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差

    UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差 Signal Recovery Noisy Setting LASSO的估计误差 Signal Recovery Noi ...

  5. UA MATH567 高维统计专题1 稀疏信号及其恢复4 Basis Pursuit的算法 Projected Gradient Descent

    UA MATH567 高维统计专题1 稀疏信号及其恢复4 Basis Pursuit的算法 Projected Gradient Descent 前三讲完成了对sparse signal recove ...

  6. UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介

    UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介 Pairwise inc oherence Mutual Coherence RIP 前两讲介绍了L0-min ...

  7. UA MATH567 高维统计 专题0 为什么需要高维统计理论?——理解稀疏向量与hard-threshold

    UA MATH567 高维统计 专题0 为什么需要高维统计理论?--理解稀疏向量与hard-threshold 稀疏向量的soft-threshold与hard-threshold近似 引入hard- ...

  8. UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设

    UA MATH567 高维统计 专题0 为什么需要高维统计理论?--高维统计理论的常用假设 延续前三讲对线性判别分析的讨论,在高维时,根据中心极限定理 n(Xˉ−μ)→dN(0,Id)\sqrt{n} ...

  9. UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介

    UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介 Stochastic Gradient Descent的思想 Varian ...

最新文章

  1. 格式工厂软件处理视频
  2. 知识图谱学习笔记-Cypher语句使用
  3. java中换行符号_Java中的回车换行符/n /r /t分析
  4. mysql怎么创建文字表_myMySQL数据库 如何将中文转拼音 MySQL数据库使用教程
  5. Quartz.NET 架构与源代码分析系列 part 1 :Quartz.NET 入门
  6. mybais逆向工程快速生成实体和基本xml
  7. 适合转HTML5大前端的5类人!有你吗?
  8. mercurial和svn_DBA Mercurial简介–分支和合并
  9. 通过HttpModule实现IP地址屏蔽功能
  10. webRTC之Mesh/MCU/SFU通信架构区别(九)
  11. 闭式系统蒸汽管径推荐速度_干货 | 蒸汽管路中,管径和阀门如何选型?
  12. [渝粤教育] 西南科技大学 西方现代派文学 在线考试复习资料
  13. 小瓜牛漫谈 — 获取资源文件
  14. dex2jar和jd-GUI的下载安装与使用
  15. CIF格式(QCIF、CIF、2CIF、4CIF、DCIF)
  16. canvas--初识canvs、绘制:线型、简单图形、渐变背景颜色、绘制动画、canvs形变、事件绑定
  17. java数据结构与算法总结(二十五)--初识BitSet之API
  18. python爬取公众号推荐,用python爬取公众号的方法
  19. 《黑客秘笈——渗透测试实用指南(第2版)》—第2章2.3节外部或内部主动式信息搜集...
  20. 为什么拉格朗日对偶函数一定是凹函数(逐点下确界)

热门文章

  1. 不是《归去来》是《难念的经》
  2. 2019/4/4 动态规划
  3. html文件girlfriend,index.html
  4. Rest 微服务工程搭建02——微服务消费者订单Module模块 || @RequestBody 的重要作用
  5. 多款eclipse黑色坏境任你选择,只要导入配置
  6. IntelliJ IDEA绑定Github报Error 403: Not Authorized没有授权问题解决方法
  7. Git 技术篇-git切换工作空间,git设置默认进入空间,git初始化工作空间
  8. PyQt5 图形界面-基础准备:安装Qt Creater、Qt Designer工具,使用Qt Designer设计界面,安装PyQt5工具库
  9. Error - section 'InterruptVectorLow' can not fit the absolute section. Section 'InterruptVectorLow'
  10. hdu 2988 Strange fuction【模拟退火】