UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm

上一讲我们已经提到了用rank-minimization对参数矩阵进行估计的建模方法,这一讲我们讨论无噪声情况下的rank-minimization问题:

min⁡Θrank(Θ)s.t.y=X(Θ)\min_{\Theta} \ \ rank(\Theta) \\ s.t. \ \ y=\mathcal{X}(\Theta)Θmin​  rank(Θ)s.t.  y=X(Θ)

同时,通过SVD我们知道
rank(Θ)=∥σ(Θ)∥0rank(\Theta)=\left\| \sigma(\Theta) \right\|_0rank(Θ)=∥σ(Θ)∥0​

也就是rank-minimization等价于奇异值的L0L_0L0​-norm minimization;高维统计专题1中我们证明过L0L_0L0​-norm minimization是NP-hard problem,所以与高维统计专题1中的做法类似,我们要找rank-minimization的一个convex relaxation以保证优化在实践中可解。经过专题1的讨论,很自然我们就能想到用L1L_1L1​-norm近似L0L_0L0​-norm:
∥σ(Θ)∥1=∑σi(Θ)\left\| \sigma(\Theta)\right\|_1=\sum \sigma_i(\Theta)∥σ(Θ)∥1​=∑σi​(Θ)

按这个定义,我们可以构造参数矩阵Θ\ThetaΘ的一个新的范数,称其为Nuclear Norm:
∥Θ∥∗=∑σi(Θ)\left\| \Theta \right\|_*=\sum \sigma_i(\Theta)∥Θ∥∗​=∑σi​(Θ)

如果Θ\ThetaΘ对称半正定,也可以称之为Trace Norm,因为此时
∥Θ∥∗=∑σi(Θ)=∑λi(Θ)=tr(Θ)\left\| \Theta \right\|_*=\sum \sigma_i(\Theta)=\sum \lambda_i(\Theta)=tr(\Theta)∥Θ∥∗​=∑σi​(Θ)=∑λi​(Θ)=tr(Θ)


定理 Nuclear Norm是一个矩阵范数,并且它是算子范数的对偶范数

说明
假设XXX是赋范线性空间,KKK是一个数域,f:X→Kf:X \to Kf:X→K是一个线性函数,则f∈X∗f \in X^*f∈X∗,下面的范数是对偶空间X∗X^*X∗上的范数
∥f∥=sup⁡∥x∥=1,x∈X∣f(x)∣\left\| f \right\|=\sup_{\left\|x \right\|=1,x \in X}|f(x)|∥f∥=∥x∥=1,x∈Xsup​∣f(x)∣

也被称为是XXX上范数的对偶范数。

证明
用∥⋅∥\left\| \cdot \right\|∥⋅∥表示矩阵的算子范数,则需要说明∀M,N∈Rd1×d2\forall M,N \in \mathbb{R}^{d_1 \times d_2}∀M,N∈Rd1​×d2​,
∥M∥∗=sup⁡∥N∥≤1⟨M,N⟩∥M∥=sup⁡∥N∥∗≤1⟨M,N⟩\left\| M\right\|_*=\sup_{\left\| N \right\| \le 1}\langle M,N \rangle \\ \left\| M\right\|=\sup_{\left\|N \right\|_* \le 1} \langle M,N \rangle∥M∥∗​=∥N∥≤1sup​⟨M,N⟩∥M∥=∥N∥∗​≤1sup​⟨M,N⟩

引入正交矩阵U∈O(d1),V∈O(d2)U \in O(d_1),V \in O(d_2)U∈O(d1​),V∈O(d2​),则Rd1×d2\mathbb{R}^{d_1 \times d_2}Rd1​×d2​中矩阵的内积满足
⟨M,N⟩=⟨UMV,UMV⟩\langle M,N \rangle=\langle UMV,UMV\rangle⟨M,N⟩=⟨UMV,UMV⟩

这是因为
⟨UMV,UMV⟩=tr(UMV(UNV)T)=tr(UMNTUT)=tr(UUTMNT)=tr(MNT)=⟨M,N⟩\langle UMV,UMV\rangle=tr(UMV(UNV)^T) \\ = tr(UMN^TU^T)=tr(UU^TMN^T)=tr(MN^T)=\langle M,N \rangle⟨UMV,UMV⟩=tr(UMV(UNV)T)=tr(UMNTUT)=tr(UUTMNT)=tr(MNT)=⟨M,N⟩

对Nuclear Norm与Operator Norm也有类似性质,即orthogonal-invariant。对MMM做complete version SVD:M=UΣVTM=U\Sigma V^TM=UΣVT,然后在⟨M,N⟩\langle M,N\rangle⟨M,N⟩中左乘UTU^TUT右乘VVV将MMM变成只含奇异值的对角阵Σ\SigmaΣ,并记N~=UTNV\tilde N=U^TNVN~=UTNV,不妨假设d1≥d2d_1 \ge d_2d1​≥d2​,则
sup⁡∥N∥≤1⟨M,N⟩=sup⁡∥N~∥≤1⟨Σ,N~⟩=∑i=1d2σi=∥M∥∗\sup_{\left\| N \right\| \le 1}\langle M,N \rangle = \sup_{\left\| \tilde N \right\| \le 1} \langle \Sigma ,\tilde N \rangle=\sum_{i=1}^{d_2} \sigma_i = \left\| M\right\|_*∥N∥≤1sup​⟨M,N⟩=∥N~∥≤1sup​⟨Σ,N~⟩=i=1∑d2​​σi​=∥M∥∗​

上式成立的关键是第二个等号:

≥\ge≥: 取N~=[Id20]\tilde N=\left[ \begin{matrix} I_{d_2} \\ 0 \end{matrix} \right]N~=[Id2​​0​],则⟨Σ,N~⟩=∑i=1d2σi\langle \Sigma ,\tilde N \rangle=\sum_{i=1}^{d_2} \sigma_i⟨Σ,N~⟩=∑i=1d2​​σi​,因此sup⁡∥N~∥≤1⟨Σ,N~⟩\sup_{\left\| \tilde N \right\| \le 1} \langle \Sigma ,\tilde N \ranglesup∥N~∥≤1​⟨Σ,N~⟩至少应该不小于∑i=1d2σi\sum_{i=1}^{d_2} \sigma_i∑i=1d2​​σi​

≤\le≤: 因为∥N~∥≤1\left\| \tilde N \right\| \le 1∥∥∥​N~∥∥∥​≤1,于是它的列向量的L2L_2L2​-norm不会大于1,所以∣N~ii∣≤1|\tilde N_{ii}| \le 1∣N~ii​∣≤1,⟨Σ,N~⟩=∑i=1d2σiN~ii≤∑i=1d2σi\langle \Sigma ,\tilde N \rangle =\sum_{i=1}^{d_2} \sigma_i\tilde N_{ii}\le \sum_{i=1}^{d_2} \sigma_i⟨Σ,N~⟩=∑i=1d2​​σi​N~ii​≤∑i=1d2​​σi​

类似地,
sup⁡∥N∥∗≤1⟨M,N⟩=sup⁡∥N~∥∗≤1⟨Σ,N~⟩=∥Σ∥sup⁡∥N~∥∗≤1⟨Σ/∥Σ∥,N~⟩=∥M∥sup⁡∥N~∥∗≤1⟨Σ/∥Σ∥,N~⟩\sup_{\left\| N \right\|_* \le 1}\langle M,N \rangle = \sup_{\left\| \tilde N \right\|_* \le 1} \langle \Sigma ,\tilde N \rangle \\ =\left\| \Sigma \right\| \sup_{\left\| \tilde N \right\|_* \le 1} \langle \Sigma/\left\| \Sigma \right\| ,\tilde N \rangle = \left\| M \right\| \sup_{\left\| \tilde N \right\|_* \le 1} \langle \Sigma/\left\| \Sigma \right\| ,\tilde N \rangle∥N∥∗​≤1sup​⟨M,N⟩=∥N~∥∗​≤1sup​⟨Σ,N~⟩=∥Σ∥∥N~∥∗​≤1sup​⟨Σ/∥Σ∥,N~⟩=∥M∥∥N~∥∗​≤1sup​⟨Σ/∥Σ∥,N~⟩

我们需要说明
sup⁡∥N~∥∗≤1⟨Σ/∥Σ∥,N~⟩=1\sup_{\left\| \tilde N \right\|_* \le 1} \langle \Sigma/\left\| \Sigma \right\| ,\tilde N \rangle=1∥N~∥∗​≤1sup​⟨Σ/∥Σ∥,N~⟩=1

≥1\ge 1≥1: 这两个矩阵第一个对角元都是1就可以得到内积为1的结果

≤1\le 1≤1: ⟨Σ/∥Σ∥,N~⟩=∑i=1d2σiσ1N~ii≤∑i=1d2∣N~ii∣≤∥N~∥∗≤1\langle \Sigma/\left\| \Sigma \right\| ,\tilde N \rangle=\sum_{i=1}^{d_2}\frac{\sigma_i}{\sigma_1}\tilde N_{ii} \le \sum_{i=1}^{d_2} |\tilde N_{ii}|\le\left\| \tilde N \right\|_* \le 1⟨Σ/∥Σ∥,N~⟩=∑i=1d2​​σ1​σi​​N~ii​≤∑i=1d2​​∣N~ii​∣≤∥∥∥​N~∥∥∥​∗​≤1

证毕

评注 用定义验证Nuclear norm是范数需要正定、正齐次、三角不等式,前两个都是直接得到的,这里简单推导一下三角不等式:
∥M+M′∥∗=sup⁡∥N∥≤1⟨M+M′,N⟩≤sup⁡∥N∥≤1⟨M,N⟩+sup⁡∥N∥≤1⟨M′,N⟩=∥M∥∗+∥M′∥∗\left\|M+M' \right\|_* = \sup_{\left\| N \right\| \le 1}\langle M+M',N \rangle \\ \le \sup_{\left\| N \right\| \le 1}\langle M,N \rangle+\sup_{\left\| N \right\| \le 1}\langle M',N \rangle=\left\|M \right\|_*+\left\|M' \right\|_*∥M+M′∥∗​=∥N∥≤1sup​⟨M+M′,N⟩≤∥N∥≤1sup​⟨M,N⟩+∥N∥≤1sup​⟨M′,N⟩=∥M∥∗​+∥M′∥∗​


现在我们就可以把rank-minimization替换为nuclear norm minimization了,这是一个凸优化问题

min⁡Θ∥Θ∥∗s.t.y=X(Θ),X:Rd1×d2→Rn\min_{\Theta} \ \ \left\| \Theta \right\|_*\\ s.t. \ \ y=\mathcal{X}(\Theta),\mathcal{X}:\mathbb{R}^{d_1 \times d_2 } \to \mathbb{R}^nΘmin​  ∥Θ∥∗​s.t.  y=X(Θ),X:Rd1​×d2​→Rn

其中X\mathcal{X}X是一个三阶张量,它作用在Θ\ThetaΘ上得到一个nnn维向量,也可以用张量的二点积来表示
X(Θ)=(⟨X1,Θ⟩,⋯,⟨Xn,Θ⟩)T=X:Θ\mathcal{X}(\Theta)=(\langle X_1,\Theta \rangle,\cdots , \langle X_n, \Theta\rangle)^T = \mathcal{X}:\Theta X(Θ)=(⟨X1​,Θ⟩,⋯,⟨Xn​,Θ⟩)T=X:Θ

需要注意的是nuclear norm minimization是rank-minimization的convex relaxation,与L1L_1L1​-norm作为L0L_0L0​-norm的relaxation类似,在角点解处二者相等,所以可以得到一样的sparse solution,这个性质以下面的定理为基础:

定理 在用算子范数定义的单位球Bop={M:∥M∥≤1}B_{op}=\{M:\left\| M \right\| \le 1\}Bop​={M:∥M∥≤1}中,∥M∗∥\left\| M_* \right\|∥M∗​∥是rank(M)rank(M)rank(M)的凸包络。

评注 因为rank(M)rank(M)rank(M)是奇异值的0范数,nuclear norm是1范数,而L1L_1L1​-norm是L0L_0L0​-norm的凸包络,所以很自然可以发现nuclear norm就是rank的凸包络。严谨的证明需要对任意凸函数fff,说明f(M)≤rank(M),∀M∈Bopf(M) \le rank(M),\forall M \in B_{op}f(M)≤rank(M),∀M∈Bop​ ⇒\Rightarrow⇒ f(M)≤∥M∥∗f(M) \le \left\|M \right\|_*f(M)≤∥M∥∗​,完整证明过程可以阅读Wright and Ma 2020年那本高维数据分析的section 4.3.3

UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm相关推荐

  1. UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP

    UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP Low-rank matrix completion的模型是rank minimization,上一讲我们介绍了 ...

  2. UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设

    UA MATH567 高维统计 专题0 为什么需要高维统计理论?--高维统计理论的常用假设 延续前三讲对线性判别分析的讨论,在高维时,根据中心极限定理 n(Xˉ−μ)→dN(0,Id)\sqrt{n} ...

  3. UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Matrix Completion简介

    UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Low-rank Matrix简介 例 在推荐系统中,Netflix data是非常经典的数据集.考虑它的电影评分数据,用矩阵的每 ...

  4. UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介

    UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介 Pairwise inc oherence Mutual Coherence RIP 前两讲介绍了L0-min ...

  5. UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation

    UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation L1L_1L1​-norm minimization L1L_1L1​ ...

  6. UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimization

    UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimization L0L^0L0-norm L0L_0L0​-norm minimization Exhaustive ...

  7. UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介

    UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介 Stochastic Gradient Descent的思想 Varian ...

  8. UA MATH567 高维统计专题3 含L1-norm的凸优化4 Nesterov方法与Accelerate Proximal Gradient

    UA MATH567 高维统计专题3 含L1-norm的凸优化4 一阶方法的加速 Nesterov方法 Accelerate Proximal Gradient (APG) 梯度下降与Proximal ...

  9. UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient Descent

    UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient Descent Proximal Gradient Descent的公式推导 Proximal O ...

最新文章

  1. Python文件操作,时间日期操作,collections增强,Deque(类似java的LinkedList),OrderedDict,Counter
  2. React开发(209):react错误边界
  3. html表格按钮相对位置不变,表格中如何使td或div相对定位在某一行上面
  4. vue 修改标题栏_VUE动态修改titile的三种方法
  5. 别琢磨了,企业高效灵活运作的秘密拿走:企业邮箱5折起!分享会场抽取苹果手机和猫超卡!
  6. 2017.9.6 外星人 思考记录
  7. linux怎么同时运行多个程序吗,Linux配置多个tomcat同时运行
  8. 雷军:执掌金山纯属意外
  9. 利用iTextSharp组件给PDF文档添加图片水印,文字水印
  10. 用easyx画五角星_冷军画了一把破剪刀, 竟然卖到了160万,被专家抨击:乱涂鸦!得奖后专家顿时不说话了...
  11. wpf之代码给grid添加内容
  12. 文献按时间排序_论文参考文献详解~
  13. 转载--32个鲜为人知的自学网站
  14. linux unip命令
  15. html设置为壁纸win10,win10系统怎么设置桌面壁纸
  16. median _matlab 中值滤波函数
  17. 关于mvn repository的one more step人机验证问题的解决
  18. 杭州到温州老家自驾路线优化与整理
  19. mysql语句更新顺序_MySQL的Update语句Set顺序问题
  20. 先正达将在科创板上会:拟募资650亿元,预计全年收入超2100亿元

热门文章

  1. 在redhat9中交叉编译nano-X nxlib和fltk
  2. Consul 服务注册与发现03—— 服务消费者
  3. Define and Publish Platform Events
  4. 递归 || 递归的相关实例练习
  5. BAT 批处理命令 - 实现输出当前文件夹下的所有文件夹名的功能实例演示
  6. Doxygen生成注释文档
  7. 【Linux+vscode】配置好秘钥之后还是不能ssh连接(离线配置)
  8. 常微分方程数值求解【python】
  9. R语言操作excel文件的数据
  10. 指数哥伦布编码 java_H.264学习笔记6——指数哥伦布编码