UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm

上一讲我们已经提到了用rank-minimization对参数矩阵进行估计的建模方法，这一讲我们讨论无噪声情况下的rank-minimization问题：

min⁡Θrank(Θ)s.t.y=X(Θ)\min_{\Theta} \ \ rank(\Theta) \\ s.t. \ \ y=\mathcal{X}(\Theta)Θmin rank(Θ)s.t. y=X(Θ)

同时，通过SVD我们知道
rank(Θ)=∥σ(Θ)∥0rank(\Theta)=\left\| \sigma(\Theta) \right\|_0rank(Θ)=∥σ(Θ)∥0

也就是rank-minimization等价于奇异值的L0L_0L0-norm minimization；高维统计专题1中我们证明过L0L_0L0-norm minimization是NP-hard problem，所以与高维统计专题1中的做法类似，我们要找rank-minimization的一个convex relaxation以保证优化在实践中可解。经过专题1的讨论，很自然我们就能想到用L1L_1L1-norm近似L0L_0L0-norm：
∥σ(Θ)∥1=∑σi(Θ)\left\| \sigma(\Theta)\right\|_1=\sum \sigma_i(\Theta)∥σ(Θ)∥1=∑σi(Θ)

按这个定义，我们可以构造参数矩阵Θ\ThetaΘ的一个新的范数，称其为Nuclear Norm：
∥Θ∥∗=∑σi(Θ)\left\| \Theta \right\|_*=\sum \sigma_i(\Theta)∥Θ∥∗=∑σi(Θ)

如果Θ\ThetaΘ对称半正定，也可以称之为Trace Norm，因为此时
∥Θ∥∗=∑σi(Θ)=∑λi(Θ)=tr(Θ)\left\| \Theta \right\|_*=\sum \sigma_i(\Theta)=\sum \lambda_i(\Theta)=tr(\Theta)∥Θ∥∗=∑σi(Θ)=∑λi(Θ)=tr(Θ)

定理 Nuclear Norm是一个矩阵范数，并且它是算子范数的对偶范数

说明
假设XXX是赋范线性空间，KKK是一个数域，f:X→Kf:X \to Kf:X→K是一个线性函数，则f∈X∗f \in X^*f∈X∗，下面的范数是对偶空间X∗X^*X∗上的范数
∥f∥=sup⁡∥x∥=1,x∈X∣f(x)∣\left\| f \right\|=\sup_{\left\|x \right\|=1,x \in X}|f(x)|∥f∥=∥x∥=1,x∈Xsup∣f(x)∣

也被称为是XXX上范数的对偶范数。

证明
用∥⋅∥\left\| \cdot \right\|∥⋅∥表示矩阵的算子范数，则需要说明∀M,N∈Rd1×d2\forall M,N \in \mathbb{R}^{d_1 \times d_2}∀M,N∈Rd1×d2，
∥M∥∗=sup⁡∥N∥≤1⟨M,N⟩∥M∥=sup⁡∥N∥∗≤1⟨M,N⟩\left\| M\right\|_*=\sup_{\left\| N \right\| \le 1}\langle M,N \rangle \\ \left\| M\right\|=\sup_{\left\|N \right\|_* \le 1} \langle M,N \rangle∥M∥∗=∥N∥≤1sup⟨M,N⟩∥M∥=∥N∥∗≤1sup⟨M,N⟩

引入正交矩阵U∈O(d1),V∈O(d2)U \in O(d_1),V \in O(d_2)U∈O(d1),V∈O(d2)，则Rd1×d2\mathbb{R}^{d_1 \times d_2}Rd1×d2中矩阵的内积满足
⟨M,N⟩=⟨UMV,UMV⟩\langle M,N \rangle=\langle UMV,UMV\rangle⟨M,N⟩=⟨UMV,UMV⟩

这是因为
⟨UMV,UMV⟩=tr(UMV(UNV)T)=tr(UMNTUT)=tr(UUTMNT)=tr(MNT)=⟨M,N⟩\langle UMV,UMV\rangle=tr(UMV(UNV)^T) \\ = tr(UMN^TU^T)=tr(UU^TMN^T)=tr(MN^T)=\langle M,N \rangle⟨UMV,UMV⟩=tr(UMV(UNV)T)=tr(UMNTUT)=tr(UUTMNT)=tr(MNT)=⟨M,N⟩

对Nuclear Norm与Operator Norm也有类似性质，即orthogonal-invariant。对MMM做complete version SVD：M=UΣVTM=U\Sigma V^TM=UΣVT，然后在⟨M,N⟩\langle M,N\rangle⟨M,N⟩中左乘UTU^TUT右乘VVV将MMM变成只含奇异值的对角阵Σ\SigmaΣ，并记N~=UTNV\tilde N=U^TNVN~=UTNV，不妨假设d1≥d2d_1 \ge d_2d1≥d2，则
sup⁡∥N∥≤1⟨M,N⟩=sup⁡∥N~∥≤1⟨Σ,N~⟩=∑i=1d2σi=∥M∥∗\sup_{\left\| N \right\| \le 1}\langle M,N \rangle = \sup_{\left\| \tilde N \right\| \le 1} \langle \Sigma ,\tilde N \rangle=\sum_{i=1}^{d_2} \sigma_i = \left\| M\right\|_*∥N∥≤1sup⟨M,N⟩=∥N~∥≤1sup⟨Σ,N~⟩=i=1∑d2σi=∥M∥∗

上式成立的关键是第二个等号：

≥\ge≥: 取N~=[Id20]\tilde N=\left[ \begin{matrix} I_{d_2} \\ 0 \end{matrix} \right]N~=[Id20]，则⟨Σ,N~⟩=∑i=1d2σi\langle \Sigma ,\tilde N \rangle=\sum_{i=1}^{d_2} \sigma_i⟨Σ,N~⟩=∑i=1d2σi，因此sup⁡∥N~∥≤1⟨Σ,N~⟩\sup_{\left\| \tilde N \right\| \le 1} \langle \Sigma ,\tilde N \ranglesup∥N~∥≤1⟨Σ,N~⟩至少应该不小于∑i=1d2σi\sum_{i=1}^{d_2} \sigma_i∑i=1d2σi

≤\le≤: 因为∥N~∥≤1\left\| \tilde N \right\| \le 1∥∥∥N~∥∥∥≤1，于是它的列向量的L2L_2L2-norm不会大于1，所以∣N~ii∣≤1|\tilde N_{ii}| \le 1∣N~ii∣≤1，⟨Σ,N~⟩=∑i=1d2σiN~ii≤∑i=1d2σi\langle \Sigma ,\tilde N \rangle =\sum_{i=1}^{d_2} \sigma_i\tilde N_{ii}\le \sum_{i=1}^{d_2} \sigma_i⟨Σ,N~⟩=∑i=1d2σiN~ii≤∑i=1d2σi

类似地，
sup⁡∥N∥∗≤1⟨M,N⟩=sup⁡∥N~∥∗≤1⟨Σ,N~⟩=∥Σ∥sup⁡∥N~∥∗≤1⟨Σ/∥Σ∥,N~⟩=∥M∥sup⁡∥N~∥∗≤1⟨Σ/∥Σ∥,N~⟩\sup_{\left\| N \right\|_* \le 1}\langle M,N \rangle = \sup_{\left\| \tilde N \right\|_* \le 1} \langle \Sigma ,\tilde N \rangle \\ =\left\| \Sigma \right\| \sup_{\left\| \tilde N \right\|_* \le 1} \langle \Sigma/\left\| \Sigma \right\| ,\tilde N \rangle = \left\| M \right\| \sup_{\left\| \tilde N \right\|_* \le 1} \langle \Sigma/\left\| \Sigma \right\| ,\tilde N \rangle∥N∥∗≤1sup⟨M,N⟩=∥N~∥∗≤1sup⟨Σ,N~⟩=∥Σ∥∥N~∥∗≤1sup⟨Σ/∥Σ∥,N~⟩=∥M∥∥N~∥∗≤1sup⟨Σ/∥Σ∥,N~⟩

我们需要说明
sup⁡∥N~∥∗≤1⟨Σ/∥Σ∥,N~⟩=1\sup_{\left\| \tilde N \right\|_* \le 1} \langle \Sigma/\left\| \Sigma \right\| ,\tilde N \rangle=1∥N~∥∗≤1sup⟨Σ/∥Σ∥,N~⟩=1

≥1\ge 1≥1: 这两个矩阵第一个对角元都是1就可以得到内积为1的结果

≤1\le 1≤1: ⟨Σ/∥Σ∥,N~⟩=∑i=1d2σiσ1N~ii≤∑i=1d2∣N~ii∣≤∥N~∥∗≤1\langle \Sigma/\left\| \Sigma \right\| ,\tilde N \rangle=\sum_{i=1}^{d_2}\frac{\sigma_i}{\sigma_1}\tilde N_{ii} \le \sum_{i=1}^{d_2} |\tilde N_{ii}|\le\left\| \tilde N \right\|_* \le 1⟨Σ/∥Σ∥,N~⟩=∑i=1d2σ1σiN~ii≤∑i=1d2∣N~ii∣≤∥∥∥N~∥∥∥∗≤1

证毕

评注用定义验证Nuclear norm是范数需要正定、正齐次、三角不等式，前两个都是直接得到的，这里简单推导一下三角不等式：
∥M+M′∥∗=sup⁡∥N∥≤1⟨M+M′,N⟩≤sup⁡∥N∥≤1⟨M,N⟩+sup⁡∥N∥≤1⟨M′,N⟩=∥M∥∗+∥M′∥∗\left\|M+M' \right\|_* = \sup_{\left\| N \right\| \le 1}\langle M+M',N \rangle \\ \le \sup_{\left\| N \right\| \le 1}\langle M,N \rangle+\sup_{\left\| N \right\| \le 1}\langle M',N \rangle=\left\|M \right\|_*+\left\|M' \right\|_*∥M+M′∥∗=∥N∥≤1sup⟨M+M′,N⟩≤∥N∥≤1sup⟨M,N⟩+∥N∥≤1sup⟨M′,N⟩=∥M∥∗+∥M′∥∗

现在我们就可以把rank-minimization替换为nuclear norm minimization了，这是一个凸优化问题

min⁡Θ∥Θ∥∗s.t.y=X(Θ),X:Rd1×d2→Rn\min_{\Theta} \ \ \left\| \Theta \right\|_*\\ s.t. \ \ y=\mathcal{X}(\Theta),\mathcal{X}:\mathbb{R}^{d_1 \times d_2 } \to \mathbb{R}^nΘmin ∥Θ∥∗s.t. y=X(Θ),X:Rd1×d2→Rn

其中X\mathcal{X}X是一个三阶张量，它作用在Θ\ThetaΘ上得到一个nnn维向量，也可以用张量的二点积来表示
X(Θ)=(⟨X1,Θ⟩,⋯,⟨Xn,Θ⟩)T=X:Θ\mathcal{X}(\Theta)=(\langle X_1,\Theta \rangle,\cdots , \langle X_n, \Theta\rangle)^T = \mathcal{X}:\Theta X(Θ)=(⟨X1,Θ⟩,⋯,⟨Xn,Θ⟩)T=X:Θ

需要注意的是nuclear norm minimization是rank-minimization的convex relaxation，与L1L_1L1-norm作为L0L_0L0-norm的relaxation类似，在角点解处二者相等，所以可以得到一样的sparse solution，这个性质以下面的定理为基础：

定理在用算子范数定义的单位球Bop={M:∥M∥≤1}B_{op}=\{M:\left\| M \right\| \le 1\}Bop={M:∥M∥≤1}中，∥M∗∥\left\| M_* \right\|∥M∗∥是rank(M)rank(M)rank(M)的凸包络。

评注因为rank(M)rank(M)rank(M)是奇异值的0范数，nuclear norm是1范数，而L1L_1L1-norm是L0L_0L0-norm的凸包络，所以很自然可以发现nuclear norm就是rank的凸包络。严谨的证明需要对任意凸函数fff，说明f(M)≤rank(M),∀M∈Bopf(M) \le rank(M),\forall M \in B_{op}f(M)≤rank(M),∀M∈Bop ⇒\Rightarrow⇒ f(M)≤∥M∥∗f(M) \le \left\|M \right\|_*f(M)≤∥M∥∗，完整证明过程可以阅读Wright and Ma 2020年那本高维数据分析的section 4.3.3

UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm相关推荐

UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP
UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP Low-rank matrix completion的模型是rank minimization,上一讲我们介绍了 ...
UA MATH567 高维统计专题0 为什么需要高维统计理论？——高维统计理论的常用假设
UA MATH567 高维统计专题0 为什么需要高维统计理论?--高维统计理论的常用假设延续前三讲对线性判别分析的讨论,在高维时,根据中心极限定理 n(Xˉ−μ)→dN(0,Id)\sqrt{n} ...
UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Matrix Completion简介
UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Low-rank Matrix简介例在推荐系统中,Netflix data是非常经典的数据集.考虑它的电影评分数据,用矩阵的每 ...
UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介
UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介 Pairwise inc oherence Mutual Coherence RIP 前两讲介绍了L0-min ...
UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation
UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation L1L_1L1-norm minimization L1L_1L1 ...
UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimization
UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimization L0L^0L0-norm L0L_0L0-norm minimization Exhaustive ...
UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介
UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介 Stochastic Gradient Descent的思想 Varian ...
UA MATH567 高维统计专题3 含L1-norm的凸优化4 Nesterov方法与Accelerate Proximal Gradient
UA MATH567 高维统计专题3 含L1-norm的凸优化4 一阶方法的加速 Nesterov方法 Accelerate Proximal Gradient (APG) 梯度下降与Proximal ...
UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient Descent
UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient Descent Proximal Gradient Descent的公式推导 Proximal O ...

UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm

UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm

UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm相关推荐

最新文章

热门文章