7.4.1 矩阵低秩近似、矩阵范数

矩阵低秩近似、矩阵范数

根据奇异值分解，秩为 rrr 的任意矩阵 AAA 可分解为 rrr 个简单矩阵（秩为 111） σiuiviT\sigma_i\mathbf{u}_i\mathbf{v}^T_iσiuiviT 之和，且 σ1≥σ2≥⋯σr>0\sigma_1\ge \sigma_2 \ge \cdots \sigma_r > 0σ1≥σ2≥⋯σr>0，按重要性排序，即 A=UΣVT=σ1u1v1T+⋯+σrurvrTA = U\Sigma V^T = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_rA=UΣVT=σ1u1v1T+⋯+σrurvrT 。如果我们用秩为 k<rk < rk<r 的矩阵 BBB 来最优近似矩阵 AAA ，则 BBB 为多少呢？大家猜测应该是 Bk=σ1u1v1T+⋯+σkukvkTB_k = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_k\mathbf{u}_k\mathbf{v}^T_kBk=σ1u1v1T+⋯+σkukvkT 即取 AAA 前 kkk 个主成分近似 AAA ，这个就是 Eckart-Young-Mirsky 定理，称为矩阵低秩近似定理。

这里面有个问题是，矩阵 BBB 最优近似矩阵 AAA，那如何度量两个矩阵相似度？我们度量向量相似度是利用向量范数，即 ∥a−b∥\|\mathbf{a} - \mathbf{b} \|∥a−b∥ 越小则向量越相似。矩阵是一种变换，矩阵越相似则变换也越相似，即同一向量变换后的向量应该越相似，利用这个性质可以定义矩阵相似度。令 xA=Ax\mathbf{x}_A = A\mathbf{x}xA=Ax ，xB=Bx\mathbf{x}_B = B\mathbf{x}xB=Bx ，记 ∥A−B∥\|A-B\|∥A−B∥ 为矩阵相似度度量，为实数，值越小矩阵越相似，称为矩阵 A−BA-BA−B 范数，则
∥A−B∥=∥xA−xB∥=∥Ax−Bx∥=∥(A−B)x∥\|A-B\| = \| \mathbf{x}_A - \mathbf{x}_B \| = \|A\mathbf{x}-B\mathbf{x}\|= \|(A-B)\mathbf{x}\| ∥A−B∥=∥xA−xB∥=∥Ax−Bx∥=∥(A−B)x∥

当 x=0\mathbf{x}=\mathbf{0}x=0 是零向量时，∥A−B∥\|A-B\|∥A−B∥ 等于 000 ，即任意矩阵都完全相似，这显然不符合常识，故需对向量 x\mathbf{x}x 进行限定。不失一般性，令 ∥x∥=1\|\mathbf{x}\|=1∥x∥=1 即 x\mathbf{x}x 限定为单位向量。

向量 (A−B)x(A-B)\mathbf{x}(A−B)x 的范数随单位向量 x\mathbf{x}x 改变而改变，故应该采用 (A−B)x(A-B)\mathbf{x}(A−B)x 最大范数来度量矩阵范数 ∥A−B∥\|A-B\|∥A−B∥ 。

矩阵之差范数 ∥A−B∥=maxx∥(A−B)x∥\|A-B\| = max_\mathbf{x} \|(A-B)\mathbf{x}\|∥A−B∥=maxx∥(A−B)x∥， x\mathbf{x}x 为单位向量。

根据矩阵 A−B=UΣVTA-B = U\Sigma V^TA−B=UΣVT 奇异值分解，得
(A−B)x=(UΣVT)x=(σ1u1v1T+⋯+σrurvrT)x=σ1u1v1Tx+⋯+σrurvrTx=(σ1v1Tx)u1+⋯+(σrvrTx)ur(A-B)\mathbf{x} = (U\Sigma V^T)\mathbf{x} \\ = (\sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r)\mathbf{x} \\ = \sigma_1\mathbf{u}_1\mathbf{v}^T_1\mathbf{x} +\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r\mathbf{x} \\ = (\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r (A−B)x=(UΣVT)x=(σ1u1v1T+⋯+σrurvrT)x=σ1u1v1Tx+⋯+σrurvrTx=(σ1v1Tx)u1+⋯+(σrvrTx)ur

由于 ui\mathbf{u}_iui 正交，故
∥(A−B)x∥=∥(σ1v1Tx)u1+⋯+(σrvrTx)ur∥=(σ1v1Tx)2+⋯+(σrvrTx)2≤(σ1v1Tx)2+⋯+(σ1vrTx)2=σ1(v1Tx)2+⋯+(vrTx)2≤σ1(v1Tx)2+⋯+(vrTx)2+⋯+(vnTx)2=σ1∥x∥=σ1\|(A-B)\mathbf{x}\| = \|(\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r\| \\ = \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_1\mathbf{v}^T_r\mathbf{x})^2} \\ = \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2+\cdots+(\mathbf{v}^T_n\mathbf{x})^2} \\ = \sigma_1 \|\mathbf{x}\| \\ = \sigma_1 ∥(A−B)x∥=∥(σ1v1Tx)u1+⋯+(σrvrTx)ur∥=(σ1v1Tx)2+⋯+(σrvrTx)2≤(σ1v1Tx)2+⋯+(σ1vrTx)2=σ1(v1Tx)2+⋯+(vrTx)2≤σ1(v1Tx)2+⋯+(vrTx)2+⋯+(vnTx)2=σ1∥x∥=σ1

所以矩阵之差范数 ∥A−B∥=σ1\|A-B\| =\sigma_1∥A−B∥=σ1，即矩阵 A−BA-BA−B 最大奇异值。

根据矩阵低秩近似定理，A−Bk=σk+1uk+1vk+1T+⋯+σrurvrTA-B_k = \sigma_{k+1}\mathbf{u}_{k+1}\mathbf{v}^T_{k+1}+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_rA−Bk=σk+1uk+1vk+1T+⋯+σrurvrT ，故 ∥A−Bk∥=σk+1\|A-B_k\| = \sigma_{k+1}∥A−Bk∥=σk+1 即最优近似矩阵 BkB_kBk 与矩阵 AAA 之差范数为 σk+1\sigma_{k+1}σk+1 ，对其它任意秩为 kkk 的矩阵 BBB 均有 ∥A−B∥≥∥A−Bk∥\|A-B\| \ge \|A-B_k\|∥A−B∥≥∥A−Bk∥ 。

根据矩阵之差范数 ∥A−B∥=σ1\|A-B\| = \sigma_1∥A−B∥=σ1，令矩阵 B=OB=\mathbf{O}B=O 为零矩阵，得矩阵范数 ∥A∥=σ1\|A\| =\sigma_1∥A∥=σ1，即矩阵 AAA 最大奇异值。根据范数定义，对任意单位向量 v\mathbf{v}v 有 ∥Av∥≤∥A∥=σ1\|A\mathbf{v}\| \le \|A\| = \sigma_1∥Av∥≤∥A∥=σ1 成立，所以矩阵范数就是变换单位向量的最大长度， v=v1\mathbf{v} = \mathbf{v}_1v=v1 时等号成立。

根据范数定义，范数具有如下性质：

齐次性：对任意实数 kkk，∥kA∥=∣k∣∥A∥\|kA\| = |k|\|A\|∥kA∥=∣k∣∥A∥；

范数相融性：对任意向量 x\mathbf{x}x，有 ∥Ax∥≤∥A∥∥x∥\|A\mathbf{x}\| \le \|A\|\|\mathbf{x}\|∥Ax∥≤∥A∥∥x∥ 成立。

三角不等式：∥A+B∥≤∥A∥+∥B∥\|A+B\| \le \|A\| + \|B\|∥A+B∥≤∥A∥+∥B∥ 。

证：根据向量范数三角不等式，对任意单位向量 x\mathbf{x}x ，∥(A+B)x∥=∥Ax+Bx∥≤∥Ax∥+∥Bx∥\|(A+B)\mathbf{x}\| = \|A\mathbf{x}+B\mathbf{x}\| \le \|A\mathbf{x}\| + \|B\mathbf{x}\|∥(A+B)x∥=∥Ax+Bx∥≤∥Ax∥+∥Bx∥ ，两边取范数得证。

矩阵乘积不等式：∥AB∥≤∥A∥∥B∥\|AB\| \le \|A\|\|B\|∥AB∥≤∥A∥∥B∥ 。

证：根据范数相融性，对任意单位向量 x\mathbf{x}x ，∥ABx∥≤∥A∥∥Bx∥\|AB\mathbf{x}\| \le \|A\|\|B\mathbf{x}\|∥ABx∥≤∥A∥∥Bx∥ ，两边取范数得证。

范数还具有如下性质：∥AT∥=∥A∥；∥ATA∥=∥AAT∥=∥A∥2\|A^T\| = \|A\|；\|A^TA\| = \|AA^T\| = \|A\|^2∥AT∥=∥A∥；∥ATA∥=∥AAT∥=∥A∥2，∥AA+∥=∥A+A∥=1\|AA^{+}\|=\|A^{+}A\| = 1∥AA+∥=∥A+A∥=1。
任意正交矩阵 U,VU,VU,V，有 ∥U∥=1；∥A∥=∥UA∥=∥AV∥=∥UAV∥\|U\| = 1；\|A\|=\|UA\|=\|AV\|=\|UAV\|∥U∥=1；∥A∥=∥UA∥=∥AV∥=∥UAV∥ 。

任意可逆矩阵 AAA，有 ∥A−1∥=1/σn\|A^{-1}\|=1/\sigma_n∥A−1∥=1/σn ，故 ∥A∥∥A−1∥=σ1/σn≥1\|A\|\|A^{-1}\|=\sigma_1/\sigma_n \ge 1∥A∥∥A−1∥=σ1/σn≥1 ，∥AA−1∥=1\|AA^{-1}\| = 1∥AA−1∥=1。

根据 σ1=∥A∥≥∥Av∥\sigma_1 = \|A\| \ge \|A\mathbf{v}\|σ1=∥A∥≥∥Av∥ 可知最大奇异值或矩阵范数很大，大于矩阵任意列向量的长度和任意元素，取 v=ei\mathbf{v} = \mathbf{e}_iv=ei 得 σ1=∥A∥≥∥Aei∥=∥ai∥≥∣aji∣\sigma_1 = \|A\| \ge \|A\mathbf{e}_i\| = \|\mathbf{a}_i\| \ge |a_{ji}|σ1=∥A∥≥∥Aei∥=∥ai∥≥∣aji∣ 。由于 ∥AT∥=∥A∥\|A^T\| = \|A\|∥AT∥=∥A∥ 故最大奇异值或矩阵范数大于矩阵任意行向量的长度。

奇异值有个重要且有趣的结论：任意矩阵 AAA 有 σ12+⋯+σr2=∑ijaij2\sigma^2_1+\cdots+\sigma^2_r = \sum_{ij} a^2_{ij}σ12+⋯+σr2=∑ijaij2 即奇异值平方和等于所有元素平方和，这个相当于能量守恒定律，矩阵能量是为所有元素平方和（类似动能为速度平方），奇异值能量为奇异值平方和。因为 r≪mnr \ll mnr≪mn 可知奇异值很大。
证：根据 ATA=VΣ2VTA^TA = V\Sigma^2 V^TATA=VΣ2VT 证明。
ATA=[a1Ta1a1Ta2⋯,a1Tan⋮anTa1anTa2⋯,anTan]A^TA= \left[ \begin{matrix} \mathbf{a^T_{1}}\mathbf{a_1} & \mathbf{a^T_{1}}\mathbf{a_2} \cdots, \mathbf{a^T_{1}}\mathbf{a_n}\\ \vdots \\ \mathbf{a^T_{n}}\mathbf{a_1} & \mathbf{a^T_{n}}\mathbf{a_2} \cdots, \mathbf{a^T_{n}}\mathbf{a_n} \end{matrix} \right] ATA=⎣⎢⎡a1Ta1⋮anTa1a1Ta2⋯,a1TananTa2⋯,anTan⎦⎥⎤
矩阵 ATAA^TAATA 对角元素之和为 a1Ta1+⋯+anTan=∑ijaij2\mathbf{a^T_{1}}\mathbf{a_1} + \cdots + \mathbf{a^T_{n}}\mathbf{a_n} = \sum_{ij} a^2_{ij}a1Ta1+⋯+anTan=∑ijaij2 为所有元素平方和。由于矩阵对角元素之和很重要，为此定义矩阵的迹。
矩阵迹 方阵对角元素之和，记为 trA=∑iaiitr A = \sum_i a_{ii}trA=∑iaii 。
矩阵迹重要性质：对同型方阵 A,BA,BA,B，有 trAB=trBAtr AB = tr BAtrAB=trBA 成立，这表明矩阵迹满足矩阵乘法交换律。
则 tr(VΣ2VT)=tr(VTVΣ2)=tr(Σ2)=∑iσi2tr (V\Sigma^2 V^T) = tr (V^TV\Sigma^2) = tr (\Sigma^2) = \sum_i \sigma^2_itr(VΣ2VT)=tr(VTVΣ2)=tr(Σ2)=∑iσi2 ，故 ∑ijaij2=∑iσi2\sum_{ij} a^2_{ij} = \sum_i \sigma^2_i∑ijaij2=∑iσi2 得证。

现证 trAB=trBAtr AB = tr BAtrAB=trBA 。
trAB=ar1Tb1+⋯+arnTbn=∑ijaijbjitr AB = \mathbf{a^T_{r1}}\mathbf{b_1} + \cdots + \mathbf{a^T_{rn}}\mathbf{b_n} = \sum_{ij} a_{ij}b_{ji} trAB=ar1Tb1+⋯+arnTbn=ij∑aijbji

trBA=br1Ta1+⋯+brnTan=∑ijbijaji=∑ijaijbji=trABtr BA = \mathbf{b^T_{r1}}\mathbf{a_1} + \cdots + \mathbf{b^T_{rn}}\mathbf{a_n} = \sum_{ij} b_{ij}a_{ji} = \sum_{ij} a_{ij}b_{ji} = tr AB trBA=br1Ta1+⋯+brnTan=ij∑bijaji=ij∑aijbji=trAB

根据对称矩阵谱分解定理 S=QΛQTS=Q \Lambda Q^TS=QΛQT，可得矩阵迹另一重要性质，trS=tr(QΛQT)=tr(QTQΛ)=trΛ=∑iλitr S = tr (Q\Lambda Q^T) = tr (Q^TQ\Lambda) = tr \Lambda = \sum_i \lambda_itrS=tr(QΛQT)=tr(QTQΛ)=trΛ=∑iλi 即对称矩阵的迹等于特征值之和。

7.4.1 矩阵低秩近似、矩阵范数相关推荐

高效深度学习软硬件设计——神经网络压缩、 Pruning模型剪枝、权值共享、低秩近似
目录问题引出高效推断的算法 Pruning模型剪枝步骤剪去参数--形状不规则剪去神经元--形状仍然规则 Why Pruning Pruning Changes Weight Distribu ...
MicroNet: 低秩近似分解卷积以及超强激活函数，碾压MobileNet | 2020新文分析
论文提出应对极低计算量场景的轻量级网络MicroNet,包含两个核心思路Micro-Factorized convolution和Dynamic Shift-Max,Micro-Factorized ...
GLRAM-矩阵的广义低秩近似
GLRAM-矩阵的广义低秩近似 1 引言 2 矩阵的低秩近似(Low rank approximations of matrices) 3 矩阵广义低秩近似(Generalized low rank ...
矩阵低秩张量分解_TKDE 2020 | CTRR：组稀疏约束的紧凑张量环回归
论文标题:Smooth Compact Tensor Ring Regression论文作者:Jiani Liu, Ce Zhu, Yipeng Liu论文链接:https://ieeexplore. ...
矩阵低秩张量分解_【线性代数】张量-张量的计算
本来吧,觉得张量这个东西稍微混一混假装知道个大概就行了.昨天拿到角动量那一章的讲义以后我发现事情并没有那么简单--总而言之,欠下的东西早晚要还的--碎碎念到此结束,进入正题.张量专题初步计划是分三个板 ...
低秩矩阵补全算法matlab实现,推荐系统中的矩阵补全算法
最基本的问题,以用户电影评分为例,也就是这个用户-电影矩阵. 表中是用户多电影的评分,但评分有缺失,因为用户不可能对所有电影作出评价. 那么推荐问题就是给用户合理推荐一个没看过的电影,合理是指,预测用 ...
推荐系统之---如何理解低秩矩阵？
1.说明在推荐系统中有有一种推荐方式:LFM,也叫隐因子分解.这中推荐方式在Netflix公司的百万美金大赛中可以说是大放异彩.但是在这里面涉及到一个假设.假设评分矩阵是低秩的(Low rank). ...
低秩矩阵(Low-Rank)的意义
1．回顾基础: 矩阵的秩度量的是矩阵行列之间的相关性,如果各行各列都是线性无关的,矩阵就是满秩.非零元素的行或列决定了秩的大小.//划重点,秩可以度量矩阵自身相关性讲个小故事: 首先来思考,为什么叫 ...
基于低秩张量的高光谱图像重建理论基础-基础知识学习
原文<基于张量低秩稀疏恢复理论的遥感高光谱图像降噪研究> 本文为选择学习的部分章节的节选内容,根据个人学习侧重点,内容有所删减调整. [1]黎波. 基于张量低秩稀疏恢复理论的遥感高光谱图像 ...

7.4.1 矩阵低秩近似、矩阵范数

矩阵低秩近似、矩阵范数

7.4.1 矩阵低秩近似、矩阵范数相关推荐

最新文章

热门文章