矩阵低秩近似、矩阵范数

根据奇异值分解,秩为 rrr 的任意矩阵 AAA 可分解为 rrr 个简单矩阵(秩为 111) σiuiviT\sigma_i\mathbf{u}_i\mathbf{v}^T_iσi​ui​viT​ 之和,且 σ1≥σ2≥⋯σr>0\sigma_1\ge \sigma_2 \ge \cdots \sigma_r > 0σ1​≥σ2​≥⋯σr​>0,按重要性排序,即 A=UΣVT=σ1u1v1T+⋯+σrurvrTA = U\Sigma V^T = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_rA=UΣVT=σ1​u1​v1T​+⋯+σr​ur​vrT​ 。如果我们用秩为 k<rk < rk<r 的矩阵 BBB 来最优近似矩阵 AAA ,则 BBB 为多少呢?大家猜测应该是 Bk=σ1u1v1T+⋯+σkukvkTB_k = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_k\mathbf{u}_k\mathbf{v}^T_kBk​=σ1​u1​v1T​+⋯+σk​uk​vkT​ 即取 AAA 前 kkk 个主成分近似 AAA ,这个就是 Eckart-Young-Mirsky 定理,称为矩阵低秩近似定理。

这里面有个问题是,矩阵 BBB 最优近似矩阵 AAA,那如何度量两个矩阵相似度?我们度量向量相似度是利用向量范数,即 ∥a−b∥\|\mathbf{a} - \mathbf{b} \|∥a−b∥ 越小则向量越相似。矩阵是一种变换,矩阵越相似则变换也越相似,即同一向量变换后的向量应该越相似,利用这个性质可以定义矩阵相似度。令 xA=Ax\mathbf{x}_A = A\mathbf{x}xA​=Ax ,xB=Bx\mathbf{x}_B = B\mathbf{x}xB​=Bx ,记 ∥A−B∥\|A-B\|∥A−B∥ 为矩阵相似度度量,为实数,值越小矩阵越相似,称为矩阵 A−BA-BA−B 范数,则
∥A−B∥=∥xA−xB∥=∥Ax−Bx∥=∥(A−B)x∥\|A-B\| = \| \mathbf{x}_A - \mathbf{x}_B \| = \|A\mathbf{x}-B\mathbf{x}\|= \|(A-B)\mathbf{x}\| ∥A−B∥=∥xA​−xB​∥=∥Ax−Bx∥=∥(A−B)x∥

当 x=0\mathbf{x}=\mathbf{0}x=0 是零向量时,∥A−B∥\|A-B\|∥A−B∥ 等于 000 ,即任意矩阵都完全相似,这显然不符合常识,故需对向量 x\mathbf{x}x 进行限定。不失一般性,令 ∥x∥=1\|\mathbf{x}\|=1∥x∥=1 即 x\mathbf{x}x 限定为单位向量。

向量 (A−B)x(A-B)\mathbf{x}(A−B)x 的范数随单位向量 x\mathbf{x}x 改变而改变,故应该采用 (A−B)x(A-B)\mathbf{x}(A−B)x 最大范数来度量矩阵范数 ∥A−B∥\|A-B\|∥A−B∥ 。

矩阵之差范数 ∥A−B∥=maxx∥(A−B)x∥\|A-B\| = max_\mathbf{x} \|(A-B)\mathbf{x}\|∥A−B∥=maxx​∥(A−B)x∥, x\mathbf{x}x 为单位向量。

根据矩阵 A−B=UΣVTA-B = U\Sigma V^TA−B=UΣVT 奇异值分解,得
(A−B)x=(UΣVT)x=(σ1u1v1T+⋯+σrurvrT)x=σ1u1v1Tx+⋯+σrurvrTx=(σ1v1Tx)u1+⋯+(σrvrTx)ur(A-B)\mathbf{x} = (U\Sigma V^T)\mathbf{x} \\ = (\sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r)\mathbf{x} \\ = \sigma_1\mathbf{u}_1\mathbf{v}^T_1\mathbf{x} +\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r\mathbf{x} \\ = (\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r (A−B)x=(UΣVT)x=(σ1​u1​v1T​+⋯+σr​ur​vrT​)x=σ1​u1​v1T​x+⋯+σr​ur​vrT​x=(σ1​v1T​x)u1​+⋯+(σr​vrT​x)ur​

由于 ui\mathbf{u}_iui​ 正交,故
∥(A−B)x∥=∥(σ1v1Tx)u1+⋯+(σrvrTx)ur∥=(σ1v1Tx)2+⋯+(σrvrTx)2≤(σ1v1Tx)2+⋯+(σ1vrTx)2=σ1(v1Tx)2+⋯+(vrTx)2≤σ1(v1Tx)2+⋯+(vrTx)2+⋯+(vnTx)2=σ1∥x∥=σ1\|(A-B)\mathbf{x}\| = \|(\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r\| \\ = \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_1\mathbf{v}^T_r\mathbf{x})^2} \\ = \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2+\cdots+(\mathbf{v}^T_n\mathbf{x})^2} \\ = \sigma_1 \|\mathbf{x}\| \\ = \sigma_1 ∥(A−B)x∥=∥(σ1​v1T​x)u1​+⋯+(σr​vrT​x)ur​∥=(σ1​v1T​x)2+⋯+(σr​vrT​x)2​≤(σ1​v1T​x)2+⋯+(σ1​vrT​x)2​=σ1​(v1T​x)2+⋯+(vrT​x)2​≤σ1​(v1T​x)2+⋯+(vrT​x)2+⋯+(vnT​x)2​=σ1​∥x∥=σ1​

所以矩阵之差范数 ∥A−B∥=σ1\|A-B\| =\sigma_1∥A−B∥=σ1​,即矩阵 A−BA-BA−B 最大奇异值。

根据矩阵低秩近似定理,A−Bk=σk+1uk+1vk+1T+⋯+σrurvrTA-B_k = \sigma_{k+1}\mathbf{u}_{k+1}\mathbf{v}^T_{k+1}+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_rA−Bk​=σk+1​uk+1​vk+1T​+⋯+σr​ur​vrT​ ,故 ∥A−Bk∥=σk+1\|A-B_k\| = \sigma_{k+1}∥A−Bk​∥=σk+1​ 即最优近似矩阵 BkB_kBk​ 与矩阵 AAA 之差范数为 σk+1\sigma_{k+1}σk+1​ ,对其它任意秩为 kkk 的矩阵 BBB 均有 ∥A−B∥≥∥A−Bk∥\|A-B\| \ge \|A-B_k\|∥A−B∥≥∥A−Bk​∥ 。

根据矩阵之差范数 ∥A−B∥=σ1\|A-B\| = \sigma_1∥A−B∥=σ1​,令矩阵 B=OB=\mathbf{O}B=O 为零矩阵,得矩阵范数 ∥A∥=σ1\|A\| =\sigma_1∥A∥=σ1​,即矩阵 AAA 最大奇异值。 根据范数定义,对任意单位向量 v\mathbf{v}v 有 ∥Av∥≤∥A∥=σ1\|A\mathbf{v}\| \le \|A\| = \sigma_1∥Av∥≤∥A∥=σ1​ 成立,所以矩阵范数就是变换单位向量的最大长度, v=v1\mathbf{v} = \mathbf{v}_1v=v1​ 时等号成立。

根据范数定义,范数具有如下性质:

齐次性:对任意实数 kkk,∥kA∥=∣k∣∥A∥\|kA\| = |k|\|A\|∥kA∥=∣k∣∥A∥;

范数相融性:对任意向量 x\mathbf{x}x,有 ∥Ax∥≤∥A∥∥x∥\|A\mathbf{x}\| \le \|A\|\|\mathbf{x}\|∥Ax∥≤∥A∥∥x∥ 成立。

三角不等式:∥A+B∥≤∥A∥+∥B∥\|A+B\| \le \|A\| + \|B\|∥A+B∥≤∥A∥+∥B∥ 。

证:根据向量范数三角不等式,对任意单位向量 x\mathbf{x}x ,∥(A+B)x∥=∥Ax+Bx∥≤∥Ax∥+∥Bx∥\|(A+B)\mathbf{x}\| = \|A\mathbf{x}+B\mathbf{x}\| \le \|A\mathbf{x}\| + \|B\mathbf{x}\|∥(A+B)x∥=∥Ax+Bx∥≤∥Ax∥+∥Bx∥ ,两边取范数得证。

矩阵乘积不等式:∥AB∥≤∥A∥∥B∥\|AB\| \le \|A\|\|B\|∥AB∥≤∥A∥∥B∥ 。

证:根据范数相融性,对任意单位向量 x\mathbf{x}x ,∥ABx∥≤∥A∥∥Bx∥\|AB\mathbf{x}\| \le \|A\|\|B\mathbf{x}\|∥ABx∥≤∥A∥∥Bx∥ ,两边取范数得证。

范数还具有如下性质:∥AT∥=∥A∥;∥ATA∥=∥AAT∥=∥A∥2\|A^T\| = \|A\|;\|A^TA\| = \|AA^T\| = \|A\|^2∥AT∥=∥A∥;∥ATA∥=∥AAT∥=∥A∥2,∥AA+∥=∥A+A∥=1\|AA^{+}\|=\|A^{+}A\| = 1∥AA+∥=∥A+A∥=1。
任意正交矩阵 U,VU,VU,V,有 ∥U∥=1;∥A∥=∥UA∥=∥AV∥=∥UAV∥\|U\| = 1;\|A\|=\|UA\|=\|AV\|=\|UAV\|∥U∥=1;∥A∥=∥UA∥=∥AV∥=∥UAV∥ 。

任意可逆矩阵 AAA,有 ∥A−1∥=1/σn\|A^{-1}\|=1/\sigma_n∥A−1∥=1/σn​ ,故 ∥A∥∥A−1∥=σ1/σn≥1\|A\|\|A^{-1}\|=\sigma_1/\sigma_n \ge 1∥A∥∥A−1∥=σ1​/σn​≥1 ,∥AA−1∥=1\|AA^{-1}\| = 1∥AA−1∥=1。

根据 σ1=∥A∥≥∥Av∥\sigma_1 = \|A\| \ge \|A\mathbf{v}\|σ1​=∥A∥≥∥Av∥ 可知最大奇异值或矩阵范数很大,大于矩阵任意列向量的长度和任意元素,取 v=ei\mathbf{v} = \mathbf{e}_iv=ei​ 得 σ1=∥A∥≥∥Aei∥=∥ai∥≥∣aji∣\sigma_1 = \|A\| \ge \|A\mathbf{e}_i\| = \|\mathbf{a}_i\| \ge |a_{ji}|σ1​=∥A∥≥∥Aei​∥=∥ai​∥≥∣aji​∣ 。由于 ∥AT∥=∥A∥\|A^T\| = \|A\|∥AT∥=∥A∥ 故最大奇异值或矩阵范数大于矩阵任意行向量的长度。

奇异值有个重要且有趣的结论:任意矩阵 AAA 有 σ12+⋯+σr2=∑ijaij2\sigma^2_1+\cdots+\sigma^2_r = \sum_{ij} a^2_{ij}σ12​+⋯+σr2​=∑ij​aij2​ 即奇异值平方和等于所有元素平方和,这个相当于能量守恒定律,矩阵能量是为所有元素平方和(类似动能为速度平方),奇异值能量为奇异值平方和。因为 r≪mnr \ll mnr≪mn 可知奇异值很大。
证:根据 ATA=VΣ2VTA^TA = V\Sigma^2 V^TATA=VΣ2VT 证明。
ATA=[a1Ta1a1Ta2⋯,a1Tan⋮anTa1anTa2⋯,anTan]A^TA= \left[ \begin{matrix} \mathbf{a^T_{1}}\mathbf{a_1} & \mathbf{a^T_{1}}\mathbf{a_2} \cdots, \mathbf{a^T_{1}}\mathbf{a_n}\\ \vdots \\ \mathbf{a^T_{n}}\mathbf{a_1} & \mathbf{a^T_{n}}\mathbf{a_2} \cdots, \mathbf{a^T_{n}}\mathbf{a_n} \end{matrix} \right] ATA=⎣⎢⎡​a1T​a1​⋮anT​a1​​a1T​a2​⋯,a1T​an​anT​a2​⋯,anT​an​​⎦⎥⎤​
矩阵 ATAA^TAATA 对角元素之和为 a1Ta1+⋯+anTan=∑ijaij2\mathbf{a^T_{1}}\mathbf{a_1} + \cdots + \mathbf{a^T_{n}}\mathbf{a_n} = \sum_{ij} a^2_{ij}a1T​a1​+⋯+anT​an​=∑ij​aij2​ 为所有元素平方和。由于矩阵对角元素之和很重要,为此定义矩阵的迹。
矩阵迹 方阵对角元素之和,记为 trA=∑iaiitr A = \sum_i a_{ii}trA=∑i​aii​ 。
矩阵迹重要性质:对同型方阵 A,BA,BA,B,有 trAB=trBAtr AB = tr BAtrAB=trBA 成立,这表明矩阵迹满足矩阵乘法交换律
则 tr(VΣ2VT)=tr(VTVΣ2)=tr(Σ2)=∑iσi2tr (V\Sigma^2 V^T) = tr (V^TV\Sigma^2) = tr (\Sigma^2) = \sum_i \sigma^2_itr(VΣ2VT)=tr(VTVΣ2)=tr(Σ2)=∑i​σi2​ ,故 ∑ijaij2=∑iσi2\sum_{ij} a^2_{ij} = \sum_i \sigma^2_i∑ij​aij2​=∑i​σi2​ 得证。

现证 trAB=trBAtr AB = tr BAtrAB=trBA 。
trAB=ar1Tb1+⋯+arnTbn=∑ijaijbjitr AB = \mathbf{a^T_{r1}}\mathbf{b_1} + \cdots + \mathbf{a^T_{rn}}\mathbf{b_n} = \sum_{ij} a_{ij}b_{ji} trAB=ar1T​b1​+⋯+arnT​bn​=ij∑​aij​bji​

trBA=br1Ta1+⋯+brnTan=∑ijbijaji=∑ijaijbji=trABtr BA = \mathbf{b^T_{r1}}\mathbf{a_1} + \cdots + \mathbf{b^T_{rn}}\mathbf{a_n} = \sum_{ij} b_{ij}a_{ji} = \sum_{ij} a_{ij}b_{ji} = tr AB trBA=br1T​a1​+⋯+brnT​an​=ij∑​bij​aji​=ij∑​aij​bji​=trAB

根据对称矩阵谱分解定理 S=QΛQTS=Q \Lambda Q^TS=QΛQT,可得矩阵迹另一重要性质,trS=tr(QΛQT)=tr(QTQΛ)=trΛ=∑iλitr S = tr (Q\Lambda Q^T) = tr (Q^TQ\Lambda) = tr \Lambda = \sum_i \lambda_itrS=tr(QΛQT)=tr(QTQΛ)=trΛ=∑i​λi​ 即对称矩阵的迹等于特征值之和

7.4.1 矩阵低秩近似、矩阵范数相关推荐

  1. 高效深度学习软硬件设计——神经网络压缩、 Pruning模型剪枝、权值共享、低秩近似

    目录 问题引出 高效推断的算法 Pruning模型剪枝 步骤 剪去参数--形状不规则 剪去神经元--形状仍然规则 Why Pruning Pruning Changes Weight Distribu ...

  2. MicroNet: 低秩近似分解卷积以及超强激活函数,碾压MobileNet | 2020新文分析

    论文提出应对极低计算量场景的轻量级网络MicroNet,包含两个核心思路Micro-Factorized convolution和Dynamic Shift-Max,Micro-Factorized ...

  3. GLRAM-矩阵的广义低秩近似

    GLRAM-矩阵的广义低秩近似 1 引言 2 矩阵的低秩近似(Low rank approximations of matrices) 3 矩阵广义低秩近似(Generalized low rank ...

  4. 矩阵低秩张量分解_TKDE 2020 | CTRR:组稀疏约束的紧凑张量环回归

    论文标题:Smooth Compact Tensor Ring Regression论文作者:Jiani Liu, Ce Zhu, Yipeng Liu论文链接:https://ieeexplore. ...

  5. 矩阵低秩张量分解_【线性代数】张量-张量的计算

    本来吧,觉得张量这个东西稍微混一混假装知道个大概就行了.昨天拿到角动量那一章的讲义以后我发现事情并没有那么简单--总而言之,欠下的东西早晚要还的--碎碎念到此结束,进入正题.张量专题初步计划是分三个板 ...

  6. 低秩矩阵补全算法matlab实现,推荐系统中的矩阵补全算法

    最基本的问题,以用户电影评分为例,也就是这个用户-电影矩阵. 表中是用户多电影的评分,但评分有缺失,因为用户不可能对所有电影作出评价. 那么推荐问题就是给用户合理推荐一个没看过的电影,合理是指,预测用 ...

  7. 推荐系统之---如何理解低秩矩阵?

    1.说明 在推荐系统中有有一种推荐方式:LFM,也叫隐因子分解.这中推荐方式在Netflix公司的百万美金大赛中可以说是大放异彩.但是在这里面涉及到一个假设.假设评分矩阵是低秩的(Low rank). ...

  8. 低秩矩阵(Low-Rank)的意义

    1.回顾基础: 矩阵的秩度量的是矩阵行列之间的相关性,如果各行各列都是线性无关的,矩阵就是满秩.非零元素的行或列决定了秩的大小.//划重点,秩可以度量矩阵自身相关性 讲个小故事: 首先来思考,为什么叫 ...

  9. 基于低秩张量的高光谱图像重建理论基础-基础知识学习

    原文<基于张量低秩稀疏恢复理论的遥感高光谱图像降噪研究> 本文为选择学习的部分章节的节选内容,根据个人学习侧重点,内容有所删减调整. [1]黎波. 基于张量低秩稀疏恢复理论的遥感高光谱图像 ...

最新文章

  1. redis集群之REDIS CLUSTER
  2. 话说:学好C语言,走遍天下都不怕
  3. redis实现session共享,哨兵
  4. 类中定义自身类的对象
  5. 网易致歉了,是为了员工还是为了舆论压力?
  6. WPF: 本地化(Localization) 实现
  7. js如何实现扫描身份证识别_JS调用阿里云OCR身份证识别
  8. 服务器msdtc没有安全显示项,MSDTC 疑难解答
  9. 【8015】对做产品有帮助的行外书
  10. 计算机游戏屏幕中,电脑屏幕上的游戏怎么录制
  11. 恶劣天气 3D 目标检测数据集收集
  12. 51单片机在物联网中的应用实战-熊健-专题视频课程
  13. TeamCity VS Jenkins:选择正确的CI / CD工具
  14. Mars XLog日志模块集成
  15. 凝望深渊,并发控制的尽头
  16. 【JVM】运行时数据区概述(程序计数器、虚拟机栈、本地方法栈)
  17. 打印机服务器型号有哪些,第二章 D-Link 打印机服务器支持打印机型号清单.pdf
  18. 根据经纬度获取具体位置(百度,Java实现)
  19. mavenmaven项目配置maven私服,从私服下载jar
  20. 书法拓片matlab,书法拓片是怎么做出来的?

热门文章

  1. HDU1054+最小顶点覆盖
  2. upload-labs--wp(21关)
  3. fusion360安装包_【请注意】2020年以前从Autodesk中国区网站下载的Fusion 360已不能自动升级...
  4. Towxml 3.0来了,让小程序完美支持Markdown
  5. 前端学习之JavaScript第二天学习
  6. 给一个元素插入一段HTML
  7. json数据格式化展示出来
  8. windows tomcat 升级openssl_Linunx开发环境配置——Tomcat
  9. getCurrentPages()
  10. 李彦宏妻子马东敏向中国科大捐赠1亿 成立蔷薇基金