7.4.1 矩阵低秩近似、矩阵范数
矩阵低秩近似、矩阵范数
根据奇异值分解,秩为 rrr 的任意矩阵 AAA 可分解为 rrr 个简单矩阵(秩为 111) σiuiviT\sigma_i\mathbf{u}_i\mathbf{v}^T_iσiuiviT 之和,且 σ1≥σ2≥⋯σr>0\sigma_1\ge \sigma_2 \ge \cdots \sigma_r > 0σ1≥σ2≥⋯σr>0,按重要性排序,即 A=UΣVT=σ1u1v1T+⋯+σrurvrTA = U\Sigma V^T = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_rA=UΣVT=σ1u1v1T+⋯+σrurvrT 。如果我们用秩为 k<rk < rk<r 的矩阵 BBB 来最优近似矩阵 AAA ,则 BBB 为多少呢?大家猜测应该是 Bk=σ1u1v1T+⋯+σkukvkTB_k = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_k\mathbf{u}_k\mathbf{v}^T_kBk=σ1u1v1T+⋯+σkukvkT 即取 AAA 前 kkk 个主成分近似 AAA ,这个就是 Eckart-Young-Mirsky 定理,称为矩阵低秩近似定理。
这里面有个问题是,矩阵 BBB 最优近似矩阵 AAA,那如何度量两个矩阵相似度?我们度量向量相似度是利用向量范数,即 ∥a−b∥\|\mathbf{a} - \mathbf{b} \|∥a−b∥ 越小则向量越相似。矩阵是一种变换,矩阵越相似则变换也越相似,即同一向量变换后的向量应该越相似,利用这个性质可以定义矩阵相似度。令 xA=Ax\mathbf{x}_A = A\mathbf{x}xA=Ax ,xB=Bx\mathbf{x}_B = B\mathbf{x}xB=Bx ,记 ∥A−B∥\|A-B\|∥A−B∥ 为矩阵相似度度量,为实数,值越小矩阵越相似,称为矩阵 A−BA-BA−B 范数,则
∥A−B∥=∥xA−xB∥=∥Ax−Bx∥=∥(A−B)x∥\|A-B\| = \| \mathbf{x}_A - \mathbf{x}_B \| = \|A\mathbf{x}-B\mathbf{x}\|= \|(A-B)\mathbf{x}\| ∥A−B∥=∥xA−xB∥=∥Ax−Bx∥=∥(A−B)x∥
当 x=0\mathbf{x}=\mathbf{0}x=0 是零向量时,∥A−B∥\|A-B\|∥A−B∥ 等于 000 ,即任意矩阵都完全相似,这显然不符合常识,故需对向量 x\mathbf{x}x 进行限定。不失一般性,令 ∥x∥=1\|\mathbf{x}\|=1∥x∥=1 即 x\mathbf{x}x 限定为单位向量。
向量 (A−B)x(A-B)\mathbf{x}(A−B)x 的范数随单位向量 x\mathbf{x}x 改变而改变,故应该采用 (A−B)x(A-B)\mathbf{x}(A−B)x 最大范数来度量矩阵范数 ∥A−B∥\|A-B\|∥A−B∥ 。
矩阵之差范数 ∥A−B∥=maxx∥(A−B)x∥\|A-B\| = max_\mathbf{x} \|(A-B)\mathbf{x}\|∥A−B∥=maxx∥(A−B)x∥, x\mathbf{x}x 为单位向量。
根据矩阵 A−B=UΣVTA-B = U\Sigma V^TA−B=UΣVT 奇异值分解,得
(A−B)x=(UΣVT)x=(σ1u1v1T+⋯+σrurvrT)x=σ1u1v1Tx+⋯+σrurvrTx=(σ1v1Tx)u1+⋯+(σrvrTx)ur(A-B)\mathbf{x} = (U\Sigma V^T)\mathbf{x} \\ = (\sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r)\mathbf{x} \\ = \sigma_1\mathbf{u}_1\mathbf{v}^T_1\mathbf{x} +\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r\mathbf{x} \\ = (\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r (A−B)x=(UΣVT)x=(σ1u1v1T+⋯+σrurvrT)x=σ1u1v1Tx+⋯+σrurvrTx=(σ1v1Tx)u1+⋯+(σrvrTx)ur
由于 ui\mathbf{u}_iui 正交,故
∥(A−B)x∥=∥(σ1v1Tx)u1+⋯+(σrvrTx)ur∥=(σ1v1Tx)2+⋯+(σrvrTx)2≤(σ1v1Tx)2+⋯+(σ1vrTx)2=σ1(v1Tx)2+⋯+(vrTx)2≤σ1(v1Tx)2+⋯+(vrTx)2+⋯+(vnTx)2=σ1∥x∥=σ1\|(A-B)\mathbf{x}\| = \|(\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r\| \\ = \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_1\mathbf{v}^T_r\mathbf{x})^2} \\ = \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2+\cdots+(\mathbf{v}^T_n\mathbf{x})^2} \\ = \sigma_1 \|\mathbf{x}\| \\ = \sigma_1 ∥(A−B)x∥=∥(σ1v1Tx)u1+⋯+(σrvrTx)ur∥=(σ1v1Tx)2+⋯+(σrvrTx)2≤(σ1v1Tx)2+⋯+(σ1vrTx)2=σ1(v1Tx)2+⋯+(vrTx)2≤σ1(v1Tx)2+⋯+(vrTx)2+⋯+(vnTx)2=σ1∥x∥=σ1
所以矩阵之差范数 ∥A−B∥=σ1\|A-B\| =\sigma_1∥A−B∥=σ1,即矩阵 A−BA-BA−B 最大奇异值。
根据矩阵低秩近似定理,A−Bk=σk+1uk+1vk+1T+⋯+σrurvrTA-B_k = \sigma_{k+1}\mathbf{u}_{k+1}\mathbf{v}^T_{k+1}+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_rA−Bk=σk+1uk+1vk+1T+⋯+σrurvrT ,故 ∥A−Bk∥=σk+1\|A-B_k\| = \sigma_{k+1}∥A−Bk∥=σk+1 即最优近似矩阵 BkB_kBk 与矩阵 AAA 之差范数为 σk+1\sigma_{k+1}σk+1 ,对其它任意秩为 kkk 的矩阵 BBB 均有 ∥A−B∥≥∥A−Bk∥\|A-B\| \ge \|A-B_k\|∥A−B∥≥∥A−Bk∥ 。
根据矩阵之差范数 ∥A−B∥=σ1\|A-B\| = \sigma_1∥A−B∥=σ1,令矩阵 B=OB=\mathbf{O}B=O 为零矩阵,得矩阵范数 ∥A∥=σ1\|A\| =\sigma_1∥A∥=σ1,即矩阵 AAA 最大奇异值。 根据范数定义,对任意单位向量 v\mathbf{v}v 有 ∥Av∥≤∥A∥=σ1\|A\mathbf{v}\| \le \|A\| = \sigma_1∥Av∥≤∥A∥=σ1 成立,所以矩阵范数就是变换单位向量的最大长度, v=v1\mathbf{v} = \mathbf{v}_1v=v1 时等号成立。
根据范数定义,范数具有如下性质:
齐次性:对任意实数 kkk,∥kA∥=∣k∣∥A∥\|kA\| = |k|\|A\|∥kA∥=∣k∣∥A∥;
范数相融性:对任意向量 x\mathbf{x}x,有 ∥Ax∥≤∥A∥∥x∥\|A\mathbf{x}\| \le \|A\|\|\mathbf{x}\|∥Ax∥≤∥A∥∥x∥ 成立。
三角不等式:∥A+B∥≤∥A∥+∥B∥\|A+B\| \le \|A\| + \|B\|∥A+B∥≤∥A∥+∥B∥ 。
证:根据向量范数三角不等式,对任意单位向量 x\mathbf{x}x ,∥(A+B)x∥=∥Ax+Bx∥≤∥Ax∥+∥Bx∥\|(A+B)\mathbf{x}\| = \|A\mathbf{x}+B\mathbf{x}\| \le \|A\mathbf{x}\| + \|B\mathbf{x}\|∥(A+B)x∥=∥Ax+Bx∥≤∥Ax∥+∥Bx∥ ,两边取范数得证。
矩阵乘积不等式:∥AB∥≤∥A∥∥B∥\|AB\| \le \|A\|\|B\|∥AB∥≤∥A∥∥B∥ 。
证:根据范数相融性,对任意单位向量 x\mathbf{x}x ,∥ABx∥≤∥A∥∥Bx∥\|AB\mathbf{x}\| \le \|A\|\|B\mathbf{x}\|∥ABx∥≤∥A∥∥Bx∥ ,两边取范数得证。
范数还具有如下性质:∥AT∥=∥A∥;∥ATA∥=∥AAT∥=∥A∥2\|A^T\| = \|A\|;\|A^TA\| = \|AA^T\| = \|A\|^2∥AT∥=∥A∥;∥ATA∥=∥AAT∥=∥A∥2,∥AA+∥=∥A+A∥=1\|AA^{+}\|=\|A^{+}A\| = 1∥AA+∥=∥A+A∥=1。
任意正交矩阵 U,VU,VU,V,有 ∥U∥=1;∥A∥=∥UA∥=∥AV∥=∥UAV∥\|U\| = 1;\|A\|=\|UA\|=\|AV\|=\|UAV\|∥U∥=1;∥A∥=∥UA∥=∥AV∥=∥UAV∥ 。
任意可逆矩阵 AAA,有 ∥A−1∥=1/σn\|A^{-1}\|=1/\sigma_n∥A−1∥=1/σn ,故 ∥A∥∥A−1∥=σ1/σn≥1\|A\|\|A^{-1}\|=\sigma_1/\sigma_n \ge 1∥A∥∥A−1∥=σ1/σn≥1 ,∥AA−1∥=1\|AA^{-1}\| = 1∥AA−1∥=1。
根据 σ1=∥A∥≥∥Av∥\sigma_1 = \|A\| \ge \|A\mathbf{v}\|σ1=∥A∥≥∥Av∥ 可知最大奇异值或矩阵范数很大,大于矩阵任意列向量的长度和任意元素,取 v=ei\mathbf{v} = \mathbf{e}_iv=ei 得 σ1=∥A∥≥∥Aei∥=∥ai∥≥∣aji∣\sigma_1 = \|A\| \ge \|A\mathbf{e}_i\| = \|\mathbf{a}_i\| \ge |a_{ji}|σ1=∥A∥≥∥Aei∥=∥ai∥≥∣aji∣ 。由于 ∥AT∥=∥A∥\|A^T\| = \|A\|∥AT∥=∥A∥ 故最大奇异值或矩阵范数大于矩阵任意行向量的长度。
奇异值有个重要且有趣的结论:任意矩阵 AAA 有 σ12+⋯+σr2=∑ijaij2\sigma^2_1+\cdots+\sigma^2_r = \sum_{ij} a^2_{ij}σ12+⋯+σr2=∑ijaij2 即奇异值平方和等于所有元素平方和,这个相当于能量守恒定律,矩阵能量是为所有元素平方和(类似动能为速度平方),奇异值能量为奇异值平方和。因为 r≪mnr \ll mnr≪mn 可知奇异值很大。
证:根据 ATA=VΣ2VTA^TA = V\Sigma^2 V^TATA=VΣ2VT 证明。
ATA=[a1Ta1a1Ta2⋯,a1Tan⋮anTa1anTa2⋯,anTan]A^TA= \left[ \begin{matrix} \mathbf{a^T_{1}}\mathbf{a_1} & \mathbf{a^T_{1}}\mathbf{a_2} \cdots, \mathbf{a^T_{1}}\mathbf{a_n}\\ \vdots \\ \mathbf{a^T_{n}}\mathbf{a_1} & \mathbf{a^T_{n}}\mathbf{a_2} \cdots, \mathbf{a^T_{n}}\mathbf{a_n} \end{matrix} \right] ATA=⎣⎢⎡a1Ta1⋮anTa1a1Ta2⋯,a1TananTa2⋯,anTan⎦⎥⎤
矩阵 ATAA^TAATA 对角元素之和为 a1Ta1+⋯+anTan=∑ijaij2\mathbf{a^T_{1}}\mathbf{a_1} + \cdots + \mathbf{a^T_{n}}\mathbf{a_n} = \sum_{ij} a^2_{ij}a1Ta1+⋯+anTan=∑ijaij2 为所有元素平方和。由于矩阵对角元素之和很重要,为此定义矩阵的迹。
矩阵迹 方阵对角元素之和,记为 trA=∑iaiitr A = \sum_i a_{ii}trA=∑iaii 。
矩阵迹重要性质:对同型方阵 A,BA,BA,B,有 trAB=trBAtr AB = tr BAtrAB=trBA 成立,这表明矩阵迹满足矩阵乘法交换律。
则 tr(VΣ2VT)=tr(VTVΣ2)=tr(Σ2)=∑iσi2tr (V\Sigma^2 V^T) = tr (V^TV\Sigma^2) = tr (\Sigma^2) = \sum_i \sigma^2_itr(VΣ2VT)=tr(VTVΣ2)=tr(Σ2)=∑iσi2 ,故 ∑ijaij2=∑iσi2\sum_{ij} a^2_{ij} = \sum_i \sigma^2_i∑ijaij2=∑iσi2 得证。
现证 trAB=trBAtr AB = tr BAtrAB=trBA 。
trAB=ar1Tb1+⋯+arnTbn=∑ijaijbjitr AB = \mathbf{a^T_{r1}}\mathbf{b_1} + \cdots + \mathbf{a^T_{rn}}\mathbf{b_n} = \sum_{ij} a_{ij}b_{ji} trAB=ar1Tb1+⋯+arnTbn=ij∑aijbji
trBA=br1Ta1+⋯+brnTan=∑ijbijaji=∑ijaijbji=trABtr BA = \mathbf{b^T_{r1}}\mathbf{a_1} + \cdots + \mathbf{b^T_{rn}}\mathbf{a_n} = \sum_{ij} b_{ij}a_{ji} = \sum_{ij} a_{ij}b_{ji} = tr AB trBA=br1Ta1+⋯+brnTan=ij∑bijaji=ij∑aijbji=trAB
根据对称矩阵谱分解定理 S=QΛQTS=Q \Lambda Q^TS=QΛQT,可得矩阵迹另一重要性质,trS=tr(QΛQT)=tr(QTQΛ)=trΛ=∑iλitr S = tr (Q\Lambda Q^T) = tr (Q^TQ\Lambda) = tr \Lambda = \sum_i \lambda_itrS=tr(QΛQT)=tr(QTQΛ)=trΛ=∑iλi 即对称矩阵的迹等于特征值之和。
7.4.1 矩阵低秩近似、矩阵范数相关推荐
- 高效深度学习软硬件设计——神经网络压缩、 Pruning模型剪枝、权值共享、低秩近似
目录 问题引出 高效推断的算法 Pruning模型剪枝 步骤 剪去参数--形状不规则 剪去神经元--形状仍然规则 Why Pruning Pruning Changes Weight Distribu ...
- MicroNet: 低秩近似分解卷积以及超强激活函数,碾压MobileNet | 2020新文分析
论文提出应对极低计算量场景的轻量级网络MicroNet,包含两个核心思路Micro-Factorized convolution和Dynamic Shift-Max,Micro-Factorized ...
- GLRAM-矩阵的广义低秩近似
GLRAM-矩阵的广义低秩近似 1 引言 2 矩阵的低秩近似(Low rank approximations of matrices) 3 矩阵广义低秩近似(Generalized low rank ...
- 矩阵低秩张量分解_TKDE 2020 | CTRR:组稀疏约束的紧凑张量环回归
论文标题:Smooth Compact Tensor Ring Regression论文作者:Jiani Liu, Ce Zhu, Yipeng Liu论文链接:https://ieeexplore. ...
- 矩阵低秩张量分解_【线性代数】张量-张量的计算
本来吧,觉得张量这个东西稍微混一混假装知道个大概就行了.昨天拿到角动量那一章的讲义以后我发现事情并没有那么简单--总而言之,欠下的东西早晚要还的--碎碎念到此结束,进入正题.张量专题初步计划是分三个板 ...
- 低秩矩阵补全算法matlab实现,推荐系统中的矩阵补全算法
最基本的问题,以用户电影评分为例,也就是这个用户-电影矩阵. 表中是用户多电影的评分,但评分有缺失,因为用户不可能对所有电影作出评价. 那么推荐问题就是给用户合理推荐一个没看过的电影,合理是指,预测用 ...
- 推荐系统之---如何理解低秩矩阵?
1.说明 在推荐系统中有有一种推荐方式:LFM,也叫隐因子分解.这中推荐方式在Netflix公司的百万美金大赛中可以说是大放异彩.但是在这里面涉及到一个假设.假设评分矩阵是低秩的(Low rank). ...
- 低秩矩阵(Low-Rank)的意义
1.回顾基础: 矩阵的秩度量的是矩阵行列之间的相关性,如果各行各列都是线性无关的,矩阵就是满秩.非零元素的行或列决定了秩的大小.//划重点,秩可以度量矩阵自身相关性 讲个小故事: 首先来思考,为什么叫 ...
- 基于低秩张量的高光谱图像重建理论基础-基础知识学习
原文<基于张量低秩稀疏恢复理论的遥感高光谱图像降噪研究> 本文为选择学习的部分章节的节选内容,根据个人学习侧重点,内容有所删减调整. [1]黎波. 基于张量低秩稀疏恢复理论的遥感高光谱图像 ...
最新文章
- redis集群之REDIS CLUSTER
- 话说:学好C语言,走遍天下都不怕
- redis实现session共享,哨兵
- 类中定义自身类的对象
- 网易致歉了,是为了员工还是为了舆论压力?
- WPF: 本地化(Localization) 实现
- js如何实现扫描身份证识别_JS调用阿里云OCR身份证识别
- 服务器msdtc没有安全显示项,MSDTC 疑难解答
- 【8015】对做产品有帮助的行外书
- 计算机游戏屏幕中,电脑屏幕上的游戏怎么录制
- 恶劣天气 3D 目标检测数据集收集
- 51单片机在物联网中的应用实战-熊健-专题视频课程
- TeamCity VS Jenkins:选择正确的CI / CD工具
- Mars XLog日志模块集成
- 凝望深渊,并发控制的尽头
- 【JVM】运行时数据区概述(程序计数器、虚拟机栈、本地方法栈)
- 打印机服务器型号有哪些,第二章 D-Link 打印机服务器支持打印机型号清单.pdf
- 根据经纬度获取具体位置(百度,Java实现)
- mavenmaven项目配置maven私服,从私服下载jar
- 书法拓片matlab,书法拓片是怎么做出来的?
热门文章
- HDU1054+最小顶点覆盖
- upload-labs--wp(21关)
- fusion360安装包_【请注意】2020年以前从Autodesk中国区网站下载的Fusion 360已不能自动升级...
- Towxml 3.0来了,让小程序完美支持Markdown
- 前端学习之JavaScript第二天学习
- 给一个元素插入一段HTML
- json数据格式化展示出来
- windows tomcat 升级openssl_Linunx开发环境配置——Tomcat
- getCurrentPages()
- 李彦宏妻子马东敏向中国科大捐赠1亿 成立蔷薇基金