矩阵分析与应用（一）——矩阵基础知识、广义逆

文章目录

前言
部分符号约定
关于矩阵理论的碎碎念
一些基础知识与本门课知识串讲
- 矩阵奇异与线性无关
- 向量空间、内积、范数
- 行列式、特征值、迹
逆、广义逆
矩阵方程、向量化、Kronecker积
- 向量化、矩阵化
- 交换矩阵
- 矩阵直和
- Kronecker积
- 两个矩阵方程
- Hadamard积
结语与综述

前言

以前自学过一些矩阵分析，现在研究生再次学到这门课，倍感亲切。因为是上网课，相当于再自学一遍，顺便将自学笔记整理发出来。

在本系列文章中，你可以抛开那些繁琐的证明细节，尽情享受整个矩阵理论体系的引入与推导逻辑。同时，你也可以看到一些笔者对矩阵理论知识的个人体悟，这些内容通常是书上不会告诉你的。

但反过来说，本系列文章也尽量不会有证明的详细细节，本系列文章更像是一个引导者，引导读者进入矩阵理论的大门，对于具体细节的探索还需要结合教科书进行。

参考书目：张贤达《矩阵分析与应用》（第二版）

部分符号约定

为了统一起见，引入一些默认的约定。

一般而言，粗体大写字母（如 A\boldsymbol{A}A ）代表矩阵，粗体小写字母（如 b\boldsymbol{b}b ）代表列向量，粗体小写字母的转置（如 xT\boldsymbol{x}^\mathrm{T}xT ）代表行向量
如 xT\boldsymbol{x}^\mathrm{T}xT 代表转置， x∗\boldsymbol{x}^*x∗ 代表共轭， xH\boldsymbol{x}^\mathrm{H}xH 代表共轭转置。 I\boldsymbol{I}I 代表单位矩阵， O\boldsymbol{O}O 代表零矩阵。

关于矩阵理论的碎碎念

我认为有必要在全文之处强调一个常被工科生忽略的地方，许多工科生对矩阵的印象还停留在线性代数时期，认为矩阵就是一串数的列表。事实上，这是线性代数的观点，而非矩阵理论的观点！矩阵理论中很多时候将矩阵看作一个算子，将矩阵看作一种操作。许多操作都可以用矩阵表示，所以在看到这类矩阵时，不要老去想它每个元素的数值，而要在脑海里默念：它只是一个符号，这个符号代表了一种操作。

举个例子，左乘初等矩阵相当于初等行变换，从线性代数的角度，我们可能会想象出这个初等矩阵具体的值，然后相乘。但从矩阵理论的角度，你应当理解：这个初等矩阵本质上就是一个符号，用于提示读者将会对后面的矩阵进行“初等行变换”的操作。

当然，更广义地讲，其实就是矩阵其实就是一种线性映射。所以像交换、轮换、初等变换、幺正变换、伸缩变换等都可以被写成矩阵，如果你不是想要计算它，而是要研究其抽象的性质，请不要过分关注或思考它们的数值，而要将重点放在其等效于执行了什么操作。

因此，本文许多场合下，我并不会给出某些特殊矩阵的定义，而是去强调其作为算子究竟起到了何种作用。

一些基础知识与本门课知识串讲

对于那些已在线性代数中被详细讨论的内容，本文将以相对简略的语言代过。本文主要介绍矩阵理论的引入逻辑和重要结论，旨在于突出重点和思考逻辑，而非作为一本详尽但啰嗦的工具书。

矩阵奇异与线性无关

我们称方阵 A\boldsymbol{A}A 非奇异，当且仅当方阵 A\boldsymbol{A}A 满秩。

从方程组的角度， A\boldsymbol{A}A 非奇异意味着 Ax=b\boldsymbol{Ax}=\boldsymbol{b}Ax=b 有且仅有唯一解。
从线性变换的角度， A\boldsymbol{A}A 将 Rn\mathbb{R} ^nRn 映射到 Rn\mathbb{R} ^nRn ，即映射非退化、伸缩因子（行列式）非 000 ，故称之非奇异。
从向量组的角度，若 A=[a1,⋯,an]\boldsymbol{A}=\left[ \boldsymbol{a}_1,\cdots ,\boldsymbol{a}_n \right]A=[a1,⋯,an] ，则 a1,⋯,an\boldsymbol{a}_1,\cdots ,\boldsymbol{a}_na1,⋯,an 这 nnn 个列向量线性无关。

当然，我们这里似乎还没给出向量组线性无关的定义。

定义：向量组 {u1,⋯,un}\left\{ \boldsymbol{u}_1,\cdots ,\boldsymbol{u}_n \right\}{u1,⋯,un} 线性无关，当且仅当 c1u1+⋯+cnun=0c_1\boldsymbol{u}_1+\cdots +c_n\boldsymbol{u}_n=\mathbf{0}c1u1+⋯+cnun=0 只有零解 c1=⋯=cn=0c_1=\cdots =c_n=0c1=⋯=cn=0

向量空间、内积、范数

如果以向量为元素的集合 VVV 配备了加法和乘法两种运算，并且满足那八条加法乘法公理，还对线性运算闭合，则称之向量空间。比如我们熟悉的 (Rn,+,×)\left( \mathbb{R} ^n,+,\times \right)(Rn,+,×) 就是向量空间。

过原点的超平面则为 Rn\mathbb{R} ^nRn 的子空间，子空间之间可以进行“和”与“交”的运算，不交（即交集为 {0}\left\{ 0 \right\}{0} ）的子空间的和叫做“直和”。

为了对向量空间 VVV 的元素进行某种程度的度量，我们引入内积 <⋅,⋅>\left< \cdot ,\cdot \right>⟨⋅,⋅⟩ 。内积是两个向量到数域的映射，如常用的 Cn×Cn→C\mathbb{C} ^n\times \mathbb{C} ^n\rightarrow \mathbb{C}Cn×Cn→C 。内积应当满足共轭对称性、线性性、非负性。

内积可以诱导范数，例如 222 范数就可以内积表示，即 ∥x∥2=<x,x>\left\| \boldsymbol{x} \right\| _2=\sqrt{\left< \boldsymbol{x},\boldsymbol{x} \right>}∥x∥2=⟨x,x⟩ 。严格来说，范数是向量到数域的映射，且应满足非负性、齐次性、三角不等式。

如果 VVV 内的每个柯西列总能收敛于都能收敛到 VVV 上，则称 VVV 是完备的。

注：直观地看，完备意味着空间没有“洞”。
有理数域 Q\mathbb{Q}Q 就不是完备的，例如数列 (2)n={1,1.4,1.41,1.414,⋯}\left(\sqrt{2}\right)_n=\left\{1,1.4,1.41,1.414,\cdots\right\}(2)n={1,1.4,1.41,1.414,⋯} 均为有理数，但其极限值 2\sqrt{2}2 则不属于有理数集，这意味着有理数集是“有洞的”。

我们将完备的赋范线性空间称为Banach空间，而Hilbert空间则是更进一步，我们将完备的内积线性空间称为Hilbert空间。因为内积可以诱导出范数，或者说内积强于范数，所以Hilbert空间是Banach空间的特例。

对于我们比较常用的向量内积即为 <x,y>=xHy=∑k=1nxk∗yk\left< \boldsymbol{x},\boldsymbol{y} \right> =\boldsymbol{x}^{\mathrm{H}}\boldsymbol{y}=\sum_{k=1}^n{x_{k}^{*}y_k}⟨x,y⟩=xHy=∑k=1nxk∗yk ，函数内积则是 <x,y>=∫abx∗(t)y(t)dt\left< \boldsymbol{x},\boldsymbol{y} \right> =\int_a^b{x^*\left( t \right) y\left( t \right) \mathrm{d}t}⟨x,y⟩=∫abx∗(t)y(t)dt ，其实就是把求和换成了积分。

常用的向量范数则是 ∥x∥p=(∑k=1n∣xk∣p)1/p\left\| \boldsymbol{x} \right\| _p=\left( \sum_{k=1}^n{\left| x_k \right|^p} \right) ^{1/p}∥x∥p=(∑k=1n∣xk∣p)1/p 。特别地， ∥x∥∞=max⁡{∣x1∣,⋯,∣xn∣}=lim⁡p→∞(∑k=1n∣xk∣p)1/p\left\| \boldsymbol{x} \right\| _{\infty}=\max \left\{ \left| x_1 \right|,\cdots ,\left| x_n \right| \right\} =\lim_{p\rightarrow \infty} \left( \sum_{k=1}^n{\left| x_k \right|^p} \right) ^{1/p}∥x∥∞=max{∣x1∣,⋯,∣xn∣}=limp→∞(∑k=1n∣xk∣p)1/p ， 222 范数则是我们熟悉的欧几里得范数。

矩阵范数的诱导范数通常更加复杂，但是有另一种相对简单形式的范数，就是把矩阵拉伸成一个向量来处理（详见后续“向量化、矩阵化”节），从而退化为向量范数，称之为元素范数。特别地，拉伸后取向量 222 范数被称为Frobenius范数，即 ∥A∥F=<A,A>1/2=tr(AHA)\left\| \boldsymbol{A} \right\| _{\mathrm{F}}=\left< \boldsymbol{A},\boldsymbol{A} \right> ^{1/2}=\sqrt{\mathrm{tr}\left( \boldsymbol{A}^{\mathrm{H}}\boldsymbol{A} \right)}∥A∥F=⟨A,A⟩1/2=tr(AHA) 。

矩阵的诱导范数又称算子范数，顾名思义其衡量了矩阵 A\boldsymbol{A}A 作为算子的性能，这一性能的衡量方式是由向量范数诱导。具体而言向量范数 ∥⋅∥\left\| \cdot \right\|∥⋅∥ 为诱导出的矩阵范数为 ∥A∥=max⁡x≠0∥Ax∥∥x∥\left\| \boldsymbol{A} \right\| =\max_{\boldsymbol{x}\ne \mathbf{0}} \frac{\left\| \boldsymbol{Ax} \right\|}{\left\| \boldsymbol{x} \right\|}∥A∥=maxx=0∥x∥∥Ax∥ 。我们常用的为 ppp 范数，即 ∥A∥p=max⁡x≠0∥Ax∥p∥x∥p\left\| \boldsymbol{A} \right\|_p =\max_{\boldsymbol{x}\ne \mathbf{0}} \frac{\left\| \boldsymbol{Ax} \right\|_p}{\left\| \boldsymbol{x} \right\|_p}∥A∥p=maxx=0∥x∥p∥Ax∥p 。

直观地说，矩阵的算子范数相当于衡量了：经过矩阵算子 A\boldsymbol{A}A 作用后，向量的模最多会被放大几倍。

特别地， ∥A∥2=∥A∥spec\left\| \boldsymbol{A} \right\| _2=\left\| \boldsymbol{A} \right\| _{\mathrm{spec}}∥A∥2=∥A∥spec 被称为谱范数。这一点很好理解，因为算子范数可以看作对矩阵的伸缩能力极限情形的衡量，而最大特征值（谱半径）则体现了这一点。

{∥A∥1=max⁡1⩽j⩽n∑i=1m∣aij∣∥A∥2=∥A∥spec=λmax⁡(AHA)∥A∥∞=max⁡1⩽i⩽m∑j=1n∣aij∣(1.1)\begin{cases} \left\| \boldsymbol{A} \right\| _1=\max_{1\leqslant j\leqslant n} \sum_{i=1}^m{\left| a_{ij} \right|}\\ \left\| \boldsymbol{A} \right\| _2=\left\| \boldsymbol{A} \right\| _{\mathrm{spec}}=\sqrt{\lambda _{\max}\left( \boldsymbol{A}^{\mathrm{H}}\boldsymbol{A} \right)}\\ \left\| \boldsymbol{A} \right\| _{\infty}=\max_{1\leqslant i\leqslant m} \sum_{j=1}^n{\left| a_{ij} \right|}\\ \end{cases}\tag{1.1} ⎩⎨⎧∥A∥1=max1⩽j⩽n∑i=1m∣aij∣∥A∥2=∥A∥spec=λmax(AHA)∥A∥∞=max1⩽i⩽m∑j=1n∣aij∣(1.1)

注：之所以如此定义诱导范数，是注意到柯西-施瓦茨不等式 ∥Ax∥⩽∥A∥∥x∥\left\| \boldsymbol{Ax} \right\| \leqslant \left\| \boldsymbol{A} \right\| \left\| \boldsymbol{x} \right\|∥Ax∥⩽∥A∥∥x∥ 。

行列式、特征值、迹

行列式体现了矩阵作为线性变换的伸缩系数，特别地，行列式为 000 意味着该线性映射是退化的。行列式最美妙的性质为 det⁡(AB)=det⁡(A)det⁡(B)\det \left( \boldsymbol{AB} \right) =\det \left( \boldsymbol{A} \right) \det \left( \boldsymbol{B} \right)det(AB)=det(A)det(B) 。

特征值和特征向量则是从特征域来观察矩阵的特性，将任意向量分解到特征向量基上，则每个分量都是简单的伸缩变换。最美妙的性质即 eig(AB)=eig(BA)\mathrm{eig}\left( \boldsymbol{AB} \right) =\mathrm{eig}\left( \boldsymbol{BA} \right)eig(AB)=eig(BA) ，并且非零特征值的数量不超过矩阵的秩。

迹为矩阵的对角元素之和，其恰为矩阵特征值之和。 tr(AB)=tr(BA)\mathrm{tr}\left( \boldsymbol{AB} \right) =\mathrm{tr}\left( \boldsymbol{BA} \right)tr(AB)=tr(BA) 是一个好用的迹等式，这一性质也被称为相似不变。

逆、广义逆

在小学我们学过一元一次方程，比如 3x=93x=93x=9 ，我们的做法是等式左右同时除以 333 。那么如果只能用乘法该怎么办呢？就是左右同时乘以 1/31/31/3 ，我们称 1/31/31/3 为 333 的逆元。

同理，为了求解矩阵方程 Ax=b\boldsymbol{Ax}=\boldsymbol{b}Ax=b ，在等式左右同时乘以 A\boldsymbol{A}A 的逆，得到 x=A−1b\boldsymbol{x}=\boldsymbol{A}^{-1}\boldsymbol{b}x=A−1b 。只有满秩矩阵才有逆矩阵，为了让非满秩矩阵也能应用上述逆矩阵的结论，我们引入矩阵的广义逆。

设 m×nm\times nm×n 维的矩阵秩为 rrr ，若 m>nm>nm>n 且 r=nr=nr=n ，即列满秩矩阵。我们将满足 LA=I\boldsymbol{LA}=\boldsymbol{I}LA=I 的矩阵 L\boldsymbol{L}L 称为矩阵 A\boldsymbol{A}A 的左伪逆，此时 L=(AHA)−1AH\boldsymbol{L}=\left( \boldsymbol{A}^{\mathrm{H}}\boldsymbol{A} \right) ^{-1}\boldsymbol{A}^{\mathrm{H}}L=(AHA)−1AH 满足要求且唯一。类似地，对于行满秩的欠定方程，考虑 AR=I\boldsymbol{AR}=\boldsymbol{I}AR=I ，我们也能给出其右伪逆 R=AH(AAH)−1\boldsymbol{R}=\boldsymbol{A}^{\mathrm{H}}\left( \boldsymbol{A}\boldsymbol{A}^{\mathrm{H}} \right) ^{-1}R=AH(AAH)−1 。

对于一般的奇异矩阵，即 m,nm,nm,n 关系不定且 r<m,r<nr<m,r<nr<m,r<n 。那么我们如何求出这一广义逆呢？我们不难证明任意矩阵都存在满秩分解，即一定存在 Am×n=Bm×rCr×n\boldsymbol{A}_{m\times n}=\boldsymbol{B}_{m\times r}\boldsymbol{C}_{r\times n}Am×n=Bm×rCr×n ，其中 B,C\boldsymbol{B},\boldsymbol{C}B,C 分别满列秩、满行秩。而满行秩和满列秩矩阵的伪逆是上面已经讨论完毕的，从而得到

A†=C†B†=CH(CCH)−1(BHB)−1BH=CH(BHACH)−1BH(2.1)\begin{aligned} \boldsymbol{A}^{\dagger}&=\boldsymbol{C}^{\dagger}\boldsymbol{B}^{\dagger}\\ &=\boldsymbol{C}^{\mathrm{H}}\left( \boldsymbol{CC}^{\mathrm{H}} \right) ^{-1}\left( \boldsymbol{B}^{\mathrm{H}}\boldsymbol{B} \right) ^{-1}\boldsymbol{B}^{\mathrm{H}}\\ &=\boldsymbol{C}^{\mathrm{H}}\left( \boldsymbol{B}^{\mathrm{H}}\boldsymbol{AC}^{\mathrm{H}} \right) ^{-1}\boldsymbol{B}^{\mathrm{H}}\\ \end{aligned}\tag{2.1} A†=C†B†=CH(CCH)−1(BHB)−1BH=CH(BHACH)−1BH(2.1)

我们将广义逆矩阵记为 A†\boldsymbol{A}^{\dagger}A† ，称为Moore-Penrose逆矩阵，这种逆矩阵给出的解恰好是一致方程的最小二乘解、非一致方程的最小范数最小二乘解。

注：这里稍微展开讲一点点，对于非满秩一致方程，其有无穷多解，我们通常关心其最小范数解。对于非一致方程，其只有矛盾解，我们通常关心其最小二乘解。然而上述条件单独拿出来无法唯一给出广义逆，于是将这两者需要的条件结合起来，并且期望广义逆的广义逆是自身，从而得到了Moore-Penrose逆矩阵的条件。

值得特殊说明的是，若 A\boldsymbol{A}A 、 B\boldsymbol{B}B 非方阵， AB\boldsymbol{AB}AB 可逆，则不一定有 (AB)−1=B†A†\left( \boldsymbol{AB} \right) ^{-1}=\boldsymbol{B}^{\dagger}\boldsymbol{A}^{\dagger}(AB)−1=B†A† 。

矩阵方程、向量化、Kronecker积

考虑矩阵方程 AXB=C\boldsymbol{AXB}=\boldsymbol{C}AXB=C ， LX+XN=Y\boldsymbol{LX}+\boldsymbol{XN}=\boldsymbol{Y}LX+XN=Y ，其解可用Kronecker积的形式表述。这是因为矩阵乘积的向量化可以用Kronecker积的形式表示其轮换结果，为此我们先引入矩阵的向量化。

向量化、矩阵化

在前面引入矩阵的元素范数时，我们将矩阵拉伸为了列向量，然后应用向量的范数。此处我们给出一个具体的定义。

对于矩阵 A=[α1,⋯αn]∈Rm×n\boldsymbol{A}=\left[ \boldsymbol{\alpha }_1,\cdots \boldsymbol{\alpha }_n \right] \in \mathbb{R} ^{m\times n}A=[α1,⋯αn]∈Rm×n ，将其按列顺序抽取排列为一个 mn×1mn\times 1mn×1 的列向量，称之为矩阵的列向量化，即 vec(A)=[α1⋮αn]\mathrm{vec}\left( \boldsymbol{A} \right) =\left[ \begin{array}{c} \boldsymbol{\alpha }_1\\ \vdots\\ \boldsymbol{\alpha }_n\\ \end{array} \right]vec(A)=⎣⎡α1⋮αn⎦⎤ 。同理可以定义矩阵的行向量化，即按行顺序抽取为行向量，其中有 rvec(A)=(vec(AT))T\mathrm{rvec}\left( \boldsymbol{A} \right) =\left( \mathrm{vec}\left( \boldsymbol{A}^{\mathrm{T}} \right) \right) ^{\mathrm{T}}rvec(A)=(vec(AT))T 。

其逆过程则称为矩阵化，其中有 unvecm,n(vec(Am,n))=Am,n\mathrm{unvec}_{m,n}\left( \mathrm{vec}\left( \boldsymbol{A}_{m,n} \right) \right) =\boldsymbol{A}_{m,n}unvecm,n(vec(Am,n))=Am,n 。

交换矩阵

为了实现矩阵的向量化到其转置的向量化的变换，我们引入一个名为交换矩阵 Kmn\boldsymbol{K}_{mn}Kmn 的东西，其中有 Kmnvec(A)=vec(AT)\boldsymbol{K}_{mn}\mathrm{vec}\left( \boldsymbol{A} \right) =\mathrm{vec}\left( \boldsymbol{A}^{\mathrm{T}} \right)Kmnvec(A)=vec(AT) 。我们可以将 Kmn\boldsymbol{K}_{mn}Kmn 看作将 vec(A)\mathrm{vec}\left( \boldsymbol{A} \right)vec(A) 映射为 vec(AT)\mathrm{vec}\left( \boldsymbol{A}^{\mathrm{T}} \right)vec(AT) 的算子，而不必纠结这个矩阵本身的数值特性。

矩阵直和

与直和类似地，对于 mmm 阶方阵 A\boldsymbol{A}A 和 nnn 阶方阵 B\boldsymbol{B}B ，其矩阵直和定义为 A⊕B=[AOm×nOn×mB]\boldsymbol{A}\oplus \boldsymbol{B}=\left[ \begin{matrix} \boldsymbol{A}& \boldsymbol{O}_{m\times n}\\ \boldsymbol{O}_{n\times m}& \boldsymbol{B}\\ \end{matrix} \right]A⊕B=[AOn×mOm×nB] 。

这里介绍直和主要是为了和后续的直积相呼应。

Kronecker积

熟悉张量的同学应该会很熟悉Kronecker积，其中 A⊗B=[a11Ba12B⋯a1nBa21Ba22B⋯a2nB⋮⋮⋱⋮am1Bam2B⋯amnB]\boldsymbol{A}\otimes \boldsymbol{B}=\left[ \begin{matrix} a_{11}\boldsymbol{B}& a_{12}\boldsymbol{B}& \cdots& a_{1n}\boldsymbol{B}\\ a_{21}\boldsymbol{B}& a_{22}\boldsymbol{B}& \cdots& a_{2n}\boldsymbol{B}\\ \vdots& \vdots& \ddots& \vdots\\ a_{m1}\boldsymbol{B}& a_{m2}\boldsymbol{B}& \cdots& a_{mn}\boldsymbol{B}\\ \end{matrix} \right]A⊗B=⎣⎡a11Ba21B⋮am1Ba12Ba22B⋮am2B⋯⋯⋱⋯a1nBa2nB⋮amnB⎦⎤ ，是一个 Rm×n×Rp×q→Rmp×nq\mathbb{R} ^{m\times n}\times \mathbb{R} ^{p\times q}\rightarrow \mathbb{R} ^{mp\times nq}Rm×n×Rp×q→Rmp×nq 的映射。

Kronecker积也被称为直积或张量积，其不满足交换律，但满足对加减法的分配律等性质。其中有一个重要的性质是

vec(ABC)=(CT⊗A)vec(B)=(I⊗AB)vec(C)=(CTBT⊗I)vec(A)(3.1)\begin{aligned} \mathrm{vec}\left( \boldsymbol{ABC} \right) &=\left( \boldsymbol{C}^{\mathrm{T}}\otimes \boldsymbol{A} \right) \mathrm{vec}\left( \boldsymbol{B} \right)\\ &=\left( \boldsymbol{I}\otimes \boldsymbol{AB} \right) \mathrm{vec}\left( \boldsymbol{C} \right)\\ &=\left( \boldsymbol{C}^{\mathrm{T}}\boldsymbol{B}^{\mathrm{T}}\otimes \boldsymbol{I} \right) \mathrm{vec}\left( \boldsymbol{A} \right)\\ \end{aligned}\tag{3.1} vec(ABC)=(CT⊗A)vec(B)=(I⊗AB)vec(C)=(CTBT⊗I)vec(A)(3.1)

两个矩阵方程

回到开头说的两个矩阵方程 AXB=C\boldsymbol{AXB}=\boldsymbol{C}AXB=C ， LX+XN=Y\boldsymbol{LX}+\boldsymbol{XN}=\boldsymbol{Y}LX+XN=Y 。对于 AXB=C\boldsymbol{AXB}=\boldsymbol{C}AXB=C ，等式左右同时取向量化，并应用式 (3.1)\left(3.1\right)(3.1) 的结论，得

⇒AXB=C⇒vec(AXB)=vec(C)⇒(BT⊗A)vec(X)=vec(C)(3.2)\begin{array}{l} \phantom{\Rightarrow }\boldsymbol{AXB}=\boldsymbol{C}\\ \Rightarrow \mathrm{vec}\left( \boldsymbol{AXB} \right) =\mathrm{vec}\left( \boldsymbol{C} \right)\\ \Rightarrow \left( \boldsymbol{B}^{\mathrm{T}}\otimes \boldsymbol{A} \right) \mathrm{vec}\left( \boldsymbol{X} \right) =\mathrm{vec}\left( \boldsymbol{C} \right)\\ \end{array}\tag{3.2} ⇒AXB=C⇒vec(AXB)=vec(C)⇒(BT⊗A)vec(X)=vec(C)(3.2)

⇒LX+XN=Y⇒LXI+IXN=Y⇒(I⊗L+(NT⊗I))vec(X)=vec(Y)(3.3)\begin{array}{l} \phantom{\Rightarrow }\boldsymbol{LX}+\boldsymbol{XN}=\boldsymbol{Y}\\ \Rightarrow \boldsymbol{LXI}+\boldsymbol{IXN}=\boldsymbol{Y}\\ \Rightarrow \left( \boldsymbol{I}\otimes \boldsymbol{L}+\left( \boldsymbol{N}^{\mathrm{T}}\otimes \boldsymbol{I} \right) \right) \mathrm{vec}\left( \boldsymbol{X} \right) =\mathrm{vec}\left( \boldsymbol{Y} \right)\\ \end{array}\tag{3.3} ⇒LX+XN=Y⇒LXI+IXN=Y⇒(I⊗L+(NT⊗I))vec(X)=vec(Y)(3.3)

Hadamard积

Hadamard积实际上就是我们熟悉的matlab点乘，即matlab的 A .* B ，数学上记为 A⊙B\boldsymbol{A}\odot \boldsymbol{B}A⊙B 。

这里的符号似乎不太统一，百度百科上用的 A∘B\boldsymbol{A}\circ \boldsymbol{B}A∘B ，参考书目中用的是 A∗B\boldsymbol{A}* \boldsymbol{B}A∗B （这恐怕是为了和Khatri-Rao积区分）。我这里是沿用的学校PPT的符号 ⊙\odot⊙ 。

结语与综述

让我们来重新梳理一遍矩阵理论的引入逻辑，这里可能会涉及一些读者尚未学到的知识点。读者可以先行略过它们，等学到后面的知识后回头看，或许会有不一样的收获。

矩阵和向量天然地被赋予了两重意义。从线性方程组的角度来看，矩阵是线性方程组求解的抽象化。从线性空间的角度来看，矩阵是线性映射的可视化表示，是向量空间到向量空间的一种映射。

矩阵理论研究的内容相对线性代数而言会更加抽象，研究矩阵和向量作为一个数学抽象对象的性质，从而需要引入范数、内积、空间等进行数学抽象。为了对矩阵和向量进行度量，我们引入了范数和内积。其中范数可以赋予向量长度的概念，可以度量矩阵作为算子的性能。而内积则是更进一步，可以诱导出范数和“相似度”层面的度量。行列式则是对矩阵作为线性变换的伸缩性和奇异性的度量。

当然，一个非满秩的矩阵受到摄动通常也会变得满秩，但它们依然是病态的，这一病态性会导致微小的偏差就会引发解的很大偏差，条件数则可以衡量度量这一病态性。但本文并不会提及条件数这一概念。

我们知道：矩阵是一种线性变换，那么还能不能更简单一些？比如退化为更简单的伸缩变换。特征值分解则是将矩阵映射分解为若干在特征域上对特征向量的伸缩操作之和。类似的还有奇异值分解，奇异值分解将矩阵映射分解为了两个互逆的幺正变换（直观地说就是平移、旋转、镜像等操作）与伸缩变换，从而可以提取出矩阵的主成分。当然在本文中并未提到这一点，这一点将在后续文章进行介绍。

为了更方便地求解线性方程组，我们引入矩阵的逆。然而只有满秩矩阵才有逆，为此我们引入了广义逆，从而使得所有矩阵都有着广义逆。广义逆可以给出一致方程的最小范数解，给出非一致方程的最小二乘解，且具有唯一性等良好性质。