线性代数原文 MIT 18.06 线性代数笔记
矩阵论笔记来自工程矩阵理论
综合线性代数机器学习的数学基础
配合视频线性代数工程矩阵理论

文章目录

第二十五讲：复习二
第二十六讲、对称矩阵及正定性
- 1.对称矩阵
- 2.合同关系
- 3.二次型，标准形和规范形
- 4.正定性
第二十七讲：复数矩阵和快速傅里叶变换
- 1.复数矩阵运算
- - 1.1.计算复向量的模
  - 1.2.计算向量的内积
  - 1.3.对称性
  - 1.4.正交性
- 2.傅里叶矩阵
- 3.快速傅里叶变换（Fast Fourier transform/FFT）
第二十八讲、正定矩阵和最小值
- 1.正定性的判断

第二十五讲：复习二

我们学习了正交性，有矩阵Q=[q1q2⋯qn]Q=\Bigg[q_1\ q_2\ \cdots\ q_n\Bigg]Q=[q1 q2 ⋯ qn]，若其列向量相互正交，则该矩阵满足QTQ=EQ^TQ=EQTQ=E。
进一步研究投影，我们了解了Gram-Schmidt正交化法，核心思想是求法向量，即从原向量中减去投影向量E=b−P,P=Ax=ATbATA⋅AE=b-P, P=Ax=\frac{A^Tb}{A^TA}\cdot AE=b−P,P=Ax=ATAATb⋅A。
接着学习了行列式，根据行列式的前三条性质，我们拓展出了性质4-10。
我们继续推导出了一个利用代数余子式求行列式的公式。
又利用代数余子式推导出了一个求逆矩阵的公式。
接下来我们学习了特征值与特征向量的意义：Ax=λxAx=\lambda xAx=λx，进而了解了通过∣(A−λE)∣=0|(A-\lambda E)|=0∣(A−λE)∣=0求特征值、特征向量的方法。
有了特征值与特征向量，我们掌握了通过公式AS=SΛAS=S\LambdaAS=SΛ对角化矩阵，同时掌握了求矩阵的幂Ak=SΛkS−1A^k=S\Lambda^kS^{-1}Ak=SΛkS−1。

微分方程不在本讲的范围内。下面通过往年例题复习上面的知识。

求a=[212]a=\begin{bmatrix}2\\1\\2\end{bmatrix}a=⎣⎡212⎦⎤的投影矩阵PPP：(\Bigg((由a⊥(b−p)→AT(b−Ax^)=0a\bot(b-p)\rightarrow A^T(b-A\hat x)=0a⊥(b−p)→AT(b−Ax^)=0得到x^=(ATA)−1ATb\hat x=\left(A^TA\right)^{-1}A^Tbx^=(ATA)−1ATb，求得p=Ax^=A(ATA)−1ATb=Pbp=A\hat x=A\left(A^TA\right)^{-1}A^Tb=Pbp=Ax^=A(ATA)−1ATb=Pb最终得到P)P\Bigg)P)P=A(ATA)−1AT‾=aaaTaTa=19[424212424]\underline{P=A\left(A^TA\right)^{-1}A^T}\stackrel{a}=\frac{aa^T}{a^Ta}=\frac{1}{9}\begin{bmatrix}4&2&4\\2&1&2\\4&2&4\end{bmatrix}P=A(ATA)−1AT=aaTaaaT=91⎣⎡424212424⎦⎤。

求PPP矩阵的特征值：观察矩阵易知矩阵奇异，且为秩一矩阵，则其零空间为222维，所以由Px=0xPx=0xPx=0x得出矩阵的两个特征向量为λ1=λ2=0\lambda_1=\lambda_2=0λ1=λ2=0；而从矩阵的迹得知trace(P)=1=λ1+λ2+λ3=0+0+1trace(P)=1=\lambda_1+\lambda_2+\lambda_3=0+0+1trace(P)=1=λ1+λ2+λ3=0+0+1，则第三个特征向量为λ3=1\lambda_3=1λ3=1。

求λ3=1\lambda_3=1λ3=1的特征向量：由Px=xPx=xPx=x我们知道经其意义为，xxx过矩阵PPP变换后不变，又有PPP是向量aaa的投影矩阵，所以任何向量经过PPP变换都会落在aaa的列空间中，则只有已经在aaa的列空间中的向量经过PPP的变换后保持不变，即其特征向量为x=a=[212]x=a=\begin{bmatrix}2\\1\\2\end{bmatrix}x=a=⎣⎡212⎦⎤，也就是Pa=aPa=aPa=a。

有差分方程uk+1=Puk,u0=[990]u_{k+1}=Pu_k,\ u_0=\begin{bmatrix}9\\9\\0\end{bmatrix}uk+1=Puk, u0=⎣⎡990⎦⎤，求解uku_kuk：我们先不急于解出特征值、特征向量，因为矩阵很特殊（投影矩阵）。首先观察u1=Pu0u_1=Pu_0u1=Pu0，式子相当于将u0u_0u0投影在了aaa的列空间中，计算得u1=aaTu0aTa=3a=[636]u_1=a\frac{a^Tu_0}{a^Ta}=3a=\begin{bmatrix}6\\3\\6\end{bmatrix}u1=aaTaaTu0=3a=⎣⎡636⎦⎤（这里的333相当于做投影时的系数x^\hat xx^），其意义为u1u_1u1在aaa上且距离u0u_0u0最近。再来看看u2=Pu1u_2=Pu_1u2=Pu1，这个式子将u1u_1u1再次投影到aaa的列空间中，但是此时的u1u_1u1已经在该列空间中了，再次投影仍不变，所以有uk=Pku0=Pu0=[636]u_k=P^ku_0=Pu_0=\begin{bmatrix}6\\3\\6\end{bmatrix}uk=Pku0=Pu0=⎣⎡636⎦⎤。

上面的解法利用了投影矩阵的特殊性质，如果在一般情况下，我们需要使用AS=SΛ→A=SΛS−1→uk+1=Auk=Ak+1u0,u0=Sc→uk+1=SΛk+1S−1Sc=SΛk+1cAS=S\Lambda\rightarrow A=S\Lambda S^{-1} \rightarrow u_{k+1}=Au_k=A^{k+1}u_0, u_0=Sc\rightarrow u_{k+1}=S\Lambda^{k+1}S^{-1}Sc=S\Lambda^{k+1}cAS=SΛ→A=SΛS−1→uk+1=Auk=Ak+1u0,u0=Sc→uk+1=SΛk+1S−1Sc=SΛk+1c，最终得到公式Aku0=c1λ1kx1+c2λ2kx2+⋯+cnλnkxnA^ku_0=c_1\lambda_1^kx_1+c_2\lambda_2^kx_2+\cdots+c_n\lambda_n^kx_nAku0=c1λ1kx1+c2λ2kx2+⋯+cnλnkxn。题中PPP的特殊性在于它的两个“零特征值”及一个“一特征值”使得式子变为Aku0=c3x3A^ku_0=c_3x_3Aku0=c3x3，所以得到了上面结构特殊的解。
将点(1,4),(2,5),(3,8)(1,4),\ (2,5),\ (3,8)(1,4), (2,5), (3,8)拟合到一条过零点的直线上：设直线为y=Dty=Dty=Dt，写成矩阵形式为[123]D=[458]\begin{bmatrix}1\\2\\3\end{bmatrix}D=\begin{bmatrix}4\\5\\8\end{bmatrix}⎣⎡123⎦⎤D=⎣⎡458⎦⎤，即AD=bAD=bAD=b，很明显DDD不存在。利用公式ATAD^=ATbA^TA\hat D=A^TbATAD^=ATb得到14D=38,D^=381414D=38,\ \hat D=\frac{38}{14}14D=38, D^=1438，即最佳直线为y=3814ty=\frac{38}{14}ty=1438t。这个近似的意义是将bbb投影在了AAA的列空间中。
求a1=[123]a2=[111]a_1=\begin{bmatrix}1\\2\\3\end{bmatrix}\ a_2=\begin{bmatrix}1\\1\\1\end{bmatrix}a1=⎣⎡123⎦⎤ a2=⎣⎡111⎦⎤的正交向量：找到平面A=[a1,a2]A=\Bigg[a_1,a_2\Bigg]A=[a1,a2]的正交基，使用Gram-Schmidt法，以a1a_1a1为基准，正交化a2a_2a2，也就是将a2a_2a2中平行于a1a_1a1的分量去除，即a2−xa1=a2−a1Ta2a1Ta1a1=[111]−614[123]a_2-xa_1=a_2-\frac{a_1^Ta_2}{a_1^Ta_1}a_1=\begin{bmatrix}1\\1\\1\end{bmatrix}-\frac{6}{14}\begin{bmatrix}1\\2\\3\end{bmatrix}a2−xa1=a2−a1Ta1a1Ta2a1=⎣⎡111⎦⎤−146⎣⎡123⎦⎤
有4×44\times 44×4矩阵AAA，其特征值为λ1,λ2,λ3,λ4\lambda_1,\lambda_2,\lambda_3,\lambda_4λ1,λ2,λ3,λ4，则矩阵可逆的条件是什么：矩阵可逆，则零空间中只有零向量，即Ax=0xAx=0xAx=0x没有非零解，则零不是矩阵的特征值。

∣A∣−1|A|^{-1}∣A∣−1是什么：∣A∣−1=1∣A∣|A|^{-1}=\frac{1}{|A|}∣A∣−1=∣A∣1，而∣A∣=λ1λ2λ3λ4|A|=\lambda_1\lambda_2\lambda_3\lambda_4∣A∣=λ1λ2λ3λ4，所以有∣A∣−1=1λ1λ2λ3λ4|A|^{-1}=\frac{1}{\lambda_1\lambda_2\lambda_3\lambda_4}∣A∣−1=λ1λ2λ3λ41。

trace(A+E)trace(A+E)trace(A+E)的迹是什么：我们知道trace(A)=a11+a22+a33+a44=λ1+λ2+λ3+λ4trace(A)=a_{11}+a_{22}+a_{33}+a_{44}=\lambda_1+\lambda_2+\lambda_3+\lambda_4trace(A)=a11+a22+a33+a44=λ1+λ2+λ3+λ4，所以有trace(A+E)=a11+1+a22+1+a33+1+a44+1=λ1+λ2+λ3+λ4+4trace(A+E)=a_{11}+1+a_{22}+1+a_{33}+1+a_{44}+1=\lambda_1+\lambda_2+\lambda_3+\lambda_4+4trace(A+E)=a11+1+a22+1+a33+1+a44+1=λ1+λ2+λ3+λ4+4。
有矩阵A4=[1100111001110011]A_4=\begin{bmatrix}1&1&0&0\\1&1&1&0\\0&1&1&1\\0&0&1&1\end{bmatrix}A4=⎣⎢⎢⎡1100111001110011⎦⎥⎥⎤，求Dn=?Dn−1+?Dn−2D_n=?D_{n-1}+?D_{n-2}Dn=?Dn−1+?Dn−2：求递归式的系数，使用代数余子式将矩阵按第一行展开得∣A∣4=1⋅∣110111011∣−1⋅∣110011011∣=1⋅∣110111011∣−1⋅∣1111∣=∣A∣3−∣A∣2|A|_4=1\cdot\begin{vmatrix}1&1&0\\1&1&1\\0&1&1\end{vmatrix}-1\cdot\begin{vmatrix}1&1&0\\0&1&1\\0&1&1\end{vmatrix}=1\cdot\begin{vmatrix}1&1&0\\1&1&1\\0&1&1\end{vmatrix}-1\cdot\begin{vmatrix}1&1\\1&1\end{vmatrix}=|A|_3-|A|_2∣A∣4=1⋅∣∣∣∣∣∣110111011∣∣∣∣∣∣−1⋅∣∣∣∣∣∣100111011∣∣∣∣∣∣=1⋅∣∣∣∣∣∣110111011∣∣∣∣∣∣−1⋅∣∣∣∣1111∣∣∣∣=∣A∣3−∣A∣2。则可以看出有规律Dn=Dn−1−Dn−2,D1=1,D2=0D_n=D_{n-1}-D_{n-2}, D_1=1, D_2=0Dn=Dn−1−Dn−2,D1=1,D2=0。

使用我们在差分方程中的知识构建方程组{Dn=Dn−1−Dn−2Dn−1=Dn−1\begin{cases}D_n&=D_{n-1}-D_{n-2}\\D_{n-1}&=D_{n-1}\end{cases}{DnDn−1=Dn−1−Dn−2=Dn−1，用矩阵表达有[DnDn−1]=[1−110][Dn−1Dn−2]\begin{bmatrix}D_n\\D_{n-1}\end{bmatrix}=\begin{bmatrix}1&-1\\1&0\end{bmatrix}\begin{bmatrix}D_{n-1}\\D_{n-2}\end{bmatrix}[DnDn−1]=[11−10][Dn−1Dn−2]。计算系数矩阵AcA_cAc的特征值，∣1−λ11−λ∣=λ2−λ+1=0\begin{vmatrix}1-\lambda&1\\1&-\lambda\end{vmatrix}=\lambda^2-\lambda+1=0∣∣∣∣1−λ11−λ∣∣∣∣=λ2−λ+1=0，解得λ1=1+3i2,λ2=1−3i2\lambda_1=\frac{1+\sqrt{3}i}{2},\lambda_2=\frac{1-\sqrt{3}i}{2}λ1=21+3i,λ2=21−3i，特征值为一对共轭复数。

要判断递归式是否收敛，需要计算特征值的模，即实部平方与虚部平方之和14+34=1\frac{1}{4}+\frac{3}{4}=141+43=1。它们是位于单位圆eiθe^{i\theta}eiθ上的点，即cos⁡θ+isin⁡θ\cos\theta+i\sin\thetacosθ+isinθ，从本例中可以计算出θ=60∘\theta=60^\circθ=60∘，也就是可以将特征值写作λ1=eiπ/3,λ2=e−iπ/3\lambda_1=e^{i\pi/3},\lambda_2=e^{-i\pi/3}λ1=eiπ/3,λ2=e−iπ/3。注意，从复平面单位圆上可以看出，这些特征值的六次方将等于一：e2πi=e2πi=1e^{2\pi i}=e^{2\pi i}=1e2πi=e2πi=1。继续深入观察这一特性对矩阵的影响，λ16=λ6=1\lambda_1^6=\lambda^6=1λ16=λ6=1，则对系数矩阵有Ac6=IA_c^6=IAc6=I。则系数矩阵AcA_cAc服从周期变化，既不发散也不收敛。
有这样一类矩阵A4=[0100102002030030]A_4=\begin{bmatrix}0&1&0&0\\1&0&2&0\\0&2&0&3\\0&0&3&0\end{bmatrix}A4=⎣⎢⎢⎡0100102002030030⎦⎥⎥⎤，求投影到A3A_3A3列空间的投影矩阵：有A3=[010102020]A_3=\begin{bmatrix}0&1&0\\1&0&2\\0&2&0\end{bmatrix}A3=⎣⎡010102020⎦⎤，按照通常的方法求P=A(ATA)ATP=A\left(A^TA\right)A^TP=A(ATA)AT即可，但是这样很麻烦。我们可以考察这个矩阵是否可逆，因为如果可逆的话，R4\mathbb{R}^4R4空间中的任何向量都会位于A4A_4A4的列空间，其投影不变，则投影矩阵为单位矩阵EEE。所以按行展开求行列式∣A∣4=−1⋅−1⋅−3⋅−3=9|A|_4=-1\cdot-1\cdot-3\cdot-3=9∣A∣4=−1⋅−1⋅−3⋅−3=9，所以矩阵可逆，则P=EP=EP=E。

求A3A_3A3的特征值及特征向量：∣A3−λE∣=∣−λ101−λ202−λ∣=−λ3+5λ=0\left|A_3-\lambda E\right|=\begin{vmatrix}-\lambda&1&0\\1&-\lambda&2\\0&2&-\lambda\end{vmatrix}=-\lambda^3+5\lambda=0∣A3−λE∣=∣∣∣∣∣∣−λ101−λ202−λ∣∣∣∣∣∣=−λ3+5λ=0，解得λ1=0,λ2=5,λ3=−5\lambda_1=0,\lambda_2=\sqrt 5,\lambda_3=-\sqrt 5λ1=0,λ2=5,λ3=−5。

我们可以猜测这一类矩阵的规律：奇数阶奇异，偶数阶可逆

第二十六讲、对称矩阵及正定性

1.对称矩阵

前面我们学习了矩阵的特征值与特征向量，也了解了一些特殊的矩阵及其特征值、特征向量，特殊矩阵的特殊性应该会反映在其特征值、特征向量中。如马尔科夫矩阵，有一特征值为111，本讲介绍（实）对称矩阵。

先提前介绍两个对称矩阵的特性：

R(ATA)=R(A)R(A^TA)=R(A)R(ATA)=R(A)
特征值为实数；（对比第二十一讲介绍的旋转矩阵，其特征值为纯虚数。）
特征向量相互正交。（当特征值重复时，特征向量也可以从子空间中选出相互正交正交的向量。）

典型的状况是，特征值不重复，特征向量相互正交。

那么在通常（可对角化）情况下，一个矩阵可以化为：A=SΛS−1A=S\varLambda S^{-1}A=SΛS−1；
在矩阵对称的情况下，通过性质3可知，由特征向量组成的矩阵SSS中的列向量是相互正交的，此时如果我们把特征向量的长度统一化为111，就可以得到一组标准正交的特征向量。则对于对称矩阵有A=QΛQ−1A=Q\varLambda Q^{-1}A=QΛQ−1，而对于标准正交矩阵，有Q−1=QTQ^{-1}=Q^TQ−1=QT，所以对称矩阵可以写为A=QΛQT(1)A=Q\varLambda Q^T\tag{1}A=QΛQT(1)

观察它，我们发现这个分解本身就代表着对称，(QΛQT)T=(QT)TΛTQT=QΛQT\left(Q\varLambda Q^T\right)^T=\left(Q^T\right)^T\varLambda^TQ^T=Q\varLambda Q^T(QΛQT)T=(QT)TΛTQT=QΛQT。此式在数学上叫做谱定理（spectral theorem），谱就是指矩阵特征值的集合。（该名称来自光谱，指一些纯事物的集合，就像将特征值分解成为特征值与特征向量。）在力学上称之为主轴定理（principle axis theorem），从几何上看，它意味着如果给定某种材料，在合适的轴上来看，它就变成对角化的，方向就不会重复。

现在我们来证明性质1。对于矩阵Ax=λx‾\underline{Ax=\lambda x}Ax=λx，对于其共轭部分总有Aˉxˉ=λˉxˉ\bar A\bar x=\bar\lambda \bar xAˉxˉ=λˉxˉ，根据前提条件我们只讨论实矩阵，则有Axˉ=λˉxˉA\bar x=\bar\lambda \bar xAxˉ=λˉxˉ，将等式两边取转置有xˉTA=xˉTλˉ‾\overline{\bar{x}^TA=\bar{x}^T\bar\lambda}xˉTA=xˉTλˉ。将“下划线”式两边左乘xˉT\bar{x}^TxˉT有xˉTAx=xˉTλx\bar{x}^TAx=\bar{x}^T\lambda xxˉTAx=xˉTλx，“上划线”式两边右乘xxx有xˉTAx=xˉTλˉx\bar{x}^TAx=\bar{x}^T\bar\lambda xxˉTAx=xˉTλˉx，观察发现这两个式子左边是一样的，所以xˉTλx=xˉTλˉx\bar{x}^T\lambda x=\bar{x}^T\bar\lambda xxˉTλx=xˉTλˉx，则有λ=λˉ\lambda=\bar{\lambda}λ=λˉ（这里有个条件，xˉTx≠0\bar{x}^Tx\neq 0xˉTx=0），证毕。

观察这个前提条件，xˉTx=[xˉ1xˉ2⋯xˉn][x1x2⋮xn]=xˉ1x1+xˉ2x2+⋯+xˉnxn\bar{x}^Tx=\begin{bmatrix}\bar x_1&\bar x_2&\cdots&\bar x_n\end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}=\bar x_1x_1+\bar x_2x_2+\cdots+\bar x_nx_nxˉTx=[xˉ1xˉ2⋯xˉn]⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤=xˉ1x1+xˉ2x2+⋯+xˉnxn，设x1=a+ib,xˉ1=a−ibx_1=a+ib, \bar x_1=a-ibx1=a+ib,xˉ1=a−ib则xˉ1x1=a2+b2\bar x_1x_1=a^2+b^2xˉ1x1=a2+b2，所以有xˉTx>0\bar{x}^Tx>0xˉTx>0。而xˉTx\bar{x}^TxxˉTx就是xxx长度的平方。

拓展这个性质，当AAA为复矩阵，根据上面的推导，则矩阵必须满足A=AˉTA=\bar{A}^TA=AˉT时，才有性质1、性质2成立（教授称具有这种特征值为实数、特征向量相互正交的矩阵为“好矩阵”）。

继续研究A=QΛQT=[q1q2⋯qn][λ1⋯λ2⋯⋮⋮⋱⋮⋯λn][q1Tq1T⋮q1T]=λ1q1q1T+λ2q2q2T+⋯+λnqnqnTA=Q\varLambda Q^T=\Bigg[q_1\ q_2\ \cdots\ q_n\Bigg]\begin{bmatrix}\lambda_1& &\cdots& \\&\lambda_2&\cdots&\\\vdots&\vdots&\ddots&\vdots\\& &\cdots&\lambda_n\end{bmatrix}\begin{bmatrix}\quad q_1^T\quad\\\quad q_1^T\quad\\\quad \vdots \quad\\\quad q_1^T\quad\end{bmatrix}=\lambda_1q_1q_1^T+\lambda_2q_2q_2^T+\cdots+\lambda_nq_nq_n^TA=QΛQT=[q1 q2 ⋯ qn]⎣⎢⎢⎢⎡λ1⋮λ2⋮⋯⋯⋱⋯⋮λn⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡q1Tq1T⋮q1T⎦⎥⎥⎥⎤=λ1q1q1T+λ2q2q2T+⋯+λnqnqnT，注意这个展开式中的qqTqq^TqqT，qqq是单位列向量所以qTq=1q^Tq=1qTq=1，结合我们在第十五讲所学的投影矩阵的知识有qqTqTq=qqT\frac{qq^T}{q^Tq}=qq^TqTqqqT=qqT是一个投影矩阵，很容易验证其性质，比如平方它会得到qqTqqT=qqTqq^Tqq^T=qq^TqqTqqT=qqT于是多次投影不变等。

每一个对称矩阵都可以分解为一系列相互正交的投影矩阵。

在知道对称矩阵的特征值皆为实数后，我们再来讨论这些实数的符号，因为特征值的正负号会影响微分方程的收敛情况（第二十三讲，需要实部为负的特征值保证收敛）。用消元法取得矩阵的主元，观察主元的符号，主元符号的正负数量与特征向量的正负数量相同。

若AAA为实对称矩阵，且A2=0A^2=0A2=0，那么A=0A=0A=0

2.合同关系

矩阵的等价，相似，合同
矩阵的合同

3.二次型，标准形和规范形

理解二次型
关于二次型的意义
对称矩阵的特征值矩阵可以用于将二次型化为标准型（正交变换法）

需要注意，二次型的标准形不唯一（但规范形是唯一的），但不同标准形中所含项数是相同的（即二次型的秩），而且标准形中正项个数（或负项个数）也是相同的，即惯性定理。

4.正定性

正定二次型

如果对称矩阵是“好矩阵”，则正定矩阵（positive definite）是其一个更好的子类：正定矩阵指特征值均为正数的对称矩阵（根据上面的性质有矩阵的主元均为正）。

举个例子，[5223]\begin{bmatrix}5&2\\2&3\end{bmatrix}[5223]，由行列式消元知其主元为5,1155,\frac{11}{5}5,511，按一般的方法求特征值有∣5−λ223−λ∣=λ2−8λ+11=0,λ=4±5\begin{vmatrix}5-\lambda&2\\2&3-\lambda\end{vmatrix}=\lambda^2-8\lambda+11=0, \lambda=4\pm\sqrt 5∣∣∣∣5−λ223−λ∣∣∣∣=λ2−8λ+11=0,λ=4±5

正定矩阵的另一个性质是，所有子行列式为正。对上面的例子有∣5∣=5,∣5223∣=11\begin{vmatrix}5\end{vmatrix}=5, \begin{vmatrix}5&2\\2&3\end{vmatrix}=11∣∣5∣∣=5,∣∣∣∣5223∣∣∣∣=11。

我们看到正定矩阵将早期学习的的消元主元、中期学习的的行列式、后期学习的特征值结合在了一起。

一些结论：

对于正定矩阵AAA，∣A+E∣>1|A+E|>1∣A+E∣>1
当m×nm \times nm×n的二次型矩阵AAA的正惯性系数为nnn时，矩阵正定
对称矩阵AAA为正定矩阵的充要条件是AAA和单位矩阵EEE合同（化为规范形后对角线全为111）

第二十七讲：复数矩阵和快速傅里叶变换

本讲主要介绍复数向量、复数矩阵的相关知识（包括如何做复数向量的点积运算、什么是复数对称矩阵等），以及傅里叶矩阵（最重要的复数矩阵）和快速傅里叶变换。

1.复数矩阵运算

先介绍复数向量，我们不妨换一个字母符号来表示：z=[z1z2⋮zn]z=\begin{bmatrix}z_1\\z_2\\\vdots\\z_n\end{bmatrix}z=⎣⎢⎢⎢⎡z1z2⋮zn⎦⎥⎥⎥⎤，向量的每一个分量都是复数。此时zzz不再属于Rn\mathbb{R}^nRn实向量空间，它现在处于Cn\mathbb{C}^nCn复向量空间。
复数域中，与正交矩阵对应的是酉矩阵，与对称矩阵对应的是Hermit矩阵（H矩阵），它们的性质基本相似，只需要把转置ATA^TAT替换为共轭转置AH=AA^H=AAH=A，而正规阵指在复数域中符合AHA=AAHA^HA=AA^HAHA=AAH的矩阵，CCC是正规阵和C=PHΛPC=P^H\Lambda PC=PHΛP等价，其中PPP是酉矩阵

1.1.计算复向量的模

对比实向量，我们计算模只需要计算∣v∣=vTv\left|v\right|=\sqrt{v^Tv}∣v∣=vTv即可，而如果对复向量使用zTzz^TzzTz则有zTz=[z1z2⋯zn][z1z2⋮zn]=z12+z22+⋯+zn2z^Tz=\begin{bmatrix}z_1&z_2&\cdots&z_n\end{bmatrix}\begin{bmatrix}z_1\\z_2\\\vdots\\z_n\end{bmatrix}=z_1^2+z_2^2+\cdots+z_n^2zTz=[z1z2⋯zn]⎣⎢⎢⎢⎡z1z2⋮zn⎦⎥⎥⎥⎤=z12+z22+⋯+zn2，这里ziz_izi是复数，平方后虚部为负，求模时本应相加的运算变成了减法。（如向量[1i]\begin{bmatrix}1&i\end{bmatrix}[1i]，右乘其转置后结果为000，但此向量的长度显然不是零。）

根据上一讲我们知道，应使用∣z∣=zˉTz\left|z\right|=\sqrt{\bar{z}^Tz}∣z∣=zˉTz，即[zˉ1zˉ2⋯zˉn][z1z2⋮zn]\begin{bmatrix}\bar z_1&\bar z_2&\cdots&\bar z_n\end{bmatrix}\begin{bmatrix}z_1\\z_2\\\vdots\\z_n\end{bmatrix}[zˉ1zˉ2⋯zˉn]⎣⎢⎢⎢⎡z1z2⋮zn⎦⎥⎥⎥⎤，即使用向量共轭的转置乘以原向量即可。（如向量[1i]\begin{bmatrix}1&i\end{bmatrix}[1i]，右乘其共轭转置后结果为[1−i][1i]=2\begin{bmatrix}1&-i\end{bmatrix}\begin{bmatrix}1\\i\end{bmatrix}=2[1−i][1i]=2。）

我们把共轭转置乘以原向量记为zHzz^HzzHz，HHH读作埃尔米特（人名为Hermite，形容词为Hermitian）

1.2.计算向量的内积

有了复向量模的计算公式，同理可得，对于复向量，内积不再是实向量的yTxy^TxyTx形式，复向量内积应为yHxy^HxyHx。

1.3.对称性

对于实矩阵，AT=AA^T=AAT=A即可表达矩阵的对称性。而对于复矩阵，我们同样需要求一次共轭AˉT=A\bar{A}^T=AAˉT=A。举个例子[23+i3−i5]\begin{bmatrix}2&3+i\\3-i&5\end{bmatrix}[23−i3+i5]是一个复数情况下的对称矩阵。这叫做埃尔米特矩阵，有性质AH=AA^H=AAH=A。

1.4.正交性

在第十七讲中，我们这样定义标准正交向量：qiTqj={0i≠j1i=jq_i^Tq_j=\begin{cases}0\quad i\neq j\\1\quad i=j\end{cases}qiTqj={0i=j1i=j。现在，对于复向量我们需要求共轭：qˉiTqj=qiHqj={0i≠j1i=j\bar{q}_i^Tq_j=q_i^Hq_j=\begin{cases}0\quad i\neq j\\1\quad i=j\end{cases}qˉiTqj=qiHqj={0i=j1i=j。

第十七讲中的标准正交矩阵：Q=[q1q2⋯qn]Q=\Bigg[q_1\ q_2\ \cdots\ q_n\Bigg]Q=[q1 q2 ⋯ qn]有QTQ=EQ^TQ=EQTQ=E。现在对于复矩阵则有QHQ=EQ^HQ=EQHQ=E。

就像人们给共轭转置起了个“埃尔米特”这个名字一样，正交性（orthogonal）在复数情况下也有了新名字，酉（unitary），酉矩阵（unitary matrix）与正交矩阵类似，满足QHQ=EQ^HQ=EQHQ=E的性质。而前面提到的傅里叶矩阵就是一个酉矩阵。

2.傅里叶矩阵

nnn阶傅里叶矩阵Fn=[111⋯11ww2⋯wn−11w2w4⋯w2(n−1)⋮⋮⋮⋱⋮1wn−1w2(n−1)⋯w(n−1)2]F_n=\begin{bmatrix}1&1&1&\cdots&1\\1&w&w^2&\cdots&w^{n-1}\\1&w^2&w^4&\cdots&w^{2(n-1)}\\\vdots&\vdots&\vdots&\ddots&\vdots\\1&w^{n-1}&w^{2(n-1)}&\cdots&w^{(n-1)^2}\end{bmatrix}Fn=⎣⎢⎢⎢⎢⎢⎡111⋮11ww2⋮wn−11w2w4⋮w2(n−1)⋯⋯⋯⋱⋯1wn−1w2(n−1)⋮w(n−1)2⎦⎥⎥⎥⎥⎥⎤，对于每一个元素有(Fn)ij=wiji,j=0,1,2,⋯,n−1(F_n)_{ij}=w^{ij}\quad i,j=0,1,2,\cdots,n-1(Fn)ij=wiji,j=0,1,2,⋯,n−1。矩阵中的www是一个非常特殊的值，满足wn=1w^n=1wn=1，其公式为w=ei2π/nw=e^{i2\pi/n}w=ei2π/n。易知www在复平面的单位圆上，w=cos⁡2πn+isin⁡2πnw=\cos\frac{2\pi}{n}+i\sin\frac{2\pi}{n}w=cosn2π+isinn2π。

在傅里叶矩阵中，当我们计算www的幂时，www在单位圆上的角度翻倍。比如在666阶情形下，w=e2π/6w=e^{2\pi/6}w=e2π/6，即位于单位圆上60∘60^\circ60∘角处，其平方位于单位圆上120∘120^\circ120∘角处，而w6w^6w6位于111处。从开方的角度看，它们是111的666个六次方根，而一次的www称为原根。

我们现在来看444阶傅里叶矩阵，先计算www有w=i,w2=−1,w3=−i,w4=1w=i,\ w^2=-1,\ w^3=-i,\ w^4=1w=i, w2=−1, w3=−i, w4=1，F4=[11111ii2i31i2i4i61i3i6i9]=[11111i−1−i1−11−11−i−1i]F_4=\begin{bmatrix}1&1&1&1\\1&i&i^2&i^3\\1&i^2&i^4&i^6\\1&i^3&i^6&i^9\end{bmatrix}=\begin{bmatrix}1&1&1&1\\1&i&-1&-i\\1&-1&1&-1\\1&-i&-1&i\end{bmatrix}F4=⎣⎢⎢⎡11111ii2i31i2i4i61i3i6i9⎦⎥⎥⎤=⎣⎢⎢⎡11111i−1−i1−11−11−i−1i⎦⎥⎥⎤。

矩阵的四个列向量正交，我们验证一下第二列和第四列，c2ˉTc4=1−0+1−0=0\bar{c_2}^Tc_4=1-0+1-0=0c2ˉTc4=1−0+1−0=0，正交。不过我们应该注意到，F4F_4F4的列向量并不是标准的，我们可以给矩阵乘上系数12\frac{1}{2}21（除以列向量的长度）得到标准正交矩阵F4=12[11111i−1−i1−11−11−i−1i]F_4=\frac{1}{2}\begin{bmatrix}1&1&1&1\\1&i&-1&-i\\1&-1&1&-1\\1&-i&-1&i\end{bmatrix}F4=21⎣⎢⎢⎡11111i−1−i1−11−11−i−1i⎦⎥⎥⎤。此时有F4HF4=IF_4^HF_4=IF4HF4=I，于是该矩阵的逆矩阵也就是其共轭转置F4HF_4^HF4H。

3.快速傅里叶变换（Fast Fourier transform/FFT）

对于傅里叶矩阵，F6,F3F_6,\ F_3F6, F3、F8,F4F_8,\ F_4F8, F4、F64,F32F_{64},\ F_{32}F64, F32之间有着特殊的关系。

举例，有傅里叶矩阵F64F_64F64，一般情况下，用一个列向量右乘F64F_{64}F64需要约64264^2642次计算，显然这个计算量是比较大的。我们想要减少计算量，于是想要分解F64F_{64}F64，联系到F32F_{32}F32，有[F64]=[EDI−D][F3200F32][1⋯0⋯0⋯1⋯1⋯0⋯0⋯1⋯⋱⋱⋱⋱⋯1⋯0⋯0⋯1]\Bigg[F_{64}\Bigg]=\begin{bmatrix}E&D\\I&-D\end{bmatrix}\begin{bmatrix}F_{32}&0\\0&F_{32}\end{bmatrix}\begin{bmatrix}1&&\cdots&&&0&&\cdots&&\\0&&\cdots&&&1&&\cdots&&\\&1&\cdots&&&&0&\cdots&&\\&0&\cdots&&&&1&\cdots&&\\&&&\ddots&&&&&\ddots&&\\&&&\ddots&&&&&\ddots&&\\&&&\cdots&1&&&&\cdots&0\\&&&\cdots&0&&&&\cdots&1\end{bmatrix}[F64]=[EID−D][F3200F32]⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡1010⋯⋯⋯⋯⋱⋱⋯⋯100101⋯⋯⋯⋯⋱⋱⋯⋯01⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤。

我们分开来看等式右侧的这三个矩阵：

第一个矩阵由单位矩阵EEE和对角矩阵D=[1ww2⋱w31]D=\begin{bmatrix}1&&&&\\&w&&&\\&&w^2&&\\&&&\ddots&\\&&&&w^{31}\end{bmatrix}D=⎣⎢⎢⎢⎢⎡1ww2⋱w31⎦⎥⎥⎥⎥⎤组成，我们称这个矩阵为修正矩阵，显然其计算量来自DDD矩阵，对角矩阵的计算量约为323232即这个修正矩阵的计算量约为323232，单位矩阵的计算量忽略不计。
第二个矩阵是两个F32F_{32}F32与零矩阵组成的，计算量约为2×3222\times 32^22×322。
第三个矩阵通常记为PPP矩阵，这是一个置换矩阵，其作用是讲前一个矩阵中的奇数列提到偶数列之前，将前一个矩阵从[x0x1⋯]\Bigg[x_0\ x_1\ \cdots\Bigg][x0 x1 ⋯]变为[x0x2⋯x1x3⋯]\Bigg[x_0\ x_2\ \cdots\ x_1\ x_3\ \cdots\Bigg][x0 x2 ⋯ x1 x3 ⋯]，这个置换矩阵的计算量也可以忽略不计。（这里教授似乎在黑板上写错了矩阵，可以参考FFT、How the FFT is computed做进一步讨论。）

所以我们把64264^2642复杂度的计算化简为2×322+322\times 32^2+322×322+32复杂度的计算，我们可以进一步化简F32F_{32}F32得到与F16F_{16}F16有关的式子[I32D32I32−D32][I16D16I16−D16I16D16I16−D16][F16F16F16F16][P16P16][P32]\begin{bmatrix}I_{32}&D_{32}\\I_{32}&-D_{32}\end{bmatrix}\begin{bmatrix}I_{16}&D_{16}&&\\I_{16}&-D_{16}&&\\&&I_{16}&D_{16}\\&&I_{16}&-D_{16}\end{bmatrix}\begin{bmatrix}F_{16}&&&\\&F_{16}&&\\&&F_{16}&\\&&&F_{16}\end{bmatrix}\begin{bmatrix}P_{16}&\\&P_{16}\end{bmatrix}\Bigg[\ P_{32}\ \Bigg][I32I32D32−D32]⎣⎢⎢⎡I16I16D16−D16I16I16D16−D16⎦⎥⎥⎤⎣⎢⎢⎡F16F16F16F16⎦⎥⎥⎤[P16P16][ P32 ]。而32232^2322的计算量进一步分解为2×162+162\times 16^2+162×162+16的计算量，如此递归下去我们最终得到含有一阶傅里叶矩阵的式子。

来看化简后计算量，2(2(2(2(2(2(1)2+1)+2)+4)+8)+16)+322\left(2\left(2\left(2\left(2\left(2\left(1\right)^2+1\right)+2\right)+4\right)+8\right)+16\right)+322(2(2(2(2(2(1)2+1)+2)+4)+8)+16)+32，约为6×32=log⁡264×6426\times 32=\log_264\times \frac{64}{2}6×32=log264×264，算法复杂度为n2log⁡2n\frac{n}{2}\log_2n2nlog2n。

于是原来需要n2n^2n2的运算现在只需要n2log⁡2n\frac{n}{2}\log_2n2nlog2n就可以实现了。不妨看看n=10n=10n=10的情况，不使用FFT时需要n2=1024×1024n^2=1024\times 1024n2=1024×1024次运算，使用FFT时只需要n2log⁡2n=5×1024\frac{n}{2}\log_2n=5\times 10242nlog2n=5×1024次运算，运算量大约是原来的1200\frac{1}{200}2001。

下一讲将继续介绍特征值、特征向量及正定矩阵。

第二十八讲、正定矩阵和最小值

本讲我们会了解如何完整的测试一个矩阵是否正定，测试xTAxx^TAxxTAx是否具有最小值，最后了解正定的几何意义——椭圆（ellipse）和正定性有关，双曲线（hyperbola）与正定无关。另外，本讲涉及的矩阵均为实对称矩阵。

1.正定性的判断

我们仍然从二阶说起，有矩阵A=[abbd]A=\begin{bmatrix}a&b\\b&d\end{bmatrix}A=[abbd]，判断其正定性有以下方法：

矩阵的所有特征值大于零则矩阵正定：λ1>0,λ2>0\lambda_1>0,\ \lambda_2>0λ1>0, λ2>0；
矩阵的所有顺序主子阵（leading principal submatrix）的行列式（即顺序主子式，leading principal minor）大于零则矩阵正定：a>0,ac−b2>0a>0,\ ac-b^2>0a>0, ac−b2>0；
矩阵消元后主元均大于零：a>0,ac−b2a>0a>0,\ \frac{ac-b^2}{a}>0a>0, aac−b2>0；
xTAx>0x^TAx>0xTAx>0；
负定矩阵的性质：
对角线元素都是负数
若AAA与BBB都是HHH阵，且共轭合同，那么AAA与BBB的负定是等价的

矩阵AAA负定的等价条件：

特征值均小于000
AAA与EEE共轭合同（负定矩阵性质2）
AAA的奇数阶顺序主子式均小于000，偶数阶顺序主子式均大于000

半正定矩阵的性质：

对角线元素di≥0d_i \ge 0di≥0
若AAA与BBB都是HHH阵，且共轭合同，那么AAA与BBB的半正定是等价的

矩阵AAA半正定的等价条件：

特征值均大于等于000
AAA与[Ir0]\begin{bmatrix}I_r&\\&0\end{bmatrix}[Ir0]共轭合同（半正定矩阵性质2）
存在矩阵PPP（并不要求是可逆的，如果可逆可以判断是正定矩阵），A=PHPA=P^HPA=PHP
AAA的各阶顺序主子式均大于等于000

大多数情况下使用4来定义正定性，而用前三条来验证正定性。

来计算一个例子：A=[266?]A=\begin{bmatrix}2&6\\6&?\end{bmatrix}A=[266?]，在???处填入多少才能使矩阵正定？

来试试181818，此时矩阵为A=[26618]A=\begin{bmatrix}2&6\\6&18\end{bmatrix}A=[26618]，∣A∣=0|A|=0∣A∣=0，此时的矩阵成为半正定矩阵（positive semi-definite）。矩阵奇异，其中一个特征值必为000，从迹得知另一个特征值为202020。矩阵的主元只有一个，为222。

计算xTAxx^TAxxTAx，得[x1x2][26618][x1x2]=2x12+12x1x2+18x22\begin{bmatrix}x_1&x_2\end{bmatrix}\begin{bmatrix}2&6\\6&18\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=2x_1^2+12x_1x_2+18x_2^2[x1x2][26618][x1x2]=2x12+12x1x2+18x22这样我们得到了一个关于x1,x2x_1,x_2x1,x2的函数f(x1,x2)=2x12+12x1x2+18x22f(x_1,x_2)=2x_1^2+12x_1x_2+18x_2^2f(x1,x2)=2x12+12x1x2+18x22，这个函数不再是线性的，在本例中这是一个纯二次型（quadratic）函数，它没有线性部分、一次部分或更高次部分（AxAxAx是线性的，但引入xTx^TxT后就成为了二次型）。

当???取181818时，判定1、2、3都是“刚好不及格”。
我们可以先看“一定不及格”的样子，令?=7?=7?=7，矩阵为A=[2667]A=\begin{bmatrix}2&6\\6&7\end{bmatrix}A=[2667]，二阶顺序主子式变为−22-22−22，显然矩阵不是正定的，此时的函数为f(x1,x2)=2x12+12x1x2+7x22f(x_1,x_2)=2x_1^2+12x_1x_2+7x_2^2f(x1,x2)=2x12+12x1x2+7x22，如果取x1=1,x2=−1x_1=1,x_2=-1x1=1,x2=−1则有f(1,−1)=2−12+7<0f(1,-1)=2-12+7<0f(1,−1)=2−12+7<0。

如果我们把z=2x2+12xy+7y2z=2x^2+12xy+7y^2z=2x2+12xy+7y2放在直角坐标系中，图像过原点z(0,0)=0z(0,0)=0z(0,0)=0，当y=0y=0y=0或x=0x=0x=0或x=yx=yx=y时函数为开口向上的抛物线，所以函数图像在某些方向上是正值；而在某些方向上是负值，比如x=−yx=-yx=−y，所以函数图像是一个马鞍面（saddle），(0,0,0)(0,0,0)(0,0,0)点称为鞍点（saddle point），它在某些方向上是极大值点，而在另一些方向上是极小值点。（实际上函数图像的最佳观测方向是沿着特征向量的方向。）
再来看一下“一定及格”的情形，令?=20?=20?=20，矩阵为A=[26620]A=\begin{bmatrix}2&6\\6&20\end{bmatrix}A=[26620]，行列式为∣A∣=4|A|=4∣A∣=4，迹为trace(A)=22trace(A)=22trace(A)=22，特征向量均大于零，矩阵可以通过测试。此时的函数为f(x1,x2)=2x12+12x1x2+20x22f(x_1,x_2)=2x_1^2+12x_1x_2+20x_2^2f(x1,x2)=2x12+12x1x2+20x22，函数在除(0,0)(0,0)(0,0)外处处为正。我们来看看z=2x2+12xy+20y2z=2x^2+12xy+20y^2z=2x2+12xy+20y2的图像，式子的平方项均非负，所以需要两个平方项之和大于中间项即可，该函数的图像为抛物面（paraboloid）。在(0,0)(0,0)(0,0)点函数的一阶偏导数均为零，二阶偏导数均为正（马鞍面的一阶偏导数也为零，但二阶偏导数并不均为正），函数在该点取极小值。

在微积分中，一元函数取极小值需要一阶导数为零且二阶导数为正dudx=0,d2udx2>0\frac{\mathrm{d}u}{\mathrm{d}x}=0, \frac{\mathrm{d}^2u}{\mathrm{d}x^2}>0dxdu=0,dx2d2u>0。在线性代数中我们遇到了了多元函数f(x1,x2,⋯,xn)f(x_1,x_2,\cdots,x_n)f(x1,x2,⋯,xn)，要取极小值需要二阶偏导数矩阵为正定矩阵。

在本例中（即二阶情形），如果能用平方和的形式来表示函数（标准形），则很容易看出函数是否恒为正，f(x,y)=2x2+12xy+20y2=2(x+3y)2+2y2f(x,y)=2x^2+12xy+20y^2=2\left(x+3y\right)^2+2y^2f(x,y)=2x2+12xy+20y2=2(x+3y)2+2y2。另外，如果是上面的?=7?=7?=7的情形，则有f(x,y)=2(x+3y)2−11y2f(x,y)=2(x+3y)^2-11y^2f(x,y)=2(x+3y)2−11y2，如果是?=18?=18?=18的情形，则有f(x,y)=2(x+3y)2f(x,y)=2(x+3y)^2f(x,y)=2(x+3y)2。

如果令z=1z=1z=1，相当于使用z=1z=1z=1平面截取该函数图像，将得到一个椭圆曲线。另外，如果在?=7?=7?=7的马鞍面上截取曲线将得到一对双曲线。

再来看这个矩阵的消元，[26620]=[10−31][2602]\begin{bmatrix}2&6\\6&20\end{bmatrix}=\begin{bmatrix}1&0\\-3&1\end{bmatrix}\begin{bmatrix}2&6\\0&2\end{bmatrix}[26620]=[1−301][2062]，这就是A=LUA=LUA=LU，可以发现矩阵LLL中的项与配平方中未知数的系数有关，而主元则与两个平方项外的系数有关，这也就是为什么正数主元得到正定矩阵。

上面又提到二阶导数矩阵，这个矩阵型为[fxxfxyfyxfyy]\begin{bmatrix}f_{xx}&f_{xy}\\f_{yx}&f_{yy}\end{bmatrix}[fxxfyxfxyfyy]，显然，矩阵中的主对角线元素（纯二阶导数）必须为正，并且主对角线元素必须足够大来抵消混合导数的影响。同时还可以看出，因为二阶导数的求导次序并不影响结果，所以矩阵必须是对称的。现在我们就可以计算n×nn\times nn×n阶矩阵了。

接下来计算一个三阶矩阵，A=[2−10−12−10−12]A=\begin{bmatrix}2&-1&0\\-1&2&-1\\0&-1&2\end{bmatrix}A=⎣⎡2−10−12−10−12⎦⎤，它是正定的吗？函数xTAxx^TAxxTAx是多少？函数在原点取最小值吗？图像是什么样的？

先来计算矩阵的顺序主子式，分别为2,3,42,3,42,3,4；再来计算主元，分别为2,32,432,\frac{3}{2},\frac{4}{3}2,23,34；计算特征值，λ1=2−2,λ2=2,λ3=2+2\lambda_1=2-\sqrt 2,\lambda_2=2,\lambda_3=2+\sqrt 2λ1=2−2,λ2=2,λ3=2+2。
计算xTAx=2x12+2x22+2x32−2x1x2−2x2x3x^TAx=2x_1^2+2x_2^2+2x_3^2-2x_1x_2-2x_2x_3xTAx=2x12+2x22+2x32−2x1x2−2x2x3。
图像是四维的抛物面，当我们在f(x1,x2,x3)=1f(x_1,x_2,x_3)=1f(x1,x2,x3)=1处截取该面，将得到一个椭圆体。一般椭圆体有三条轴，特征值的大小决定了三条轴的长度，而特征向量的方向与三条轴的方向相同。

现在我们将实对称矩阵AAA分解为A=QΛQTA=Q\Lambda Q^TA=QΛQT，可以发现上面说到的各种元素都可以表示在这个分解的矩阵中，我们称之为主轴定理（principal axis theorem），即特征向量说明主轴的方向、特征值说明主轴的长度。

A=QΛQTA=Q\Lambda Q^TA=QΛQT是特征值相关章节中最重要的公式。