第十四课时:正交向量与子空间

结论:

  • 行空间(r)与零空间(n-r)是正交的
  • 列空间(r)与左零空间(m-r)是正交的

正交向量

  • 在n维空间中,向量之间的夹角为90度。
  • 如果 XTY=0X^TY=0,则X,Y 正交
  • 零向量与任何向量都正交

正交子空间

定义:如果子空间 S 与子空间 T 正交,那么 S 中的每个向量都和 T 中的每个向量正交

性质:如果两个子空间正交,那么他们必定不会交与某个非零向量(因为它不与自身相交),它们必定相交于零向量。

例子:

  • 行空间和零空间是将整个n维空间一分为二的两个相互正交的子空间,两个子空间的维数和为n,称为n维空间里面的正交补。这个结论可以从零空间的定义直接得出Ax=0.
  • 列空间和左零空间是将整个m维空间一分为二的两个相互正交的子空间,两个子空间的维数和为m,称为m维空间里面的正交补.

以三维空间为例,如果行空间是一维的一条直线,那么零空间就是垂直于这条直线的一个平面。例如,对于矩阵 A=[1224510]A=\begin{bmatrix}1&2&5\\ 2&4&10\end{bmatrix},行空间是(1 2 5),零空间就是垂直于这个向量的平面,一组基为⎡⎣⎢−501⎤⎦⎥,⎡⎣⎢−210⎤⎦⎥\begin{bmatrix}-5\\0\\1\end{bmatrix},\begin{bmatrix}-2\\1\\0\end{bmatrix}。

当 Ax=bAx=b 无解的时候,应该怎么办?

A中的有些行是坏数据,一种方法是把坏数据筛选出来,直到剩下一个可逆的方阵,然后求出它的解。但这种方法不好判断。

一个更好的方法是,把方程两边同时乘以 ATA^T,得到 ATAx=ATbA^TAx=A^Tb,去求解这个好方程。

ATAA^TA 的性质:

  • Am×nA_{m\times n}是长方矩阵,而 ATAA^TA 是 nxn 对称方阵
  • ATAA^TA 不一定可逆
  • ATAA^TA 的秩等于 AA 的秩(因为 Ax=0Ax=0 的解与 ATAx=(Ax)TAx=0A^TAx=(Ax)^TAx=0 解相同)
  • ATAA^TA 的零空间等于 AA 的零空间
  • ATAA^TA 可逆 ⇔\Leftrightarrow AA 的零空间只有零向量 ⇔\Leftrightarrow A 的秩为n

第十五课时:子空间投影

一维向量的投影

考虑两个不共线的向量 aa 和 bb,令 pp 为 bb 在 aa 上的投影,e=b−pe=b-p,p=axp = ax,它在 a 的一维子空间里. 由 a⊥ea\perp e 可得:aT(b−ax)=0a^T(b - ax) = 0.

因此 x=aTbaTa,p=aaTaTabx=\frac{a^Tb}{a^Ta}, p =\frac{aa^T}{a^Ta}b . 假设b 变成原来的两倍,那么投影p也变成原来的两倍,如果a 变为原来的2 倍,p 则不变。

投影矩阵:投影是由投影矩阵完成的,投影就是某个矩阵P,作用在b 上面,使我们得到了投影p,有p=Pb. 故

P=aaTaTa

P=\frac{aa^T}{a^Ta}

投影矩阵P的性质:

  • 因为投影矩阵乘以任何向量 b 后仍旧在其列空间,因此投影矩阵的列空间 C(P)C(P) 是通过 a 的一条线,投影矩阵P的秩为1,向量a就是列空间的基
  • PT=PP^T=P
  • P2=PP^2=P

为什么要做投影?why project

因为 Ax=b 也许会无解,那么只能求解最接近的那个可能问题。Ax 总在A 的列空间里,那么如果将b 微调,将b 变为列空间中最接近它自己的那一个,将问题换做求解 Ax^=p=PbA\hat x=p=Pb ,p 是b 在列空间上的投影(列空间内最合适的右侧向量)。这就是要找最好的那个投影的原因。

三维空间的投影

要将向量b 投影在平面上得到投影向量p。得到一个使b 投影到平面上最近点的公式。已知两个线性无关的向量a1,a2 可生成平面,那么可以把这个生成的平面空间看成是矩阵的列向量,那么矩阵A=[a1 a2],误差向量e=b-p,e 是垂直于平面的。

因为p在列空间内,可得投影 p=x1a1+x2a2=Ax^p=x_1a_1+x_2a_2=A\hat x. 现在要求解 x^\hat x,寻找合适的线性组合,好让误差向量垂直于这个平面,关键在 e=b−Ax^e=b-A\hat x。由 a1⊥ea_1\perp e,且 a2⊥ea_2\perp e 可得:

[aT1aT2](b−Ax^)=[00]

\begin{bmatrix}a_1^T\\a_2^T\end{bmatrix}(b-A\hat x)=\begin{bmatrix}0\\0\end{bmatrix}
也就是: AT(b−Ax^)=0A^T(b-A\hat x)=0. 可见 e 位于A 转置的零空间(左
零空间),误差e 与列空间正交,误差 e 垂直于A 的列空间。方程可继续转换成:

ATAx^=ATb

A^TA\hat x=A^Tb
因此:

x^pP=(ATA)−1ATb=Ax^=A(ATA)−1ATb=A(ATA)−1AT

\begin{align*} \hat x &=(A^TA)^{-1}A^Tb \\ p&=A\hat x=A(A^TA)^{-1}A^Tb \\ P&=A(A^TA)^{-1}A^T \end{align*}
注意因为 A 不是方阵,不可逆,因此 A−1A^{-1} 不存在,不能将 (ATA)−1(A^TA)^{-1} 里的括号去掉变成 A−1(AT)−1A^{-1}(A^T)^{-1}。

投影矩阵的性质:

  • PT=PP^T=P
  • P2=PP^2=P

最小二乘法

当遇到太多方程,要求它的最优解,常见例子通过最小二乘法拟合一条直线。如下,横坐标是时间t,纵坐标是位置b,已知3 点,现在要找到一条最优的直线来拟合这些点,误差最小。我们要确定C 和D的大小,来得到b=C+Dt 方程。假设三个点分别为 (1,1)、(2,2)、(3,2)。那么可得:

⎡⎣⎢111123⎤⎦⎥[CD]=⎡⎣⎢122⎤⎦⎥

\begin{bmatrix}1&1\\1&2\\1&3\end{bmatrix}\begin{bmatrix}C\\D\end{bmatrix}=\begin{bmatrix}1\\2\\2\end{bmatrix}
这个方程无解,因为这三个点不共线,但我们可以解出最优解,这个最优解不是原方程的解,是最接近的解。但可通过如下变换后方程就有解了:

ATAx^=ATb

A^TA\hat x=A^Tb
这是最小二乘法的核心方程,虽然Ax=b无解,但如果两倍同时乘以A 转置,就得到一个有解的方程,就能求出最优解,最理想的投影以及投影矩阵。

第十六课时:投影矩阵和最小二乘(Projections matrix and Least square)

投影矩阵表达式:

P=A(ATA)−1AT

P=A(A^TA)^{-1}A^T
特殊情况下,有如下结论:

  • 如果 b∈C(A)⇒Pb=bb\in C(A)\Rightarrow Pb=b
  • 如果 b⊥C(A)⇒Pb=0b\perp C(A)\Rightarrow Pb=0

一般情况下,向量b 会有一分量在列空间里,另一分量则和列空间垂直(存在于左零空间)。投影要做的就是去掉与列空间垂直分量,保留在列空间中的分量。

bb 投影到两个正交的子空间中,投影到列空间 p=Pbp=Pb,投影到零空间的 e=(I−P)be=(I-P)b. PP 和 I−PI-P 都是投影矩阵,如果 PP 是对称的,那 I−PI-P 也是对称的。

最小二乘,典型的应用就是拟合最优直线

找到一条最优的直线 y=C+Dty=C+Dt,使得总误差最小。

A 的两个列向量线性无关,右侧 b 向量并不在A 的列空间中,无解,那么最接近的解是什么?找拥有最小误差平方和的解(用误差的平方和作为测量总误差的标准):这些误差是Ax 和 b 之间的差值,我们需要最小化它。Ax-b=e,即误差向量,是向量,即意味着要将向量e 的长度最小化.

最小二乘法的缺点是容易受到离群量的影响。

现在假设三个观测点分别对应落在直线上的三个点 p1,p2,p3p1,p2,p3,它们是用来替代已知的 b1,b2,b3b1,b2,b3。e1,e2,e3e1,e2,e3 分别是他们两对应点之间的距离。这样方程就有解了。方程变为:

ATAx^=ATb

A^TA\hat x=A^Tb

如果 A的列向量线性无关,那么 ATAA^TA 就是对称可逆方阵,且是正定矩阵。将参数代进去,得到的方程称为正规方。

正规方程也可以通过对误差函数求偏导的方式得到。

用两种不同的方式,b 在两个子空间的投影和最小二乘都描述了同一个问题,b 到列空间的投影得向量p,找到了最接近b 的列向量的线性组合C 和D,C 和D 定义了最优直线,由C 和D 确定的列组合就是向量p。

命题:如果矩阵A 各列线性无关,则 ATAA^TA 是可逆矩阵。(这也是最小二乘法成立的大前提,如果不可逆方程)
证明: 只需要证明 ATAx=0A^TAx=0 只有零解即可。 在等式两边同时乘以 xTx^T 有:xTATAx=(Ax)TAx=0x^TA^TAx=(Ax)^TAx=0,即等价于 Ax=0Ax=0. 而 A 各列又是线性无关的,故 x=0x=0. 得证。

有一种线性无关的情况比较特别,那就是标准正交向量组。相互垂直的各列向量一定是线性无关的(零向量除外)。相互垂直的单位向量一定是线性无关的,它们称为标准正交向量组。

比如 w(cosθ,sinθ) 和 v(-sinθ,cosθ) 就是一组典型的标准正交向量(相互垂直且是单位向量)。

第十七课时:正交矩阵和正交化法

标准正交基
一组基里的向量,长度均为1,两两正交,且不和自己正交。

如果将正交基组称矩阵 QQ,那么 QTQ=IQ^TQ=I。

正交矩阵(orthogonal matrix)
是一个方阵时,各列向量相互垂直,且长度为1。(之所以要求正交矩阵是方阵,是因为方阵才有逆矩阵。)

正交矩阵的性质:

QT=Q−1

Q^T=Q^{-1}

举例:交换单位矩阵的列即可得到正交矩阵。

阿德玛(Adhemar)矩阵:只有 1 和 -1 的正交矩阵(当然需要除以矩阵的长度进行归一化)。

正交矩阵的优点
正交矩阵的投影矩阵 P=Q(QTQ)−1QT=QQTP=Q(Q^TQ)^{-1}Q^T=QQ^T。显然 P 是对称的,且 PT=P,P2=PP^T=P,P^2=P

如果 Q 是方阵时, P=QQT=IP=QQ^T=I。因为Q 是方阵,且各列线性无关,那么Q的列空间就是整个空间,投影到整个空间里的投影矩阵就是I。(证明:P−1=(QQT)−1=(QT)−1Q−1=(Q−1)−1Q−1=IP^{-1}=(QQ^T)^{-1}=(Q^T)^{-1}Q^{-1}=(Q^{-1})^{-1}Q^{-1}=I,故 P=IP=I)

对于投影方程:ATAx^=ATbA^TA\hat x=A^Tb,如果 AA 是标准正交基 QQ,那么可得到:x^=QTb\hat x=Q^Tb. 那么 x^\hat x 的分向量:x^i=qTib\hat x_i=q_i^Tb,
即第 ii 个基方向上的投影就等于 qTibq_i^Tb.

格拉姆-施密特正交化法(Gram-Schmidt)

让列向量线性无关的矩阵正交化(向量垂直且长度为1)

已知相互无关的向量 a,ba,b,目标要将它们正交化为长度为1的 A,BA,B. 方法如下:

  • 可将向量 a 固定
  • 然后 b 投影到 a 上,误差 e=b−aaTbaTae=b-a\frac{a^Tb}{a^Ta}
  • 可验证 aTe=0a^Te=0
  • 分别将 a 和 e 归一化: A=a∥a∥,B=e∥e∥A=\frac{a}{\|a\|},B=\frac{e}{\|e\|}

假设有三个向量 a,b,c,正交化得到 A,B,C。可由上已知了 A 和 B,求得 C:

C=c−aaTcaTa−bbTcbTb

C=c-a\frac{a^Tc}{a^Ta}-b\frac{b^Tc}{b^Tb}

一个例子:正交化向量 a=⎡⎣⎢111⎤⎦⎥,b=⎡⎣⎢102⎤⎦⎥a =\begin{bmatrix}1\\1\\1\end{bmatrix},b =\begin{bmatrix}1\\0\\2\end{bmatrix}:

B=⎡⎣⎢111⎤⎦⎥−33⎡⎣⎢102⎤⎦⎥=⎡⎣⎢0−11⎤⎦⎥,Q=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢13√13√13√0−12√12√⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥

B =\begin{bmatrix}1\\1\\1\end{bmatrix}-\frac{3}{3}\begin{bmatrix}1\\0\\2\end{bmatrix}=\begin{bmatrix}0\\-1\\1\end{bmatrix}, Q=\begin{bmatrix}\frac{1}{\sqrt3}&0\\\frac{1}{\sqrt3}&-\frac{1}{\sqrt2}\\\frac{1}{\sqrt3}&\frac{1}{\sqrt2}\end{bmatrix}

正交矩阵与原矩阵的关系(QR分解)

存在一个矩阵 R 满足 A=QRA=QR,其中 R 是一个上三角矩阵

说明:因为 Q−1=QTQ^{-1}=Q^T,故 R=QTAR=Q^TA。左下角元素为 qT2a1q_2^Ta_1. 注意到 a1∥q1,q1⊥q2a_1\parallel q_1, q_1\perp q_2,即 a1a_1 和 q2q_2 互相垂直,所以内积为0.

第十八课时:行列式及其性质

从这里开始,就是本课程的第二部分了,主要研究对象是方阵。

关于方阵的行列式(determinant),需要行列式的重要原因是求特征值

行列式为0 ⇔\Leftrightarrow 矩阵可逆 ⇔\Leftrightarrow 非奇异矩阵

行列式基本性质:

  • 性质1:det(I)=1det(I)=1;
  • 性质2交换矩阵行,行列式符号会相反
    • 置换矩阵(交换行)的行列式为 1 (交换偶数次)或 -1 (交换奇数次)
    • 任何一种置换都可区分奇偶,通过7 次换行得到一种置换,同样可通过21 或23 次(奇数次)换行得到,相应也存在偶数次的置换
    • 如果通过奇数次换行得到的矩阵不可能由偶数次换行得到
  • 性质3:行列式是一个行线性函数,每一行表现为线性函数,如果其余行都保持不变。(每行独立成立的线性性质)
    • 如果第 ii 的每个元素都是 tt 的倍数,那么行列式可将倍数 tt 提取出来。即:∣∣∣tactbd∣∣∣=t∣∣∣acbd∣∣∣\begin{vmatrix}ta&tb\\c&d\end{vmatrix}=t\begin{vmatrix}a&b\\c&d\end{vmatrix}
      • 如果某一行 ii 由两个数字相加,那么行列式可以分解成那两个行列式的值相加. 即:∣∣∣a+a′cb+b′d∣∣∣=∣∣∣acbd∣∣∣+∣∣∣a′cb′d∣∣∣\begin{vmatrix}a+a'&b+b'\\c&d\end{vmatrix}=\begin{vmatrix}a&b\\c&d\end{vmatrix}+\begin{vmatrix}a'&b'\\c&d\end{vmatrix}

以上是基本性质,下面的性质都可由上面的性质得到。


  • 性质4:如果两行相等,那么行列式为0;

    • 证明方法:利用性质2,交换相等的两行,那么 detA=−detAdetA=-detA,故 detA=0detA=0.
  • 性质5对矩阵做初等行变换,其行列式值不变。从行 k 减去行 i 的 l 倍,行列式并不因此改变。A 的行列式等于消元后的上三角矩阵的行列式
    • 证明方法:(性质3)∣∣∣ac−labd−lb∣∣∣=∣∣∣acbd∣∣∣−l∣∣∣aabb∣∣∣=∣∣∣acbd∣∣∣\begin{vmatrix}a&b\\c-la&d-lb\end{vmatrix}=\begin{vmatrix}a&b\\c&d\end{vmatrix}-l\begin{vmatrix}a&b\\a&b\end{vmatrix}=\begin{vmatrix}a&b\\c&d\end{vmatrix}
  • 性质6:若有一行是 0 那么 A 的行列式就是0;
    • 证明方法:性质3中,令t=0即可。
  • 性质7(对角阵的行列式)矩阵 A 通过消元法得到上三角阵 U 的主对角线上的元素为 d1,d2,di,⋯,dnd_1,d_2,d_i,\cdots,d_n,那么这个矩阵的行列式为 det(U)=d1∗d2∗⋯∗dndet(U)=d_1*d_2*\cdots*d_n;
    • 证明方法:利用性质3,可继续将上三角阵简化为对角阵,而对角阵的行列式即为对角元素乘积。
  • 性质8A 是奇异矩阵 ⇔\Leftrightarrow detA=0当且仅当A 是可逆的(非奇异) ⇔\Leftrightarrow detA 不等于0
  • 性质9(矩阵乘积的行列式) detAB=(detA)∗(detB)detAB=(detA)*(detB)(注意A+B 的行列式不等于他们各自行列式之和)
    • detA−1=1/detAdetA^{-1}=1/detA
    • detA2=(detA)2detA^2=(detA)^2
    • det2A=2ndetAdet2A=2^ndetA
  • 性质10:A 转置的行列式等于A 的行列式,detAT=detAdetA^T=det A
    • 证明方法:对A进行 A=LUA=LU,那么需要证明 |UTLT|=|LU||U^TL^T|=|LU|,由性质9和性质7可知,性质成立。
    • 对任何三角矩阵求行列式的时候非主对角线上元素都可忽略,看成对角阵即可
    • 不光当矩阵的行全0 时行列式为0,当矩阵的某列全0 时行列式也为0,并且,所有行的性质对于列同样成立,交换两列会改变行列式的符号

初等行变换和列变换什么时候可以同时使用?

  • 不能同时使用:

    • 求解 Ax=b 方程:行变换就要同时作用于系数矩阵和右端项;列变换则需要保留信息以便最后求解的时候用.
    • 求矩阵的逆(A,E)⇒(E,A−1)(A,E)\Rightarrow(E,A^{-1}):求A的逆,就是求B,使得AB=BA=E。从BA=E看就是对A进行初等行变换;从AB=E看就是对A进行初等列变换
  • 可以同时使用:
    • 求方阵行列式:行变换与列变换不改变矩阵的行列式
    • 求矩阵的秩:行变换了列变换均不改变矩阵的秩

第十九课时:行列式公式和代数余子式(cofactor)

行列式的求解公式

利用线性性质,可以推导出 2x2 方阵的行列式公式:

∣∣∣acbd∣∣∣==∣∣∣ac0d∣∣∣+∣∣∣0cbd∣∣∣∣∣∣ac00∣∣∣+∣∣∣a00d∣∣∣+∣∣∣0cb0∣∣∣+∣∣∣00bd∣∣∣

\begin{align*} \begin{vmatrix}a&b\\c&d\end{vmatrix}=&\begin{vmatrix}a&0\\c&d\end{vmatrix}+\begin{vmatrix}0&b\\c&d\end{vmatrix} \\ =&\begin{vmatrix}a&0\\c&0\end{vmatrix}+\begin{vmatrix}a&0\\0&d\end{vmatrix}+\begin{vmatrix}0&b\\c&0\end{vmatrix}+\begin{vmatrix}0&b\\0&d\end{vmatrix} \end{align*}
注意到含全零列(行)的矩阵的行列式为0,所以只需要关注每行每列都有一个元素的矩阵就可以了。

对于三阶矩阵:

∣∣∣∣a11a21a31a12a22a32a13a23a33∣∣∣∣==∣∣∣∣a11000a22000a33∣∣∣∣+∣∣∣∣a110a310000a230∣∣∣∣+∣∣∣∣0a210a120000a33∣∣∣∣+∣∣∣∣00a31a12000a230∣∣∣∣+∣∣∣∣0a21000a32a1300∣∣∣∣+∣∣∣∣00a310a220a1300∣∣∣∣a11a22a33−a11a23a32−a12a21a33+a12a23a31+a13a22a32−a11a22a31

\begin{align*} \begin{vmatrix}a_{11}&a_{12}&a_{13}\\a_{21}&a_{22}&a_{23}\\a_{31}&a_{32}&a_{33}\end{vmatrix}= &\begin{vmatrix}a_{11}&0&0\\0&a_{22}&0\\0&0&a_{33}\end{vmatrix}+\begin{vmatrix}a_{11}&0&0\\0&0&a_{23}\\a_{31}&0&0\end{vmatrix}+\begin{vmatrix}0&a_{12}&0\\a_{21}&0&0\\0&0&a_{33}\end{vmatrix} \\ &+\begin{vmatrix}0&a_{12}&0\\0&0&a_{23}\\a_{31}&0&0\end{vmatrix}+\begin{vmatrix}0&0&a_{13}\\a_{21}&0&0\\0&a_{32}&0\end{vmatrix}+\begin{vmatrix}0&0&a_{13}\\0&a_{22}&0\\a_{31}&0&0\end{vmatrix} \\ =&a_{11}a_{22}a_{33}-a_{11}a_{23}a_{32}-a_{12}a_{21}a_{33}+a_{12}a_{23}a_{31}+a_{13}a_{22}a_{32}-a_{11}a_{22}a_{31} \end{align*}

推广到 n 阶方阵 A,detAdetA 将有 n!n!项,符号取决于排列需要的调整次数,奇数次为负,偶数次为正。行列式求解公式如下:

detA=∑n!terms±a1αa2βa2γ⋯anω(α,β,⋯,ω)∈Perm(1,2,⋯,n)

\text{det}A=\sum_{n!\,terms}\pm a_{1\alpha}a_{2\beta}a_{2\gamma}\cdots a_{n\omega}\\ \;(\alpha,\beta,\cdots,\omega)\in Perm(1,2,\cdots,n)

代数余子式(Cofactor)

代数余子式是从上述公式中提炼出来的。代数余子式的作用就是将n 阶行列式化简为n-1 阶行列式。

上述3×3 的公式可写成:
detA=a11∗(a22∗a33−a23∗a32)+a12∗()+a23∗()detA=a11 * (a_{22}*a_{33} - a_{23}*a_{32}) + a_{12} * () + a_{23} * ()
其中,(a22∗a33−a23∗a32)(a_{22}*a_{33} - a_{23}*a_{32}) 就是 a11a_11 的代数余子式,(a22∗a33−a23∗a32)(a22*a33 - a23*a32)即去掉 a11a11 所在的行与列后的 2 阶行列式,正负号与去掉的 a11a11 的下标 11 有关. 所以:

aija_{ij} 的代数余子式概念 CijC_{ij} 是:去掉 aija_{ij} 所在的行与列,剩余的因子组成的 n−1n-1 阶行列式,且符号:当 i+ji+j 为偶数时取正,i+ji+j 为奇数时取负

第一行的代数余子式的展开式:

detA=a11C11+a12C12+⋯+a1nC1n

detA=a_{11}C_{11}+a_{12}C_{12}+\cdots+a_{1n}C_{1n}

注意:同样可以按列展开,与按行展开结果是一样的

两种主要的求行列式的方法:
1)行列式等于主元的乘积(主元公式),只要先通过消元得到主元,最简单;
2)通过代数余子式的方法,把原行列式展开成更简单的行列式。

第二十课时:行列式应用:克莱姆法则、逆矩阵、体积

求逆矩阵公式

A−1=CTdetA

A^{-1}=\frac{C^T}{\text{det}A}
其中 CC 是由代数余子式组成的矩阵, CTC^T 是原矩阵的伴随矩阵

(即:伴随矩阵11 元素就是原矩阵11 元素的代数余子式,由于转置的缘故,伴随矩阵12 的元素是原矩阵21 元素的代数余子式。)

证明:只需证明 ACT=(detA)IAC^T=(\text{det}A)I 即可。而

⎡⎣⎢⎢a11⋮an1⋯⋱…a1n⋮ann⎤⎦⎥⎥⎡⎣⎢⎢c11⋮cn1⋯⋱…c1n⋮cnn⎤⎦⎥⎥=⎡⎣⎢⎢detA⋮0⋯detA…0⋮detA⎤⎦⎥⎥=(detA)I

\begin{bmatrix}a_{11}&\cdots &a_{1n}\\\vdots&\ddots &\vdots\\a_{n1}&\dots&a_{nn}\end{bmatrix} \begin{bmatrix}c_{11}&\cdots &c_{1n}\\\vdots&\ddots &\vdots\\c_{n1}&\dots&c_{nn}\end{bmatrix}= \begin{bmatrix}\text{det}A&\cdots &0\\\vdots&\text{det}A &\vdots\\0&\dots&\text{det}A\end{bmatrix}=(\text{detA})I
对于对角线上的 detA\text{det}A 的结论是显然的。对于非对角线上的元素为什么是0,解释如下:矩阵某行乘以另一行的代数余子式结果为0,比如A 的第一行乘以最后一行的代数余子式,这相当于求一个特殊矩阵的行列式,特殊矩阵的第一行和最后一行相等(某两行相等的特殊矩阵的行列式必为0)。

克莱姆法则(Cramer’s Rule):(中看不中用)

现在可以利用上面的矩阵求逆考虑求解 Ax=bAx=b:

x=A−1b=1detACTb

x=A^{-1}b=\frac{1}{\text{det}A}C^Tb
把 CTbC^Tb 看成是A的第 jj 列替换为 bb 的矩阵的行列式, xj=detB1detAx_j=\frac{detB_1}{detA}

克莱姆法则的作用主要是提供一种代数表达式,而不是一种算法,不建议使用它来计算。

通过行列式求体积 ???

行列式的绝对值等于一个箱子(平行N 面体)的体积

3×3 的行列式是三维空间箱子(平行 6 面体,由三条边觉得箱子的样子、体积)的体积。

当 A=IA=I 时,命题明显成立,箱子是单位立方体。

当 A=QA=Q 为正交矩阵(非I 时)时,三个列向量是标准正交基。箱子还是单位立方体,它和单位矩阵的立方体的区别是它被旋转了。QTQ=I,detQTQ=detI=detQT∗detQ=(detQ)2=1Q^TQ=I, \text{det}Q^TQ=\text{det}I=\text{det}Q^T * \text{det}Q = (\text{det}Q)^2 = 1,因此 detQ=±1\text{det}Q=\pm 1

当箱子为长方体时,假设是由两个单位立方体组成的,此时体积是原来的 2 倍,对于矩阵A 的第一行是原来的两倍,根据行列式性质3(1),那么行列式也是原来的 2 倍。

对于2 维平面,平行四边形的面积为行列式。三角形的面积就为它的一半。

假设三角形的顶点并不在原点上,它的面积如下,求如下矩阵的行列式时,可以先对它进行消元将前两行变成:(x2−x1,y2−y1,0)(x_2-x_1,y_2-y_1,0),(x3−x2,y3−y2,0)(x_3-x_2,y_3-y_2,0),那么这个行列式就是求第三列的代数余子式,实际上就是求矩阵(x2−x1,y2−y1)(x_2-x_1,y_2-y_1 ),(x3−x2,y3−y2)(x_3-x_2,y_3-y_2)的行列式。这两个向量表示这两条边。

第二十一课时:特征值和特征向量

矩阵的特征值和特征向量会反映出矩阵的重要信息

特征向量和特征值的定义
Ax=λxAx=\lambda x,矩阵A 的作用就像输入向量 xx,结果得到向量 AxAx,我们感兴趣的,变换前后方向一致的向量,对多数向量而言方向是不一致的,但有特定的向量能使 AxAx 平行于 xx,这些就是特征向量。

若存在特征值 λ=0\lambda=\mathbb 0,x≠0x\neq 0,使得 Ax=0Ax=0,说明

  • A 是奇异矩阵,即可以把某个非零向量转化为0 向量
  • detA=0\text{det}A=0
  • 不是满秩

考察 投影矩阵 P

投影矩阵的特征值为 0 或 1。任意平面上(列空间中)向量 xx 就是一个特征向量 Px=xPx=x,特征值 λ=1\lambda=1。 任意垂直于平面的向量xx,Px=0xPx=0x,λ=0\lambda=0。所以投影矩阵的特征向量是平面内的向量和垂直于平面的向量

考查 置换矩阵 A

置换矩阵 A 交换向量x元素的位置,那么交换后的向量 Ax 怎么才是和初始向量x同一方向呢?设向量 x=(x1,x2)x=(x_1,x_2):

  • 当 x1=x2x_1=x_2 时就是一个特征向量 (1,1)(1,1),Ax=xAx=x,λ=1\lambda=1。
  • 当 x1=−x2x_1=-x_2 时,Ax=−xAx=-x,特征向量 (1,−1)(1,-1),λ=−1\lambda=-1。

注意到两个特征向量的点积是0,两个特征向量垂直

矩阵的迹(trace)

对于方阵n×n 矩阵有n 个特征值,特征值的和等于对角线元素之和,这个和数叫迹。例如上面置换矩阵的迹为0。

特征方程:det(A−λI)=0\text{det}(A-\lambda I)=0

由特征值方程解出 λ\lambda(λ\lambda的值有可能有重复的值),然后(A−λI)(A-\lambda I)已知,那么就是求奇异矩阵的零空间了,消元就可得到特征向量。

如果已知矩阵A的特征值,那么矩阵 (A+3I)(A+3I) 的特征值和特征向量是多少?
结论:特征向量不变,特征值加3
理由:I 的特征值只有 1 且任意 n 个线性无关的列向量都是 I 的特征向量。已知 Ax=λxAx=\lambda x,那么 (A+3I)x=Ax+3(Ix)=λx+3(1⋅x)=(λ+3)x(A+3I)x=Ax+3(Ix)=\lambda x+3(1\cdot x)=(\lambda +3)x。然而,一般情况下(A+B)的特征向量和特征值一般与A 不同,除非B 是单位矩阵的倍数

正交矩阵Q

正交矩阵是旋转矩阵,因为它相对于单位阵旋转了,形状和大小不变。例如 Q=[01−10]Q=\begin{bmatrix}0&-1\\1&0\end{bmatrix},根据矩阵的迹有 λ1+λ2=0\lambda_1+\lambda_2=0,根据特征值有:λ1λ2=0\lambda_1 \lambda_2=0。得到两个复数特征值:λ1=i,λ2=−i\lambda_1=i,\lambda_2=-i,且它们互为共轭。也可以这样想:哪些向量旋转90°后还和自己平行?

如果矩阵是对称的或者接近对称的,那么特征值就是实数
如果矩阵越不对称(反对称矩阵QT=-Q),那么特征值越可能为纯虚数

三角矩阵

对角线上的元素就是特征值
例:对于矩阵 A=[3013]A=\begin{bmatrix}3&1\\0&3\end{bmatrix},它有两个相等的特征值 λ1=λ2=3\lambda_1=\lambda_2=3,故 det(A−3I)x=[0010]\text{det}(A-3I)x=\begin{bmatrix}0&1\\0&0\end{bmatrix},它的零空间的基为: x=[10]x=\begin{bmatrix}1\\0\end{bmatrix}。不存在与 x1x_1 不共线的 x2x_2,即 A 有重特征值,只有一个方向上的特征向量。

实对称阵属于不同特征值的的特征向量是正交的

设 λ1,λ2\lambda_1,\lambda_2 为 A 的两个不同特征值,x1,x2x_1,x_2 分别为其对应的特征向量,有:

Ax1=λ1x1Ax2=λ2x2

Ax_1=\lambda_1x_1\\Ax_2=\lambda_2x_2
分别取转置,并分别右乘 x2x_2 和 x1x_1 得:

xT1ATx2=λ1xT1x2xT2ATx1=λ2xT2x1

x_1^TA^Tx_2=\lambda_1x_1^Tx_2\\ x_2^TA^Tx_1=\lambda_2x_2^Tx_1
因为 xT1ATx2x_1^TA^Tx_2 是一个常数,故它等于它的转置,并且根据 A 是实对称矩阵有 A=ATA=A^T,所以

xT1ATx2=(xT1ATx2)T=xT2Ax1=xT2ATx1

x_1^TA^Tx_2=(x_1^TA^Tx_2)^T=x_2^TAx_1=x_2^TA^Tx_1
因此 λ1xT1x2=λ2xT2x1\lambda_1x_1^Tx_2=\lambda_2x_2^Tx_1,又 λ1≠λ2\lambda_1\neq \lambda_2,故 x1⊥x2x_1\perp x_2. 得证。

第二十二课时:对角化和矩阵乘幂

对角化 S−1AS=ΛS^{-1}AS = \Lambda

假设 A 有 n 个线性无关的特征向量,将它们按列组成矩阵S,称为特征向量矩阵。那么 S−1ASS^{-1}AS 为对角矩阵 Λ\Lambda,Λ\Lambda 为特征值矩阵。理由如下:

AS==A[x1x2⋯xn]=[λ1x1λ2x2⋯λnxn][x1x2⋯xn]⎡⎣⎢⎢λ1⋮0⋯⋱⋯0⋮λn⎤⎦⎥⎥=SΛ

\begin{align*} AS=&A\begin{bmatrix}x_1&x_2&\cdots &x_n\end{bmatrix}=\begin{bmatrix}\lambda_1x_1&\lambda_2x_2&\cdots &\lambda_nx_n\end{bmatrix}\\ =&\begin{bmatrix}x_1&x_2&\cdots &x_n\end{bmatrix}\begin{bmatrix}\lambda_1&\cdots&0\\\vdots&\ddots&\vdots\\0&\cdots&\lambda_n\\\end{bmatrix}=S\Lambda \end{align*}
n 个特征向量线性无关,S 就可逆,故 S−1AS=ΛS^{-1}AS=\Lambda。因此,对于大部分矩阵,存在n 个线性无关向量可以对角化,这就是对角化方法

称 A=SΛS−1A = S\Lambda S^{-1} 为矩阵的特征分解。(这是第三种矩阵分解,前两种分别为消元法中的A=LU 矩阵分解,和格拉姆-施密特正交化中的A=QR 矩阵分解)

A 的幂

考查 A2A^2 的特征值和特征向量。假设 Ax=λxAx=\lambda x,那么 A2x=λAx=λ2xA^2x=\lambda Ax=\lambda^2x,结论是 A2A^2 的特征值是 λ2\lambda^2,特征向量不变。这个结论同样可以通过特征分解得到:A2=SΛS−1SΛS−1=SΛ2S−1A^2=S\Lambda S^{-1}S\Lambda S^{-1}=S\Lambda^2 S^{-1},同样说明特征值是原特征值的平方,特征向量不变。推广可得:Ak=SΛkS−1A^k=S\Lambda^k S^{-1}。

因此,特征值和特征向量提供了理解矩阵幂的一个好方法(A=LU则不能进行这样的操作)。特征值是计算矩阵幂的一种方法。

当 |λi|≤1,K→∞|\lambda_i|\leq 1,K\rightarrow \infty,矩阵的幂趋向于0,这样的矩阵称为稳定的矩阵。

矩阵可对角化的充分(非必要)条件:没有重特征值

矩阵A 有n 个线性无关的特征向量,矩阵A可以对角化,以上结论在所有的特征值λ不同(没有重复的特征值)时成立。

假设存在重复特征值,则可能但不一定存在n 个线性无关特征向量

  • 单位矩阵的特征值都是1,但是特征向量可以线性无关;
  • 如果矩阵A 本来就是对角矩阵(对角矩阵的特征值就是对角矩阵对角线上的元素),那么对角化矩阵 Λ\Lambda 与矩阵 A 相同,此时A是可对角化的;
  • 如果矩阵A 是三角矩阵。A=[2012]A=\begin{bmatrix}2&1\\0&2\end{bmatrix},特征值是两个相同的2(计算特征值重复的次数,用代数重度,此重数,就是它作为多项式根的次数,即(2−λ)2=0(2-λ)^2=0 的根),求特征向量,零空间仅仅是一维的 x=(10)Tx=(1 \;0)^T,因为不存在两个线性无关的特征向量,因此矩阵A 是不可对角化的。

差分方程

如下问题:已知序列 uku_k 满足 uk+1=Auku_{k+1}=Au_k,初始向量为 u0u_0,求 uku_k 的表达式。

这里的 uku_k 所满足的式子称为差分方程,也叫递推关系。这里只含一阶差分,等式右侧由向量和矩阵所组成,称为一阶方程组。方程组的解为 uk=Aku0u_k=A^ku_0。

可以把 u0u_0 看成A的 n 个特征向量的线性组合 u0=Scu_0=Sc,这 n 个特征向量是线性无关的,它们能线性组合出任何向量。u0=c1x1+c2x2+⋯+cnxnu_0=c_1x_1+c_2x_2+\cdots+c_nx_n,Au0=c1λ1x1+c2λ2x2+⋯+cnλnxn=SΛcAu_0=c_1\lambda_1x_1+c_2\lambda_2x_2+\cdots+c_n\lambda_nx_n=S\Lambda c,同理可得 Aku0=c1λk1x1+c2λk2x2+⋯+cnλknxn=SΛkcA^ku_0=c_1\lambda_1^kx_1+c_2\lambda_2^kx_2+\cdots+c_n\lambda_n^kx_n=S\Lambda^kc.(教授写的是ΛkSc\Lambda^k Sc,我觉得教授应该写错了…)

这个结论非常有用,在接下来的几节课中会反复用到!

差分方程举例:求解斐波拉契数列通项公式

已知 F1=0,F1=1,Fk+2=Fk+1+FkF_1=0,F_1=1,F_{k+2}=F_{k+1}+F_k,求 F100F_{100}.

这只是代数方程,不是方程组,而且是二阶差分方程,就像含有二阶导数的微分方程。希望能够化简为一阶导数,也就是一阶差分,uk+1=Auku_{k+1}=Au_k 的形式。

令 uk=[Fk+1Fk],u0=[10]u_k=\begin{bmatrix}F_{k+1}\\F_k\end{bmatrix},u_0=\begin{bmatrix}1\\0\end{bmatrix},则 uk+1=[1110]uku_{k+1}=\begin{bmatrix}1&1\\1&0\end{bmatrix}u_k。令 A=[1110]A=\begin{bmatrix}1&1\\1&0\end{bmatrix},有两个特征值 λ1=2+5√2,λ2=2−5√2\lambda_1=\frac{2+\sqrt 5}{2},\lambda_2=\frac{2-\sqrt 5}{2},对应的特征向量为 x1=[λ11],x2=[λ21]x_1=\begin{bmatrix}\lambda_1\\1\end{bmatrix},x_2=\begin{bmatrix}\lambda_2\\1\end{bmatrix}。

即 u0=15√x1−15√x2=[λ11λ21]⎡⎣15√−15√⎤⎦=Scu_0=\frac{1}{\sqrt 5}x_1-\frac{1}{\sqrt 5}x_2=\begin{bmatrix}\lambda_1&\lambda_2\\1&1\end{bmatrix}\begin{bmatrix}\frac{1}{\sqrt 5}\\-\frac{1}{\sqrt 5}\end{bmatrix}=Sc,那么

uk==S[λk100λk2]c=15√λk1x1−15√λk2x2⎡⎣⎢⎢⎢15√(λk+11−λk+12)15√(λk1−λk2)⎤⎦⎥⎥⎥=[Fk+1Fk]

\begin{align*} u_{k}=&S\begin{bmatrix}\lambda_1^k&0\\0&\lambda_2^k\end{bmatrix}c=\frac{1}{\sqrt 5}\lambda_1^{k}x_1-\frac{1}{\sqrt 5}\lambda_2^{k}x_2 \\ =&\begin{bmatrix}\frac{1}{\sqrt 5}(\lambda_1^{k+1}-\lambda_2^{k+1})\\\frac{1}{\sqrt 5}(\lambda_1^k-\lambda_2^k)\end{bmatrix}=\begin{bmatrix}F_{k+1}\\F_k\end{bmatrix} \end{align*}
即 Fk=15√(λk1−λk2)=15√[(2+5√2)k−(2−5√2)k]F_k=\frac{1}{\sqrt 5}(\lambda_1^k-\lambda_2^k)=\frac{1}{\sqrt 5}\bigg[(\frac{2+\sqrt 5}{2})^k-(\frac{2-\sqrt 5}{2})^k\bigg].

第二十三课时:微分方程和exp(At)

一阶微分方程,一阶导数,常系数线性方程,可以转化为线性代数的问题

关键思路是:常系数线性方程的解是指数形式的,如果在找一个指数形式的解,找出指数是多少,系数是多少,这是线性代数的拿手活。会发现这和矩阵的乘幂完全平行。

微分方程

求解微分方程:

du1dt=−u1+2u2du2dt=u1−2u2

\frac{du_1}{dt}=-u_1+2u_2\\\frac{du_2}{dt}=u_1-2u_2
其中 u(0)=[10]u(0)=\begin{bmatrix}1\\0\end{bmatrix}。系数矩阵为:A=[−112−2]A=\begin{bmatrix}-1&2\\1&-2\end{bmatrix},微分方程可转化为:

dudt=Au

\frac{du}{dt}=Au
在时间0 时,u1(0)=1u_1(0)=1,但随着时间推移,将有 du2/dt>0du_2/dt > 0,因为 u1u_1 为正,东西将从 u1u_1 流出流向 u2u_2,随着时间继续追踪它的变化,通过观察矩阵A 的特征值和特征向量找到规律。

求特征值和特征向量,因为 A 是奇异矩阵,一个特征值为0,另一个特征值可由迹得到,即 λ1=0,λ2=−3\lambda_1=0, \lambda_2=-3。特征向量为 x1=[21],x2=[1−1]x_1=\begin{bmatrix}2\\1\end{bmatrix},x_2=\begin{bmatrix}1\\-1\end{bmatrix}.

由此预测答案的两部分,为一部分为 e−3te^{-3t},它将随时间增加消失,另一部分为稳态 e−0t=1e^{-0t}=1 为常数。答案如下:

u(t)=c1eλ1tx1+c2eλ2tx2

u(t)=c_1e^{\lambda_1t}x_1+c_2e^{\lambda_2t}x_2
检查答案是否正确,取 u1u_1 部分进行验证:

du1(t)dt=λ1eλ1tx1=Au1=Aeλ1tx1

\frac{du_1(t)}{dt}=\lambda_1e^{\lambda_1t}x_1=Au_1=Ae^{\lambda_1t}x_1
显然等式成立。

比较差分方程的公式:uk+1=Auku_{k+1}=Au_k,uk=Aku0=c1λk1x1+c2λk2x2u_k=A^ku_0=c_1\lambda_1^kx_1+c_2\lambda_2^kx_2

带入特征值和特征向量有:

u(t)=c1⋅1⋅[21]+c2e−3t[1−1]

u(t)=c_1\cdot1\cdot\begin{bmatrix}2\\1\end{bmatrix}+c_2e^{-3t}\begin{bmatrix}1\\-1\end{bmatrix}
根据初值 u(0)=[10]u(0)=\begin{bmatrix}1\\0\end{bmatrix},有:

u(0)=c1[21]+c2[1−1]=[2c1+c2c1−c2]=[10]

u(0)=c_1\begin{bmatrix}2\\1\end{bmatrix}+c_2\begin{bmatrix}1\\-1\end{bmatrix}=\begin{bmatrix}2c_1+c_2\\c_1-c_2\end{bmatrix}=\begin{bmatrix}1\\0\end{bmatrix}
解得:c1=13,c2=13c_1=\frac{1}{3},c_2=\frac{1}{3}.

以上把 c1,c2c1,c2 代入可得最终答案,可以看到,从时间为0起 u(0)=(10)u(0)=(1\;0),随着时间的流动,在极限状态(无限时间t)下,第二部分0,稳态是 [2313]T\begin{bmatrix}\frac{2}{3}&\frac{1}{3}\end{bmatrix}^T。

有时候并不会抵达稳态,有时候会,分以下几种状态:

  • 当系数矩阵 A 的特征值为负数时,不管初值是多少,稳态总是趋于0,u(t)→0u(t)\rightarrow 0(不是说通解);
  • 当 λ\lambda 为复数时,假如 λ=6i−3λ=6i-3,λ\lambda 的实数部分是负的,那么只有实部起作用,最终结果还是导致稳态趋于0;
  • λ\lambda 为正时,解将无法收敛。

总结起来二阶系统稳定性:一个2×2 的矩阵稳定性,它的两个特征值实部是否都是小于0,如果 λ1+λ2<0\lambda_1+\lambda_2,且 λ1λ2>0\lambda_1\lambda_2>0,那么此二阶系统是稳定的。

思考原微分方程和方程的解,原方程有两个相互耦合的未知函数,矩阵A 表明 u1,u2u_1,u_2 相互耦合,特征值和特征向量的作用就是解耦,又称对角化。实际上能把这个解表示成 SS 和 Λ\Lambda 的形式。

回到原方程组 du/dt=Audu/dt=Au,矩阵 A 表明 u1,u2u_1,u_2 如何耦合,令

u=Sv

u=Sv
SS 是特征向量矩阵,以特征向量为基,将 uu 表示成 SvSv,将它代入原方程:Sdvdt=AsvS\frac{dv}{dt}=Asv,两边乘以 S−1S^{-1},有:

dvdt=S−1ASv=Λv

\frac{dv}{dt}=S^{-1}ASv=\Lambda v
关键在于:以特征向量组 SS 为基,将 uu 表示成 SvSv,得到关于 vv 的对角化方程组,新方程组不存在耦合,dv1/dt=λ1v1⋯dv_1/dt=\lambda_1v_1\cdots 这是各未知数之间没有联系的方程组,最终希望的结果:

v(t)=eΛtv(0)u(t)=SeΛtS−1u(0)=eAtu(0)

v(t)=e^{\Lambda t}v(0)\\u(t)=Se^{\Lambda t}S^{-1}u(0)=e^{At}u(0)

其中有:

eAt=SeΛtS−1

e^{At}=Se^{\Lambda t}S^{-1}
矩阵指数:e 的指数是一个矩阵,eAte^{At} 正是原方程的解。为什么这个以矩阵为指数的公式是正确的?含有矩阵的指数是什么意思?

证明方法是把指数展开成幂级数的形式(泰勒展开:ex=∑∞0xnn!,11−x=∑∞0xne^x=\sum_0^\infty\frac{x^n}{n!},\frac{1}{1-x}=\sum_0^\infty x^n):

eAt=(I−At)−1=I+At+(At)22!+(At)33!+⋯+(At)nn!+⋯I+At+(At)2+(At)3+⋯+(At)n+⋯

\begin{align*} e^{At}=&I+At+\frac{(At)^2}{2!}+\frac{(At)^3}{3!}+\cdots+\frac{(At)^n}{n!}+\cdots\\ (I-At)^{-1}=&I+At+(At)^2+(At)^3+\cdots+(At)^n+\cdots \end{align*}
比较这两个级数,第二个级数并不一定会收敛,除非A 的特征值小于1,|λ(At)|<1|\lambda(At)|,级数收敛,求逆公式成立,但第一个级数分母越来越大,必然收敛。

把对角阵代入矩阵指数的展开式,它的每一项都是对角阵,相当于n 个普通的泰勒级数,前提是A 能够对角化:

eAt===I+At+(At)22!+(At)33!+⋯+(At)nn!+⋯SS−1+SΛS−1t+S2Λ2S−1t22!+⋯SeΛtS−1

\begin{align*} e^{At}=&I+At+\frac{(At)^2}{2!}+\frac{(At)^3}{3!}+\cdots+\frac{(At)^n}{n!}+\cdots\\ =&SS^{-1}+S\Lambda S^{-1}t+\frac{S^2\Lambda^2S^{-1}t^2}{2!}+\cdots\\ =&Se^{\Lambda t}S^{-1} \end{align*}

怎样的特征值使得微分方程存在稳定的解?当特征值的绝对值小于1 时,矩阵的幂收敛于0。如何把一个二阶微分方程转化为一阶方程组呢?可借鉴斐波拉契数列增加一个y’=y’,如下:

y′′+by′+ky′=0u=[y′y],u′=[y′′y′]=[−b1−k0][y′y]

y''+by'+ky'=0\\u=\begin{bmatrix}y'\\y\end{bmatrix},u'=\begin{bmatrix}y''\\y'\end{bmatrix}=\begin{bmatrix}-b&-k\\1&0\end{bmatrix}\begin{bmatrix}y'\\y\end{bmatrix}

同理,如果是5 阶微分方程,那么可以得到5×5 的系数矩阵。这个矩阵使得5 阶微分方程转化为一阶向量方程

第二十四课时:马尔科夫矩阵和傅里叶级数

马尔科夫矩阵

满足两条性质:

  • 所有元素大于等于0;
  • 所有矩阵的列相加等于1。

马尔科夫矩阵的幂都是马尔科夫矩阵。

马尔科夫矩阵的特征值:

  • λ=1\lambda=1 是它的一个特征值,对应特征向量所有元素是非负值;
  • 所有其他的特征值 |λi|<1|\lambda_i|

那么如下幂的稳态即为 c1x1c_1x_1,稳态是由特征值为1 的特征向量决定的(因为从 uku_k 展开公式看稳态就是由特征向量决定的)。

uk=Aku0=c1λk1x1+c2λkx2+⋯

u_k=A^ku_0=c_1\lambda_1^kx_1+c_2\lambda^kx_2+\cdots

命题:如果矩阵A的每列相加都为0,那么它是奇异矩阵。

马尔科夫矩阵有特征值1的证明
只需证明 A−IA-I 是奇异即可(说明1是它的特征值)。A−IA-I 每列的元素相加为0,说明行向量的线性组合可以得到0向量,即 A−IA-I 是奇异矩阵。得证。

AA 和 ATA^T 的特征值相同

可以由行列式相同来证明。det(A−λI)=0⇒det(AT−λI)=0\text{det}(A-\lambda I)=0\Rightarrow \text{det}(A^T-\lambda I)=0

研究问题:

uk+1=Auk,AisMarkov[u1u2]t=k+1=[0.90.10.20.8][u1u2]k[u1u2]t=0=[01000]

u_{k+1}=Au_k,A\;is\;Markov\\ \begin{bmatrix}u_1\\u_2\end{bmatrix}_{t=k+1}=\begin{bmatrix}0.9&0.2\\0.1&0.8\end{bmatrix}\begin{bmatrix}u_1\\u_2\end{bmatrix}_k\\ \begin{bmatrix}u_1\\u_2\end{bmatrix}_{t=0}=\begin{bmatrix}0\\1000\end{bmatrix}
考虑稳态时的情况。求 A 的特征值和特征向量得到:

λ1=1,λ2=0.7,x1=[21],x2=[−11]

\lambda_1=1,\lambda_2=0.7,x_1=\begin{bmatrix}2\\1\end{bmatrix},x_2=\begin{bmatrix}-1\\1\end{bmatrix}
那么:

uk=c11k[21]+c20.7k[−11]u0=[01000]=c1[21]+c2[−11]

u_k=c_11^k\begin{bmatrix}2\\1\end{bmatrix}+c_20.7^k\begin{bmatrix}-1\\1\end{bmatrix}\\ u_0=\begin{bmatrix}0\\1000\end{bmatrix}=c_1\begin{bmatrix}2\\1\end{bmatrix}+c_2\begin{bmatrix}-1\\1\end{bmatrix}
求解得到:c1=1000/3,c2=2000/3c_1=1000/3,c_2=2000/3.

再来看一下随机过程中怎么解决这个问题:

(注:随机过程中习惯使用行向量,马尔科夫矩阵每行元素之和为1)

首先,所有状态相通,故该链为不可约链。又 p11>0p_{11}>0,故周期为1. 因此该马尔科夫链为不可约遍历链,于是它的极限分布就是平稳分布。它的平稳分布就是以下方程的解:

⎧⎩⎨(π1π2)=(π1π2)[0.90.20.10.8]π1+π2=1

\begin{cases} \begin{pmatrix}\pi_1&\pi_2\end{pmatrix}=\begin{pmatrix}\pi_1&\pi_2\end{pmatrix}\begin{bmatrix}0.9&0.1\\0.2&0.8\end{bmatrix} \\ \pi_1+\pi_2=1 \end{cases}
解此方程,得该链的平稳分布 π=(1323)\mathbb \pi=(\frac{1}{3}\;\frac{2}{3}).

与上面的结论相同。

傅里叶级数:投影问题引出傅里叶级数

带有n 个标准正交基的投影问题 Qn×nQ_{n×n},基向量 q1,q2,⋯,qnq_1,q_2,\cdots,q_n,那么空间中任意向量 vv 都可由这个标准正交基类线性组合得到:

v=x1q1+x2q2+⋯+xnqn

v=x_1q_1+x_2q_2+\cdots+x_nq_n
现在要知道 x1x_1,或者 x2x_2 是多少,可以用展开式来表达,将向量展开到标准正交基上去,这是在做投影,由于这组基是标准正交基,所以 x1,x2,⋯x_1,x_2,\cdots 的求解有计算公式。求 x1x_1 的时候将 q1q_1 与式中任一一项做内积就能得到 x1x_1 了。

qT1v=x1qT1q1+0+⋯+0=x1

q_1^Tv=x_1q_1^Tq_1+0+\cdots+0=x_1
故:

[q1⋯qn]⎡⎣⎢⎢x1⋮xn⎤⎦⎥⎥=v

\begin{bmatrix}q_1&\cdots&q_n\end{bmatrix}\begin{bmatrix}x_1\\\vdots\\x_n\end{bmatrix}=v
也就是 Qx=v,x=Q−1v=QTvQx=v,x=Q^{-1}v=Q^Tv.

傅里叶级数(Fourier series)

已知

f(x)=a0+a1cosx+b1sinx+a2cos2x+b2sin2x+⋯

f(x)=a_0+a_1\text{cosx}+b_1\text{sin}x+a_2\text{cos}2x+b_2\text{sin}2x+\cdots
无穷维,但关键性质还是正交,正交性对 sin 和 cos 仍成立,这使得傅里叶级数有意义,这就是傅里叶级数。

比较上面的向量空间的等式,是函数空间 f(x) 替换向量空间v,正交函数替换正交向量 x1,x2,⋯x_1,x_2,\cdots 这里函数正交的意义在于:两个函数的内积等于0。(用积分代替求和)

fTg=∫2π0f(x)g(x)dx

f^Tg=\int_0^{2\pi}f(x)g(x)dx

现在有了函数空间的无穷正交基,现在需要做的就是把函数展开到基上,需要求出系数a 是多少。同向量空间的做法,等式左右两边同时乘以正交基分量,就可得到傅里叶级数系数公式。

第二十四课时:复习二

主要内容:正交性;线和子空间的投影;正交化;行列式;特征值和特征向量等。

  1. (投影矩阵、特征根与特征向量、差分方程)已知向量 a=(212)Ta = (2\;1\;2)^T
    (1) 求投影矩阵P,使得任意向量的投影都在a上;
    (2) 求P的特征值和对应的特征向量;
    (3) 求解差分方程 uk+1=Puk,u0=(990)Tu_{k+1}=Pu_k,u_0=(9\;9\;0)^T.
    答:
    (1) P=aaTaTa=19⎡⎣⎢212⎤⎦⎥[212]=19⎡⎣⎢424212424⎤⎦⎥P=\frac{aa^T}{a^Ta}=\frac{1}{9}\begin{bmatrix}2\\1\\2\end{bmatrix}\begin{bmatrix}2&1&2\end{bmatrix}=\frac{1}{9}\begin{bmatrix}4&2&4\\2&1&2\\4&2&4\end{bmatrix}
    (2)由于 P 是奇异矩阵,故它有特征值 0. 又 P 的秩为 1,它的零空间是2维的,即有两个线性无关的向量使得 Ax=0xAx=0x,因此 特征值是两重的。根据矩阵的迹,它的第三个特征值是1。
    特征值0对应的特征向量为:x1=(−1210)T,x2=(−101)Tx_1=(-\frac{1}{2}\;1\;0)^T,x_2=(-1\;0\;1)^T. 特征值1对应的特征向量为 x3=ax_3=a,因为它满足 Pa=aPa=a.
    (3)由差分方程公式:uk=Pku0=c10kx1+c20kx2+c31kx3=c3⎡⎣⎢212⎤⎦⎥u_k=P^ku_0=c_10^kx_1+c_20^kx_2+c_31^kx_3=c_3\begin{bmatrix}2\\1\\2\end{bmatrix}
    又 u1=Pu0=aaTu0aTa=a279=3a=⎡⎣⎢636⎤⎦⎥u_1=Pu_0=a\frac{a^Tu_0}{a^Ta}=a\frac{27}{9}=3a=\begin{bmatrix}6\\3\\6\end{bmatrix},从而 c3=1c_3=1. uk=⎡⎣⎢636⎤⎦⎥u_k=\begin{bmatrix}6\\3\\6\end{bmatrix}

  2. (最小二乘)将给定点拟合到(一条过原点的)直线 y=C+Dty=C+Dt。求最优的C,D。三个点的坐标分别为:(1,4),(2,5),(3,8)(1,4),(2,5),(3,8).
    答:
    根据已知条件有:

    ⎡⎣⎢111123⎤⎦⎥[CD]=⎡⎣⎢458⎤⎦⎥

    \begin{bmatrix}1&1\\1&2\\1&3\end{bmatrix}\begin{bmatrix}C\\D\end{bmatrix}=\begin{bmatrix}4\\5\\8\end{bmatrix}
    即Ax=bAx=b,这个方程无解,将其变换为:

    ATAx^=ATb

    A^TA\hat x=A^Tb
    故 x^=(ATA)−1ATb\hat x =(A^TA)^{-1}A^Tb
    Tips:相当于把向量 bb 投影到矩阵 AA 的列空间。Ax^=Pb=A(ATA)−1ATbA\hat x=Pb=A(A^TA)^{-1}A^Tb. 注意因为 A 不是方阵,不可逆,因此 A−1A^{-1} 不存在,不能将 (ATA)−1(A^TA)^{-1} 里的括号去掉变成 A−1(AT)−1A^{-1}(A^T)^{-1}。

  3. (正交化)有两个向量 a1=(123)a_1=(1\;2\;3), a2=(111)a_2=(1\;1\;1),找到这两个向量所在平面的一组正交基
    答:
    根据格拉姆-施密特正交化方法,A=a1A=a_1,那么

    B=a2−a1aT1a2aT1a1=⎡⎣⎢111⎤⎦⎥−614c

    B=a_2-a_1\frac{a_1^Ta_2}{a_1^Ta_1}=\begin{bmatrix}1\\1\\1\end{bmatrix}-\frac{6}{14}c

  4. (特征值) 4x4 矩阵A,有四个特征值 λ1,λ2,λ3,λ4\lambda_1,\lambda_2,\lambda_3,\lambda_4
    (1) 什么样的特征值可满足矩阵可逆
    (2) A 逆的行列式为多少
    (3) A+I 的迹是多少
    答:
    (1) 特征值都不等于0
    (2) A 的逆的特征值相乘就是它的行列式,A的逆的特征值等于A 的特征值的倒数。detA−1=1/detAdetA^{-1}=1/detA(由行列式乘法公式可得)
    (3) 把A+I 的特征值相加就等于它的迹了。A+I 的特征值等于A 的特征值加1

  5. 已知 A4A_4 如下,求 Dn=det(An)D_n=det(A_n)。使用代数余子式。DnD_n 到底是收敛还是越来越大还是周期性的改变。

    A4=⎡⎣⎢⎢⎢1100111001110011⎤⎦⎥⎥⎥

    A_4=\begin{bmatrix}1&1&0&0\\1&1&1&0\\0&1&1&1\\0&0&1&1\end{bmatrix}
    答:
    找出递推式,D1=1,D2=0D_1=1,D_2=0,沿第一行展开可得到(Dn−2D_{n-2} 由 C12C_{12} 从第一行展开得到):

    Dn=Dn−1−Dn−2

    D_n=D_{n-1}-D_{n-2}
    把递推式转化为向量方程:

    [DnDn−1]=[11−10][Dn−1Dn−2]

    \begin{bmatrix}D_n\\D_{n-1}\end{bmatrix}=\begin{bmatrix}1&-1\\1&0\end{bmatrix}\begin{bmatrix}D_{n-1}\\D_{n-2}\end{bmatrix}
    求特征值:λ1=1+3√i2=eiπ/3,λ2=1−3√i2=e−iπ/3\lambda_1=\frac{1+\sqrt 3i}{2}=e^{i\pi/3},\lambda_2=\frac{1-\sqrt 3i}{2}=e^{-i\pi/3}(共轭复数)。
    λ\lambda 的六次方等于1,DnD_n 是周期性的变化。矩阵的6 次方的特征值为 1 (二重特征值).

  6. 如下 AnA_n 有如下规律:

    A4=⎡⎣⎢⎢⎢0100102002030030⎤⎦⎥⎥⎥,A3=⎡⎣⎢010102020⎤⎦⎥

    A_4=\begin{bmatrix}0&1&0&0\\1&0&2&0\\0&2&0&3\\0&0&3&0\end{bmatrix},A_3=\begin{bmatrix}0&1&0\\1&0&2\\0&2&0\end{bmatrix}
    (1) A4A_4 投影到 A3A_3 的列空间的投影矩阵;
    (2) 求 A3A_3 的特征值和特征向量;
    (3) 求 A4A_4 的投影矩阵(即投影到 A4A_4 列空间的投影矩阵)
    答:
    (1) 很容易想到的方法:P=A3(AT3A3)−1AT3P=A_3(A_3^TA_3)^{-1}A_3^T,可得投影矩阵。
    (2) λ1=0,λ2=−5√,λ3=5√\lambda_1=0,\lambda_2=-\sqrt 5,\lambda_3=\sqrt 5
    (3) 因为 detA4=9\text{det} A_4=9,行列式不等于0,所以 A4A_4 可逆,列空间为整个空间,所以投影矩阵为I.

线性代数-Gilbert Strang(第二部分)相关推荐

  1. [笔记][总结] MIT线性代数 Gilbert Strang 矩阵分解

    作者水平有限,欢迎大家提出文中错误 矩阵分解 PAn∗n=LUPA_{n*n}=LUPAn∗n​=LU 高斯消元法 消元矩阵 EliminationmatricesElimination\ matri ...

  2. 线性代数-Gilbert Strang(第三部分)

    第二十六课时:对称矩阵和正定性 本节研究对称矩阵的特征值和特征向量. 对称矩阵的性质: 实对称矩阵的特征值是实数 在对称矩阵的特征向量中,能挑出一组是垂直正交的 如果特征值互不相同,那么每个特征值的特 ...

  3. 线性代数-Gilbert Strang(第一部分)

    第一课时:方程组的几何解释 线性方程组的两种理解方式:行图像(row picture).列图像(column picture) 行图像:试图将每一个完整方程所表示的图像表示出来: 列图像:关注矩阵的列 ...

  4. [笔记][总结] MIT线性代数 Gilbert Strang 对称矩阵

    作者水平有限,欢迎大家提出文中错误 正定性与对称矩阵 对称矩阵 对称矩阵的对角化 正定性 正定矩阵判据 正定矩阵的性质 正定性与最小二乘法 二次型 对称矩阵的LU分解与二次型的配方 连续多元函数在某点 ...

  5. [笔记][总结] MIT线性代数 Gilbert Strang 矩阵的应用

    作者水平有限,欢迎大家提出文中错误 矩阵的应用 电路理论 图的矩阵表示--邻接矩阵 回路 零空间 左零空间 Ohm′slawOhm's\ lawOhm′s law 再议回路 外部电源 电路理论的三个核 ...

  6. [笔记][总结] MIT线性代数 Gilbert Strang 正交矩阵

    作者水平有限,欢迎大家提出文中错误 正交性与正交矩阵 正交性 标准正交矩阵 投影矩阵 一维情况 最小二乘法 回到投影矩阵 投影矩阵的若干性质 再述最小二乘法 Gram-Schmidt正交化 A=QRA ...

  7. [笔记][总结] MIT线性代数 Gilbert Strang 矩阵运算

    作者水平有限,欢迎大家提出文中错误 矩阵运算 转置 转置的性质 求逆 使用高斯消元法求解逆矩阵 矩阵逆的代数表达式 Cramer′sruleCramer's\ ruleCramer′s rule 方阵 ...

  8. [笔记][总结] MIT线性代数 Gilbert Strang 向量空间

    作者水平有限,欢迎大家提出文中错误 向量空间与四个基本子空间 向量空间 线性子空间 四个基本子空间 C(A):columnspaceofAC(A):column\ space\ of \ AC(A): ...

  9. [笔记][总结] MIT线性代数 Gilbert Strang 线性方程组

    作者水平有限,欢迎大家提出文中错误 矩阵方程.线性方程组 Ax=bAx=bAx=b的行图像 Ax=bAx=bAx=b的列图像 齐次方程Ax=0Ax=0Ax=0 非齐次方程Ax=bAx=bAx=b Ax ...

最新文章

  1. Java程序员技术培训需要培训哪些?
  2. Windows 不能在 本地计算机 启动 SQL Server 。错误代码126.
  3. python密码学编程pdf-Python密码学编程 PDF 下载
  4. Qt实现Matlab的等差函数linSpace
  5. 6行Python实现验证码识别,太稳了!
  6. TF之NN:利用DNN算法(SGD+softmax+cross_entropy)对mnist手写数字图片识别训练集(TF自带函数下载)实现87.4%识别
  7. php制作软件工具,开源10款热门教学相关的开源软件(教学平台和制作工具)
  8. 【Python基础】Python 流程控制专题总结
  9. BUAA-OO 第二单元作业“电梯调度”总结与思考
  10. Check Point CEO:“我们正在积极寻找收购目标”
  11. C#和Java中“==”和“equals”区别
  12. leetcode 442. 数组中重复的数据 java
  13. 【Redis系列】Redis 入门指南
  14. 电子电路学习笔记(16)——晶振电路的电容
  15. 【网络安全】学习笔记 --02 安全通信协议
  16. 计算机del键作用,Delete是什么键,Delete键和Del键的区别是什么?
  17. 看什么书可以提高情商?提高情商的书籍排行榜
  18. python彩蛋_盘点Python的5大彩蛋
  19. 现实总比相像中好些——西单图书大厦活动侧记
  20. CentOS7系统管理-庄博-专题视频课程

热门文章

  1. Multisim基础 功率表(瓦特计)与功率探针的使用
  2. 如何让一个沙雕学会窥觑别人存在你电脑浏览器的密码
  3. 毕业设计 大数据房价预测分析与可视
  4. 直流稳压电源仿真_正负12伏+正负5伏+3.3伏输出,可直接制作
  5. Python3学习实战——用类实现简单的猜拳游戏
  6. 本地终端通过ftp put命令上传导致文件损坏的解决办法(无语)
  7. 全国数学建模,美赛书籍资料,代码模板,论文大全,不拿奖都难
  8. 为产品赋予人格 - 情感化设计的组成要素及实践案例
  9. Python刷leetcode 102. 二叉树的层次遍历
  10. 视频教程-PHP扩展模块开发之DLL编写与调用-PHP