线性代数重要知识点和理论

矩阵基本运算

对于矩阵Am×nA_{m\times n}Am×n和xxx，AxAxAx表示对AAA的各列，使用xxx各个分量进行线性组合，即
Am×nx=[a1,a2,...,an]x=[a1,a2,...,an][x1,x2,...xn]=x1a1+x2a2+...+xnan\begin{aligned}A_{m\times n}x&=[a_1,a_2,...,a_n]x\\ &=[a_1,a_2,...,a_n][x_1,x_2,...x_n]\\ &=x_1a_1+x_2a_2+...+x_na_n \end{aligned}Am×nx=[a1,a2,...,an]x=[a1,a2,...,an][x1,x2,...xn]=x1a1+x2a2+...+xnan
另一个角度来看xTAm×nx^TA_{m\times n}xTAm×n则是代表以x为权重的AAA的各行的线性组合。
可以推广到矩阵的乘法： Cm×k=Am×nBn×kC_{m\times k}=A_{m\times n}B_{n\times k}Cm×k=Am×nBn×k. 1)C的第i行，可以看做是以A的第i行为权重的B的各行的线性组合；2)C的第i列，可以看做是以B的第i列为权重的A的各行的线性组合；
所以如果对矩阵进行列交换或者列线性组合变换，则应该右乘矩阵或者向量；如果对矩阵进行行变换或者行线性组合，则应该左乘矩阵或者向量。但是这个不是绝对的(这个理解并不准确，出现这种情况的原因仅仅是因为存在一个等价行变换来表示列变换而已)，如果矩阵A是方阵，且可逆，则对于列变换，也可以通过左乘矩阵来实现。
例如，通过列变换，An×nA_{n\times n}An×n可以得到Bn×nB_{n\times n}Bn×n，理论上应该是An×nCn×n=Bn×nA_{n\times n}C_{n \times n}=B_{n\times n}An×nCn×n=Bn×n(右乘矩阵C相当于对A各列进行线性组合)，但是因为A可逆，一定存在Pn×nAn×n=Bn×nP_{n\times n}A_{n\times n}=B_{n\times n}Pn×nAn×n=Bn×n，因为
Bn×n=Bn×nAn×n−1An×n=(Bn×nAn×n−1)An×n\begin{aligned}B_{n\times n}&=B_{n\times n}A_{n\times n}^{-1}A_{n\times n}=(B_{n\times n}A_{n\times n}^{-1})A_{n\times n} \end{aligned}Bn×n=Bn×nAn×n−1An×n=(Bn×nAn×n−1)An×n
令Pn×n=Bn×nAn×n−1P_{n\times n}=B_{n\times n}A_{n\times n}^{-1}Pn×n=Bn×nAn×n−1，则Pn×nP_{n\times n}Pn×n即为所求。这个也很好理解，因为AAA可逆，所以B的各行都可以使用AAA的各行的线性组合的方式来表示。这个也可以非严格说明，如果AAA可逆，则对于An×nA_{n\times n}An×n的各行的任意一个线性组合得到的n×nn\times nn×n矩阵，都存在一个各列的线性组合，使得两者等价。反之亦然。
PPP和CCC的关系为P=BA−1=ACA−1P=BA^{-1}=ACA^{-1}P=BA−1=ACA−1.
A是m×n矩阵，x是n×1向量A是{m\times n}矩阵，x是{n\times 1}向量A是m×n矩阵，x是n×1向量，AxAxAx的几何解释：矩阵A将n维空间Rn\Bbb R^nRn的一个向量映射到m维空间Rm\mathbb {R^m}Rm
ATAA^TAATA是对称矩阵
证明容易：
证明一：
(ATA)T=AT(AT)T=ATA(A^TA)^T=A^T(A^T)^T=A^TA(ATA)T=AT(AT)T=ATA，∴ATA\therefore A^TA∴ATA是对称矩阵
证明二：
A=[a1,a2,...an]A=[a_1,a_2,...a_n]A=[a1,a2,...an]，则
ATA=[a1Ta2T...anT][a1a2...an]=[a1Ta1a1Ta2...a1Tana2Ta1a2Ta2...a2Tan...anTa1anTa2...anTan]\begin{aligned} A^TA&=\begin{bmatrix}a_1^T\\ a_2^T\\ ...\\ a_n^T\\ \end{bmatrix}\begin{bmatrix}a_1&a_2&...&a_n\end{bmatrix}\\ &=\begin{bmatrix}a_1^Ta_1&a_1^Ta_2&...&a_1^Ta_n\\ a_2^Ta_1&a_2^Ta_2&...a_2^Ta_n\\ ...\\a_n^Ta_1&a_n^Ta_2&...&a_n^Ta_n\end{bmatrix} \end{aligned} ATA=⎣⎢⎢⎡a1Ta2T...anT⎦⎥⎥⎤[a1a2...an]=⎣⎢⎢⎡a1Ta1a2Ta1...anTa1a1Ta2a2Ta2anTa2......a2Tan...a1TananTan⎦⎥⎥⎤
对于矩阵ATAA^TAATA第i行j列元素都是标量，标量和自己转置是相等的(ATA)ij=aiTaj=(aiTaj)T=ajTai=(ATA)ji(A^TA)_{ij}=a_i^Ta_j=(a_i^Ta_j)^T=a_j^Ta_i=(A^TA)_{ji}(ATA)ij=aiTaj=(aiTaj)T=ajTai=(ATA)ji，所以ATAA^TAATA是对称矩阵。
若矩阵AAA可逆，其逆矩阵为CCC(CA=AC=ICA=AC=ICA=AC=I)，则C由A唯一确定。
证明：使用反证法。若逆矩阵不唯一，不妨设为B，则B=BI=B(AC)=(BA)C=CB=BI=B(AC)=(BA)C=CB=BI=B(AC)=(BA)C=C，所以BC为同一矩阵。
矩阵逆的定义是AC=CA=IAC=CA=IAC=CA=I。有没有可能AC=I,但是CA≠IAC=I, 但是CA\ne IAC=I,但是CA=I？实际上若AC都是方阵，AC=IAC=IAC=I，则CA=ICA=ICA=I
证明：实际上没有找到比较好的证明方式，暂略。

LU分解

LU分解的求取：Am×n=Lm×m⋅Um×nA_{m\times n}=L_{m\times m}\cdot U_{m\times n}Am×n=Lm×m⋅Um×n，其中L是下三角矩阵且对角线元素都是1，U是上三角矩阵。
先看看做法[AI][A\ I][A I]可以通过行初等变换得到[UL−1][U\ L^{-1}][U L−1]
原因是什么呢？对A做一次行初等变换，相当于对A左乘矩阵PiP_iPi，经过行初等变换之后，把A变换成上三角矩阵之后，做的变换相当于[(∏i=1nPi)A(∏i=1nPiI][(\prod\limits_{i=1}^{n} {P_i})A \ \ \ \ (\prod\limits_{i=1}^{n} {P_i}I][(i=1∏nPi)A (i=1∏nPiI]，令L−1=(∏i=1nPi)L^{-1}=(\prod\limits_{i=1}^{n} {P_i})L−1=(i=1∏nPi)，则有[L−1AL−1][L^{-1}A\ \ \ \ L^{-1}][L−1A L−1]，也即[UL−1][U\ \ L^{-1}][U L−1]，故经过行初等变换之后，得到的上三角矩阵为UUU，此时单位阵III已经变换成了L−1L^{-1}L−1对其求逆可得LLL.
L−1A=U⟹A=LUL^{-1}A=U\implies A=LUL−1A=U⟹A=LU

行列式

定义。行列式的定义有很多种。
定义一(递归)：当n≥2n\ge 2n≥2，n×nn \times nn×n矩阵A=[aij]A=[a_{ij}]A=[aij]的行列式是形如±a1j∣A1j∣\pm a_{1j}|A_{1j}|±a1j∣A1j∣的nnn项的和，即
∣A∣=∑j=1n(−1)i+jaij∣Aij∣|A|=\sum\limits_{j=1}^n(-1)^{i+j} a_{ij}|A_{ij}|∣A∣=j=1∑n(−1)i+jaij∣Aij∣，AijA_{ij}Aij是除去第i行，第j列之后的子矩阵。
定义二(求和)：
∣A∣=∑k=1n!(−1)ka1k1a1k2...a1kn|A|=\sum\limits_{k=1}^{n!}(-1)^ka_{1k_1}a_{1k_2}...a_{1k_n}∣A∣=k=1∑n!(−1)ka1k1a1k2...a1kn
其中k1,k2,...,knk_1,k_2,...,k_nk1,k2,...,kn是1,2,...,n1,2,...,n1,2,...,n的一个组合，kkk是1,2,...,n1,2,...,n1,2,...,n为了得到k1,k2,...,knk_1,k_2,...,k_nk1,k2,...,kn锁发生的元素交换的次数。例如n=4n=4n=4, k1,k2,...,kn=2,3,4,1k_1,k_2,...,k_n=2,3,4,1k1,k2,...,kn=2,3,4,1，可以通过3次交换得到，故k=3k=3k=3，实际定义二可以通过定义一展开得到。通过这个公式可以看到，通过定义求行列式的时间复杂度是n!n!n!.
若AAA为三角阵，则∣A∣|A|∣A∣为对角线上元素的乘积。通过定义，容易得到。
行列式的性质：若AAA是方阵

若AAA的某一行的倍数加到另一行得到矩阵BBB，则∣B∣=∣A∣|B|=|A|∣B∣=∣A∣;
若AAA的两行互换得到矩阵BBB,则∣B∣=−∣A∣|B|=-|A|∣B∣=−∣A∣;
若AAA的某一行乘r得到矩阵BBB,则∣B∣=r∣A∣|B|=r|A|∣B∣=r∣A∣;
上述都换成列也成立；
下面先给出数学归纳法的证明：
上述变换都可以通过一个左乘一个行变换矩阵PPP的方式来得到B=PAB=PAB=PA：
∣P∣={−1(行交换)1(行倍加)r(行倍乘)|P|= \begin{cases} -1(行交换)\\ 1(行倍加)\\ r(行倍乘) \end{cases} ∣P∣=⎩⎪⎨⎪⎧−1(行交换)1(行倍加)r(行倍乘)
若上述定理对k阶矩阵成立∣Bij∣=α∣Aij∣|B_{ij}|=\alpha |A_{ij}|∣Bij∣=α∣Aij∣，则对于k+1阶矩阵，选取一个没有变换的行i进行余因子展开
∣B∣=∑j=1j=k+1(−1)i+jbij∣Bij∣=∑j=1j=k+1(−1)i+jaijα∣Aij∣(因为改行没有发生变化，故bij=aij)(因为Bij是B的子矩阵，所有Bij的变换都是相同的，所以任意∣Bij∣=α∣Aij∣)=α∣A∣\begin{aligned} |B|&=\sum_{j=1}^{j=k+1}(-1)^{i+j}b_{ij}|B_{ij}|\\ &=\sum_{j=1}^{j=k+1}(-1)^{i+j}a_{ij}\alpha|A_{ij}| \\ &(因为改行没有发生变化，故b_{ij}=a_{ij})\\ &(因为B_{ij}是B的子矩阵，所有B_{ij}的变换都是相同的，所以任意|B_{ij}|=\alpha |A_{ij}|)\\ &=\alpha|A| \end{aligned} ∣B∣=j=1∑j=k+1(−1)i+jbij∣Bij∣=j=1∑j=k+1(−1)i+jaijα∣Aij∣(因为改行没有发生变化，故bij=aij)(因为Bij是B的子矩阵，所有Bij的变换都是相同的，所以任意∣Bij∣=α∣Aij∣)=α∣A∣
上述可以使用数学归纳法来证明，但是不够直观。比如第一条，实际上有点不可思议，因为如果AAA元素全为正，因为A的某行元素变大了，那行列式也应该变大，但是并没有。
对于部分结论，可以有个更直观点的理解。
对于第一条，假如是把第i行倍乘之后加到了第j行上，可以根据定义：
∣A∣=∑k=1k=n(−1)j+kajk∣Ajk∣∣B∣=∑k=1k=n(−1)j+kbjk∣Bjk∣=∑k=1k=n(−1)j+kbjk∣Ajk∣(因为是按照j行展开，AB只有j行不同，故余因子展开式除j行外都是一样的)=∑k=1k=n(−1)j+kajk∣Ajk∣+∑k=1k=n(−1)j+kraik∣Ajk∣=∣A∣+∑k=1k=n(−1)j+kraik∣Ajk∣\begin{aligned} |A|&=\sum_{k=1}^{k=n}(-1)^{j+k}a_{jk}|A_{jk}| \\ |B|&=\sum_{k=1}^{k=n}(-1)^{j+k}b_{jk}|B_{jk}|\\ &=\sum_{k=1}^{k=n}(-1)^{j+k}b_{jk}|A_{jk}|(因为是按照j行展开，AB只有j行不同，故余因子展开式除j行外都是一样的) \\ &=\sum_{k=1}^{k=n}(-1)^{j+k}a_{jk}|A_{jk}|+\sum_{k=1}^{k=n}(-1)^{j+k}ra_{ik}|A_{jk}|\\ &=|A|+\sum_{k=1}^{k=n}(-1)^{j+k}ra_{ik}|A_{jk}| \end{aligned} ∣A∣∣B∣=k=1∑k=n(−1)j+kajk∣Ajk∣=k=1∑k=n(−1)j+kbjk∣Bjk∣=k=1∑k=n(−1)j+kbjk∣Ajk∣(因为是按照j行展开，AB只有j行不同，故余因子展开式除j行外都是一样的)=k=1∑k=n(−1)j+kajk∣Ajk∣+k=1∑k=n(−1)j+kraik∣Ajk∣=∣A∣+k=1∑k=n(−1)j+kraik∣Ajk∣
观察第二项不难发现，其等价于AAA的第j行替换成第i行倍乘r之后的行列式，因为此时第i行和第j行线性相关，所以该值为0.这里需要注意的是，这里并不是利用了|A+B|=|A|+|B|(对于大多数矩阵，这不成立)，只是利用定义展开后恰好发现是两个矩阵行列式之和。
∴∣B∣=∣A∣\therefore |B|=|A|∴∣B∣=∣A∣

对于第三条，根据定义，按照倍乘的行进行展开可以直接得出，不再描述。

∣AT∣=∣A∣|A^T|=|A|∣AT∣=∣A∣
AAA是可逆的⟺∣A∣≠0\iff |A|\ne 0⟺∣A∣=0
A,BA,BA,B均为n×nn \times nn×n方阵，则∣AB∣=∣A∣∣B∣|AB|=|A||B|∣AB∣=∣A∣∣B∣
证明一：若A,BA,BA,B其中一个不可逆，则两边都是0，自然成立。对于A,BA,BA,B都可逆的情况。对A,BTA,B^TA,BT进行PLU分解，得A=P1L1U1,BT=P2L2U2A=P_1L_1U_1, B^T=P_2L_2U_2A=P1L1U1,BT=P2L2U2。
∣AB∣=∣ABTT∣=∣P1L1U1(P2L2U2)T∣=∣P1L1U1U2TL2TP2T∣∴∣P1−1L1−1ABL2−1P2−1∣=∣U1U2∣\begin{aligned} |AB|&=|AB^{TT}|=|P_1L_1U_1(P_2L_2U_2)^T|\\ &=|P_1L_1U_1U_2^TL_2^TP_2^T| \end{aligned}\\ \therefore |P_1^{-1}L_1^{-1}ABL_2^{-1}P_2^{-1}|=|U_1U_2| ∣AB∣=∣ABTT∣=∣P1L1U1(P2L2U2)T∣=∣P1L1U1U2TL2TP2T∣∴∣P1−1L1−1ABL2−1P2−1∣=∣U1U2∣
因为AAA每发生一次行交换，BBB每发生一次列交换，等价于AB也发生一次交换，正好和P1,P2P_1,P_2P1,P2的-1重数抵消
通过以上变换，将|AB|变成了上三角矩阵相乘，结果仍是上三角矩阵，且行列式为对角线元素乘积。而变换过程只用了行倍加变换和行交换，不改变矩阵的行列式的值(-1重数已经抵消掉)，而U1,U2U_1,U_2U1,U2也恰好是矩阵A,BA,BA,B的行列式，故∣AB∣=∣A∣∣B∣|AB|=|A||B|∣AB∣=∣A∣∣B∣
证明二：对于可逆的情况
AB=(∏i=ni=1Pi)B∣AB∣=∣(∏i=ni=1Pi)B∣=(∏i=ni=1αi)∣B∣\begin{aligned} AB&=(\prod_{i=n}^{i=1}P_i)B\\ |AB|&=\left|(\prod_{i=n}^{i=1}P_i)B\right|\\ &=(\prod_{i=n}^{i=1}\alpha_i)|B|\\ \end{aligned}AB∣AB∣=(i=n∏i=1Pi)B=∣∣∣∣∣(i=n∏i=1Pi)B∣∣∣∣∣=(i=n∏i=1αi)∣B∣
而(∏i=ni=1αi)=∣A∣(\prod\limits_{i=n}^{i=1}\alpha_i)=|A|(i=n∏i=1αi)=∣A∣

特征值和特征向量

对于n×nn\times nn×n矩阵AAA和BBB，如果存在可逆矩阵PPP，使得P−1AP=BP^{-1}AP=BP−1AP=B，则称AAA相似于BBB. 若令Q=P−1Q=P^{-1}Q=P−1，则Q−1BQ=AQ^{-1}BQ=AQ−1BQ=A，即BBB也相似于AAA. 一般简单说AAA和BBB相似. 若AAA和BBB相似，则AAA和BBB具有相同的特征值。
证明一: 若λ\lambdaλ是AAA的一个特征值，则存在vvv，使得Av=λvAv=\lambda vAv=λv
Av=Q−1BQv=λv⟹BQv=Qλv=λQvAv=Q^{-1}BQv=\lambda v \implies\\ BQv=Q\lambda v=\lambda Qv Av=Q−1BQv=λv⟹BQv=Qλv=λQv
令w=Qvw=Qvw=Qv，则Bw=λwBw=\lambda wBw=λw，因此λ\lambdaλ是BBB的特征值，w=Qvw=Qvw=Qv是对应的BBB的特征向量。
上述证明还要求w≠0w\ne \bold 0w=0，这个也是容易得到的。可以使用反证法：
w=Qvw=Qvw=Qv表示的是以vvv的各个分量为权重的QQQ的各列的线性组合，因为QQQ可逆，所以Q各列线性无关。如果w=0w=\bold 0w=0，只能是vvv的各个分量都为0，即v=0v=\bold 0v=0. 这和vvv是AAA的特征向量矛盾。
证明二：若λ\lambdaλ是AAA的一个特征值，则∣A−λI∣=0|A-\lambda I|=0∣A−λI∣=0.
∣B−λI∣=∣P−1AP−λI∣=∣P−1AP−λP−1IP∣=∣P−1(A−λI)P∣=∣P−1∣⋅∣(A−λI)∣⋅∣P∣=0\begin{aligned} |B-\lambda I|&= |P^{-1}AP-\lambda I|\\ &=|P^{-1}AP-\lambda P^{-1}IP|\\ &=|P^{-1}(A-\lambda I)P| \\ &=|P^{-1}|\cdot|(A-\lambda I)|\cdot|P| =0 \end{aligned} ∣B−λI∣=∣P−1AP−λI∣=∣P−1AP−λP−1IP∣=∣P−1(A−λI)P∣=∣P−1∣⋅∣(A−λI)∣⋅∣P∣=0
故λ\lambdaλ是BBB的特征值。
若λ\lambdaλ是AAA的特征值，则λ2\lambda^2λ2是A2A^2A2的特征值。
证明容易: ∵Av=λv∴A2v=AAv=A(Av)=Aλv=λAv=λ2v\because Av=\lambda v\\ \therefore A^2v=AAv=A(Av)=A\lambda v=\lambda Av=\lambda^2v∵Av=λv∴A2v=AAv=A(Av)=Aλv=λAv=λ2v
方阵特征值分解A=P−1DPA=P^{-1}DPA=P−1DP
Avi=λiviAv_i=\lambda_iv_iAvi=λivi，如果把各个特征向量vi(列向量)v_i(列向量)vi(列向量)放在一起，则
A[v1,v2,...vn]=[λ1v1,λ2v2,...λnvn]A[v_1,v_2,...v_n]=[\lambda_1v_1,\lambda_2v_2,...\lambda_nv_n]A[v1,v2,...vn]=[λ1v1,λ2v2,...λnvn]，可见右边矩阵是各个特征向量(列向量)的线性组合，需要右乘权重矩阵，得到
[λ1v1,λ2v2,...λnvn]=[v1,v2,...vn][λ10...00λ2...0...00...λn][\lambda_1v_1,\lambda_2v_2,...\lambda_nv_n]= [v_1,v_2,...v_n]\begin{bmatrix}\lambda_1&0&...&0\\0&\lambda_2&...&0\\...\\0&0&...&\lambda_n\end{bmatrix}[λ1v1,λ2v2,...λnvn]=[v1,v2,...vn]⎣⎢⎢⎡λ10...00λ20.........00λn⎦⎥⎥⎤
如果A的各个特征向量组成的矩阵可逆，则有
A=A[v1,v2,...vn][v1,v2,...vn]−1=[λ1v1,λ2v2,...λnvn][v1,v2,...vn]−1=A[v1,v2,...vn][λ10...00λ2...0...00...λn][v1,v2,...vn]−1\begin{aligned} A&=A[v_1,v_2,...v_n][v_1,v_2,...v_n]^{-1}\\ &=[\lambda_1v_1,\lambda_2v_2,...\lambda_nv_n][v_1,v_2,...v_n]^{-1} \\ &=A[v_1,v_2,...v_n]\begin{bmatrix}\lambda_1&0&...&0\\0&\lambda_2&...&0\\...\\0&0&...&\lambda_n\end{bmatrix}[v_1,v_2,...v_n]^{-1} \end{aligned}A=A[v1,v2,...vn][v1,v2,...vn]−1=[λ1v1,λ2v2,...λnvn][v1,v2,...vn]−1=A[v1,v2,...vn]⎣⎢⎢⎡λ10...00λ20.........00λn⎦⎥⎥⎤[v1,v2,...vn]−1
AAA是n×nn\times nn×n矩阵，为了更好的理解AxA\bold xAx对x\bold xx的作用可以这么看:假设v1,v2,...,vn\bold {v_1},\bold {v_2},...,\bold {v_n}v1,v2,...,vn是AAA的特征向量，且他们线性无关，则x=c1v1+c2v2+...+cnvn\bold x=c_1\bold {v_1}+c_2\bold {v_2}+...+c_n\bold {v_n}x=c1v1+c2v2+...+cnvn，则
Ax=c1Av1+c2Av2+...+cnvn=c1λ1v1+c2λ2v2+...+cnλnvnA\bold x=c_1A\bold {v_1}+c_2A\bold {v_2}+...+c_n\bold {v_n}\\ =c_1\lambda_1\bold {v_1}+c_2\lambda_2\bold {v_2}+...+c_n\lambda_n\bold {v_n} Ax=c1Av1+c2Av2+...+cnvn=c1λ1v1+c2λ2v2+...+cnλnvn
所以AxA\bold xAx相当于AAA对x\bold xx在AAA的各个特征向量的方向上进行尺度变换。这个也可以解释，为什么lim⁡n→∞Anx\lim\limits_{n\to \infin} A^nxn→∞limAnx是收敛还是发散取决于AAA最大的特征值。
复数特征值，代表对特征向量进行旋转，这个旋转不是在Rn\Bbb R^nRn空间上的旋转，而是在复数空间的旋转。这个实际上很难理解，原因在于本来特征v\bold vv就是一个高维的了，结果其每个分量还是复数。
Q:

是不是每个方阵都会有n的线性无关的特征向量？
不是，约当块就不是。
证明：构造一个约当块A
Ai,j={a(i=j)1(j=i+1)0(other)A_{i,j}=\begin{cases} a(i=j)\\ 1(j=i+1)\\ 0(other) \end{cases} Ai,j=⎩⎪⎨⎪⎧a(i=j)1(j=i+1)0(other)
例如A=[a000001a000001a000001a000001a000001a]A=\begin{bmatrix} a&0&0&0&0&0\\ 1&a&0&0&0&0\\ 0&1&a&0&0&0\\ 0&0&1&a&0&0\\ 0&0&0&1&a&0\\ 0&0&0&0&1&a\\ \end{bmatrix}A=⎣⎢⎢⎢⎢⎢⎢⎡a100000a100000a100000a100000a100000a⎦⎥⎥⎥⎥⎥⎥⎤
证明过程后续补充。

正交性

如果AAA是对称矩阵，vi,vjv_i, v_jvi,vj是不同特征空间的两个特征向量，则vi,vjv_i, v_jvi,vj是正交的。
证明容易:
λivi⋅vj=(λvi)Tvj=(Avi)Tvj=(viTAT)vj=viT(Avj)=viTλjvj=λjviTvj=λjvi⋅vj∴(λi−λj)vi⋅vj=0，而λi≠λj，故vi⋅vj=0\begin{aligned} \lambda_iv_i\cdot v_j&=(\lambda v_i)^T v_j&=(Av_i)^Tv_j \\ &=(v_i^TA^T)v_j&=v_i^T(Av_j) \\ &=v_i^T\lambda_j v_j \\ &=\lambda_jv_i^Tv_j&=\lambda_jv_i\cdot v_j \end{aligned} \\ \therefore (\lambda_i-\lambda_j)v_i\cdot v_j=0，而\lambda_i\ne\lambda_j，故v_i\cdot v_j=0λivi⋅vj=(λvi)Tvj=(viTAT)vj=viTλjvj=λjviTvj=(Avi)Tvj=viT(Avj)=λjvi⋅vj∴(λi−λj)vi⋅vj=0，而λi=λj，故vi⋅vj=0
如果P=[u1,u2,...un]P=[\bold{u_1},\bold{u_2},...\bold{u_n}]P=[u1,u2,...un]，ui\bold{u_i}ui是Rn\Bbb R^nRn上的单位正交基，则有P−1=PTP^{-1}=P^TP−1=PT.
PTP=[u1T;u2T;...unT]⋅[u1,u2,...un]=[u1Tu1u1Tu2...u1Tunu2Tu1u2Tu2...u2Tun...unTu1unTu2...unTun]\begin{aligned} P^TP&=[\bold{u_1}^T;\bold{u_2}^T;...\bold{u_n}^T]\cdot [\bold{u_1},\bold{u_2},...\bold{u_n}] \\ &=\begin{bmatrix} \bold{u_1}^T\bold{u_1}& \bold{u_1}^T\bold{u_2}&...&\bold{u_1}^T\bold{u_n}\\ \bold{u_2}^T\bold{u_1}& \bold{u_2}^T\bold{u_2}&...&\bold{u_2}^T\bold{u_n}\\ ...\\ \bold{u_n}^T\bold{u_1}& \bold{u_n}^T\bold{u_2}&...&\bold{u_n}^T\bold{u_n} \end{bmatrix} \end{aligned}PTP=[u1T;u2T;...unT]⋅[u1,u2,...un]=⎣⎢⎢⎡u1Tu1u2Tu1...unTu1u1Tu2u2Tu2unTu2.........u1Tunu2TununTun⎦⎥⎥⎤
因为P各列是单位正交的，所以，只有对角线上的数值为1(单位)，非对角线乘积为0(正交)，故PTPP^TPPTP为单位阵，P−1=PTP^{-1}=P^TP−1=PT
对于矩阵AAA和向量vvv，AvAvAv可以理解为使用矩阵AAA对向量vvv进行变换(伸缩和旋转)。如果对向量v进行多次变化，会是什么样呢？
思路一：
A...(A(Av))=Anv=An(v→+v⊥)A...(A(Av))=A^nv \\ =A^n(v_{\to}+v_{\perp})A...(A(Av))=Anv=An(v→+v⊥)
等价于使用AnA^nAn对向量vvv进行变换。前面已经证明，如果λ\lambdaλ是AAA的特征值，则λn\lambda^nλn是AnA^nAn的特征值。为了利用特征值和特征向量的特点，我们对vvv进行分解，沿着AAA的特征值最大的特征向量和垂直于这个方向。那么因为n次方之后，对特征值的伸缩非常大，所以使用AnA^nAn对vvv进行变换的话，对特征向量方向的分量影响非常显著。对于除最大值之外的特征向量的影响不明显。
思路二：如果每次乘完之后都把特征向量的分量给去掉，结果是怎么样呢？
向量正交u,v\bold u,\bold vu,v等价于内积为0
证明1: 从代数上来说u⋅v=uTv=∣∣u∣∣∣∣v∣∣cosθ\bold u\cdot\bold v= \bold u^T \bold v=||\bold u||\ ||\bold v||\ cos\thetau⋅v=uTv=∣∣u∣∣ ∣∣v∣∣ cosθ，其中θ\thetaθ是u,v\bold u,\bold vu,v的夹角，若u,v\bold u,\bold vu,v垂直，则 cosθ=0cos\theta=0cosθ=0，故uTv=0\bold u^T \bold v=0uTv=0
证明2: 从几何上来说，u,v\bold u,\bold vu,v若垂直，则根据中垂线定理v\bold vv到u\bold uu和−u-\bold u−u的距离相等，即
∣∣v−u∣∣=∣∣v−(−u)∣∣⟹∣∣v−u∣∣2=∣∣v+u∣∣2⟹∣∣u∣∣2+∣∣v∣∣2−2uv=∣∣u∣∣2+∣∣v∣∣2+2uv⟹4uv=0⟹uv=0\begin{aligned}||\bold v-\bold u||&=||\bold v-(-\bold u)|| \implies \\ ||\bold v-\bold u||^2&=||\bold v+\bold u||^2 \implies\\ ||\bold u||^2+||\bold v||^2-2\bold u\bold v &= ||\bold u||^2+||\bold v||^2+2\bold u\bold v \implies\\ 4\bold u\bold v &=0\implies\\ \bold u\bold v &=0 \end{aligned}∣∣v−u∣∣∣∣v−u∣∣2∣∣u∣∣2+∣∣v∣∣2−2uv4uvuv=∣∣v−(−u)∣∣⟹=∣∣v+u∣∣2⟹=∣∣u∣∣2+∣∣v∣∣2+2uv⟹=0⟹=0
正交投影和相关性质
正交补定义：u1,u2,...,un\bold {u_1},\bold {u_2},...,\bold {u_n}u1,u2,...,un空间Rn\Bbb R^nRn的一组正交基，对于W=Span{u1,u2,...,ui}W=Span\{\bold {u_1},\bold {u_2},...,\bold {u_i}\}W=Span{u1,u2,...,ui}，WWW是Rn\Bbb R^nRn的有一个子空间，如果向量zzz和WWW中的任意一个向量都垂直，与子空间WWW正交的向量的全体组成的集合成为WWW的正交补，记作W⊥W^{\bot}W⊥.
定理：若A是m×nA是m\times nA是m×n矩阵，那么AAA的行向量空间的正交补是AAA的零空间，且AAA的列向量空间的正交补是ATA^TAT的零空间：
(RowA)⊥=NulA,(ColA)⊥=NulAT(Row\ A)^{\bot}=Nul\ A, (Col\ A)^{\bot}=Nul\ A^T(Row A)⊥=Nul A,(Col A)⊥=Nul AT
若x是NulAx是Nul\ Ax是Nul A的向量，那么xxx与AAA的每一行都正交(将行作为Rn\Bbb R^nRn空间中的向量)，由于AAA的行生成AAA的行空间，向量xxx与RowARow\ ARow A正交。反之，如果xxx与RowARow ARowA正交，则xxx与AAA的每一行正交，因此Ax=0Ax=0Ax=0.如果将AAA换成ATA^TAT，利用RowAT=ColARow\ A^T=Col ARow AT=ColA，可以证明结论。
若向量v∈W,v∈W⊥v\in W, v \in W^{\bot}v∈W,v∈W⊥，则v=0v=0v=0。
证明：因为W⊥W^{\bot}W⊥中任意一个向量都和WWW中任意一个向量正交，故v⋅v=0⟹v=0v\cdot v=0\implies v=0v⋅v=0⟹v=0
正交投影定义：对Rn\Bbb R^nRn中给出的非零向量u\bold uu，考虑Rn\Bbb R^nRn中的一个向量y\bold yy分解为两个向量和的问题，一个向量是向量u\bold uu的数量乘积，另一个向量与u\bold uu垂直。我们可以写成y=y^+z\bold y=\bold {\hat y}+\bold zy=y^+z，其中y^=αu\bold {\hat y}=\alpha \bold uy^=αu，α\alphaα是一个数，z\bold zz是一个垂直于u\bold uu的向量。
下面给出α,y^\alpha, \bold{\hat y}α,y^的计算方法(实际上这个从勾股定理也很容易得到)。
0=y^z=αu⋅(y−αu)=αu⋅y−α2u⋅u⟹∴α=u⋅yu⋅u,y^=αu=u⋅yu⋅uu\begin{aligned} 0=\bold{\hat y}\bold z&=\alpha\bold u\cdot(\bold y-\alpha\bold u)\\ &=\alpha\bold u\cdot\bold y-\alpha^2\bold u\cdot\bold u\implies \\ \end{aligned}\\ \therefore\alpha=\frac {\bold u\cdot\bold y}{\bold u\cdot\bold u},\ \ \bold{\hat y}=\alpha\bold u=\frac {\bold u\cdot\bold y}{\bold u\cdot\bold u}\bold u 0=y^z=αu⋅(y−αu)=αu⋅y−α2u⋅u⟹∴α=u⋅uu⋅y, y^=αu=u⋅uu⋅yu
前面有对称方阵的各个特征向量正交的定理。对此做一个推广(UUU不限制是方阵，所以，U的各列不一定能生成Rn\Bbb R^nRn，有可能只是一个子空间)：一个m×nm\times nm×n的矩阵UUU，UUU的各列是单位正交基的充要条件是UTU=IU^TU=IUTU=I，证明方法类似。由此设U是具有单位正交列的m\times n矩阵，可以得到一些推论
a)∣∣Ux∣∣=∣∣x∣∣;b)Ux⋅Uy=x⋅y;c)Ux⋅Uy=0;d)∣∣Ux−Uy∣∣=∣∣x−y∣∣;(保距映射)\begin{aligned} &a) ||Ux||=||x||;\\ &b)Ux\cdot Uy=x\cdot y;\\ &c)Ux\cdot Uy=0;\\ &d)||Ux-Uy||=||x-y||;(保距映射) \end{aligned}a)∣∣Ux∣∣=∣∣x∣∣;b)Ux⋅Uy=x⋅y;c)Ux⋅Uy=0;d)∣∣Ux−Uy∣∣=∣∣x−y∣∣;(保距映射)
证明a):
∣∣Ux∣∣2=(Ux)⋅(Ux)=(Ux)T(Ux)=xTUTUx=xTx=∣∣x∣∣2∴∣∣Ux∣∣=∣∣x∣∣\begin{aligned} ||Ux||^2&=(Ux)\cdot(Ux)\\ &=(Ux)^T(Ux)\\ &=x^TU^TUx\\ &=x^Tx=||x||^2 \end{aligned}\\ \therefore ||Ux||=||x|| ∣∣Ux∣∣2=(Ux)⋅(Ux)=(Ux)T(Ux)=xTUTUx=xTx=∣∣x∣∣2∴∣∣Ux∣∣=∣∣x∣∣
这个定理有点意思。Ux=[u1,u2,...,un]⋅[x1,x2,...xn]=∑(xiui)Ux=[u_1,u_2,...,u_n]\cdot[x_1,x_2,...x_n]=\sum (x_i\bold u_i)Ux=[u1,u2,...,un]⋅[x1,x2,...xn]=∑(xiui)，表示以x各个分量为权重的U的各列的线性组合(因为是右乘x)，其中的每个∣∣ui∣∣||u_i||∣∣ui∣∣都是1，但是不同uiu_iui同列的分量可能差别很大，但是最终的模还是xxx的模，就很奇妙。诶，举了个具体数值的例子U=[1/302/3−2/22/32/2]U=\begin{bmatrix}1/3&0\\ 2/3&-\sqrt 2/2\\ 2/3&\sqrt 2/2\end{bmatrix}U=⎣⎡1/32/32/30−2/22/2⎦⎤，瞬间就更明白了。
Ux=[u1,u2,...,un]⋅[x1,x2,...xn]=x1u1+x2u2+...+xnun∴∣∣Ux∣∣2=∑i=1nxi2uiTui+∑i=0n∑j=i+1n2xixjuiTuj\begin{aligned} Ux&=[\bold u_1,\bold u_2,...,\bold u_n]\cdot[x_1,x_2,...x_n]\\ &=x_1\bold u_1+x_2\bold u_2+...+x_n\bold u_n\\ \end{aligned}\\ \therefore ||Ux||^2=\sum_{i=1}^n x_i^2\bold u_i^T\bold u_i+\sum_{i=0}^n \sum_{j=i+1}^n 2x_ix_j\bold u_i^T\bold u_j Ux=[u1,u2,...,un]⋅[x1,x2,...xn]=x1u1+x2u2+...+xnun∴∣∣Ux∣∣2=i=1∑nxi2uiTui+i=0∑nj=i+1∑n2xixjuiTuj
因为ui\bold u_iui是单位正交基，所以
uiTuj={0(i≠j)1(i=j)\bold u_i^Tu_j=\begin{cases} 0(i\ne j)\\ 1(i=j) \end{cases}uiTuj={0(i=j)1(i=j)
∴∣∣Ux∣∣2=∑i=1nxi2=∣∣x∣∣2\therefore ||Ux||^2=\sum_{i=1}^n x_i^2=||x||^2 ∴∣∣Ux∣∣2=i=1∑nxi2=∣∣x∣∣2
以上也是另外一种证明。
为什么是各列是单位正交基而不是各行？
证明b):
Ux⋅Uy=(Ux)T(Uy)=xTUTUy=x⋅y\begin{aligned} Ux\cdot Uy=(Ux)^T(Uy)=x^TU^TUy=x\cdot y \end{aligned} Ux⋅Uy=(Ux)T(Uy)=xTUTUy=x⋅y
若U是方阵，U的各列单位正交，则U的各行也单位正交。
证明：因为UUU的各列单位正交，UTU=U−1U=I=UU−1=UUTU^TU=U^{-1}U=I=UU^{-1}=UU^TUTU=U−1U=I=UU−1=UUT.
通常情况使用向量表示矩阵，一般会分解成列向量的形式，但是这里，以下的向量都是行向量。
设U=[u1u2...un]U=\begin{bmatrix}u_1\\u_2\\...\\u_n\end{bmatrix}U=⎣⎢⎢⎡u1u2...un⎦⎥⎥⎤，
UUT=[u1u2...un]⋅[u1u2...un]=[u1u1Tu1u2T...u1unTu2u1Tu2u2T...u2unT...unu1Tunu2T...ununT]=[10...001...0...00...1]\begin{aligned} UU^T&=\begin{bmatrix}u_1\\u_2\\...\\u_n\end{bmatrix}\cdot \begin{bmatrix}u_1&u_2&...&u_n\end{bmatrix}\\ &=\begin{bmatrix}u_1u_1^T&u_1u_2^T&...&u_1u_n^T\\u_2u_1^T&u_2u_2^T&...&u_2u_n^T\\...\\u_nu_1^T&u_nu_2^T&...&u_nu_n^T\end{bmatrix}\\ &=\begin{bmatrix}1&0&...&0\\0&1&...&0\\...\\0&0&...&1\end{bmatrix}\end{aligned}UUT=⎣⎢⎢⎡u1u2...un⎦⎥⎥⎤⋅[u1u2...un]=⎣⎢⎢⎡u1u1Tu2u1T...unu1Tu1u2Tu2u2Tunu2T.........u1unTu2unTununT⎦⎥⎥⎤=⎣⎢⎢⎡10...0010.........001⎦⎥⎥⎤
对于uiTuj={0(i≠j)1(i=j)\bold u_i^Tu_j=\begin{cases} 0(i\ne j)\\ 1(i=j) \end{cases}uiTuj={0(i=j)1(i=j)，所以UUU的各行也是单位正交的。
Q:

正交投影和子空间

对于给定向量y∈Rny\in \Bbb R^ny∈Rn和Rn\Bbb R^nRn子空间WWW，存在y^∈W\hat y\in Wy^∈W，1)W中有唯一向量y^\hat yy^，使得y−y^y-\hat yy−y^和W正交，即y−y^∈W⊥y-\hat y \in W^{\bot}y−y^∈W⊥，可通过正交分解定理求得; 2) y^\hat yy^是W中最接近yyy的向量(最佳逼近定理)。
QR分解(全称是啥找了半天也没找到)：对于各列线性无关的矩阵Am×nA_{m\times n}Am×n，那么A可以分解成A=QRA=QRA=QR，其中Q是m×nm\times nm×n，其各列构成ColACol AColA的一组单位正交基，R是一个上三角矩阵，且对角线上元素为正。通过格拉姆-施密特方法或者正交分解定理。描述一下格拉姆-施密特方法可以得到。
备注：也有另外有一种QR分解Am×n=Qm×mRm×nA_{m\times n}=Q_{m\times m}R_{m\times n}Am×n=Qm×mRm×n
设A=[a1,a2,...an]A=[a_1,a_2,...a_n]A=[a1,a2,...an]，aia_iai线性无关。设Q=[q1,q2,...,qn]Q=[q_1,q_2,...,q_n]Q=[q1,q2,...,qn]
q1=a1q2=a2−a2Ta1/∣∣a1∣∣2a1q3=a3−a3Ta1/∣∣a1∣∣2a1−a3Ta2/∣∣a2∣∣2a2...qn=an−anTa1/∣∣a1∣∣2a1−...−anTan−1/∣∣an−1∣∣2an−1\begin{aligned} q_1&={a_1}\\ q_2&=a_2-a_2^Ta_1/||a_1||^2a_1\\ q_3&=a_3-a_3^Ta_1/||a_1||^2a_1-a_3^Ta_2/||a_2||^2a_2\\ ...\\ q_n&=a_n-a_n^Ta_1/||a_1||^2a_1-...-a_n^Ta_{n-1}/||a_{n-1}||^2a_{n-1} \end{aligned}q1q2q3...qn=a1=a2−a2Ta1/∣∣a1∣∣2a1=a3−a3Ta1/∣∣a1∣∣2a1−a3Ta2/∣∣a2∣∣2a2=an−anTa1/∣∣a1∣∣2a1−...−anTan−1/∣∣an−1∣∣2an−1
根据定义A=QRA=QRA=QR实际上A是Q各列的线性组合，其中各列aia_iai只和Q的各列qj(0≤j<i)q_j(0\le j< i)qj(0≤j<i)，故而R是一个上三角矩阵，如果对角线上某个元素为负值，可以调整Q的对应的列的方向，使其为正。

线性代数重要知识点和理论相关推荐

《系统集成项目管理工程师》必背100个知识点-56X理论和Y理论
简述X理论和Y理论的主要观点?▲▲▲ (1)X理论主要体现了独裁管理者对人性的判断,这种假设认为:一般人天性好逸恶劳,只要有可能就会逃避工作.人缺乏进取心,逃避责任,甘愿听从指挥,安于现状,没有创造 ...
[矩阵论] Unit 0. 线性代数 - 部分知识点整理
注: 以下内容均由个人整理, 不保证完全准确, 如有纰漏, 欢迎交流讨论参考: 同济大学数学系. 工程数学线性代数(第六版)[M]. 北京: 高等教育出版社, 2014 线性相关/无关向量 α 1 ...
【大学课程】线性代数基础知识点
行列式定义性质展开定理几个重要的行列式用行或列表示的行列式的性质克拉默法则矩阵定义及基本运算特殊矩阵分块矩阵矩阵的逆伴随矩阵,初等矩阵与矩阵方程伴随矩阵及其运算初等变换与初 ...
线性代数-二次型知识点总结
线性代数-矩阵知识点总结
张宇1000题线性代数第八章相似理论
目录 BBB组 5.设实矩阵A\bm{A}A为333阶正交矩阵,其元素a22=1a_{22}=1a22=1,又333维列向量α=[0,3,0]T\bm{\alpha}=[0,3,0]^\mathrm ...
线性代数 | 知识点总结（下）
线性代数知识点总结归纳,参考资料为武汉大学黄正华老师的教学课件. 前文提要:[线性代数]知识点总结(上) 3. 矩阵的初等变换与线性方程组 3.1 初等变换矩阵初等矩阵把变换过程传递到它所乘的矩阵; ...
Docker最全教程——从理论到实战（七）
Docker最全教程--从理论到实战(七) 原文:Docker最全教程--从理论到实战(七) 在本系列教程中,笔者希望将必要的知识点围绕理论.流程(工作流程).方法.实践来进行讲解,而不是单纯的为讲解 ...
Docker最全教程——从理论到实战（九）
在本系列教程中,笔者希望将必要的知识点围绕理论.流程(工作流程).方法.实践来进行讲解,而不是单纯的为讲解知识点而进行讲解.也就是说,笔者希望能够让大家将理论.知识.思想和指导应用到工作的实际场景和实 ...

线性代数重要知识点和理论

矩阵基本运算

LU分解

行列式

特征值和特征向量

正交性

正交投影和子空间

线性代数重要知识点和理论相关推荐

最新文章

热门文章