漫步线性代数二十七—

现在我们开始实质性的计算，它非常简单并且在随后的几篇文章里都会用到。特征向量对角化一个矩阵：

3、假设n×nn\times n矩阵有nn个线性无关的特征向量，如果这些向量是矩阵SS的列，那么S−1ASS^{-1}AS是一个对角矩阵Λ\Lambda，AA的特征值在Λ\Lambda的对角线上：

S−1AS=Λ=⎡⎣⎢⎢⎢⎢⎢λ1λ2⋱λn⎤⎦⎥⎥⎥⎥⎥(1)

\begin{equation} S^{-1}AS=\Lambda=\begin{bmatrix} \lambda_1&&&\\ &\lambda_2&&\\ &&\ddots&\\ &&&\lambda_n \end{bmatrix}\tag1 \end{equation}

我们将SS称作特征向量矩阵，Λ\Lambda是特征值矩阵——这里使用大写的表示，因为小写的表示对角线上的特征值。

证明：将特征向量xix_i放在SS的列上，按列计算ASAS的：

AS=A⎡⎣⎢|x1||x2|⋯|xn|⎤⎦⎥⎡⎣⎢|λ1x1||λ2x2|⋯|λnxn|⎤⎦⎥

AS=A\begin{bmatrix} |&|&&|\\ x_1&x_2&\cdots&x_n\\ |&|&&| \end{bmatrix} \begin{bmatrix} |&|&&|\\ \lambda_1x_1&\lambda_2x_2&\cdots&\lambda_nx_n\\ |&|&&| \end{bmatrix}

然后技巧就是将最后一个矩阵分成两个矩阵的乘积SΛS\Lambda：

⎡⎣⎢λ1x1λ2x2⋯λnxn⎤⎦⎥=⎡⎣⎢x1x2⋯xn⎤⎦⎥⎡⎣⎢⎢⎢⎢⎢λ1λ2⋱λn⎤⎦⎥⎥⎥⎥⎥

\begin{bmatrix} &&&\\ \lambda_1x_1&\lambda_2x_2&\cdots&\lambda_nx_n\\ &&& \end{bmatrix}= \begin{bmatrix} &&&\\ x_1&x_2&\cdots&x_n\\ &&& \end{bmatrix} \begin{bmatrix} \lambda_1&&&\\ &\lambda_2&&\\ &&\ddots&\\ &&&\lambda_n \end{bmatrix}

这里关键的一点是矩阵要写在右侧，如果Λ\Lambda写在SS前面，那么λ1\lambda_1将和第一行进行乘积，但我们想λ1\lambda_1出现在第一列，鉴于此，SΛS\Lambda是正确的，所以

AS=SΛ,orS−1AS=Λ,orA=SΛS−1(2)

\begin{equation} AS=S\Lambda,\quad or\quad S^{-1}AS=\Lambda,\quad or\quad A=S\Lambda S^{-1}\tag2 \end{equation}

其中SS是可逆的，因为假设它的列(特征向量)是无关的。

在给出实例和应用之前，我们给出四点说明。

注解1：如果矩阵AA没有虫多特征值-λ1,…,λn\lambda_1,\ldots,\lambda_n是不同的，那么它的nn个特征值自然是无关的，因此任何特征值不同的矩阵可以被对角化。

注解2：对角化矩阵SS不是唯一的。因为特征向量xx 乘以一个常数后依然是特征向量，于是用任何非零常数乘以SS的列的到一个新的对角化矩阵SS，多重特征值有更大的自由度。对于平凡的例子A=IA=I，任何可逆矩阵SS都能是S−1ISS^{-1}IS是对角矩阵(λ\lambda就是II)，所有向量就是单位矩阵的特征向量。

注解3：其他矩阵SS不会得出对角矩阵Λ\Lambda。假设SS的第一列是yy，那么SΛS\Lambda的第一列是λ1y\lambda_1y，如果它和ASAS 的第一列相同，根据矩阵乘法它的第一列是AyAy，那么yy一定是特征向量，Ay=λ1yAy=\lambda_1y。SS中特征向量的顺序和Λ\Lambda中特征值的顺序自然是一样的。

注解4：并非所有的矩阵都有nn个线性无关的特征向量，所以并非所有的矩阵都可以对角化。考虑病态矩阵的一个标准例子

A=[0010]

A=\begin{bmatrix} 0&1\\ 0&0 \end{bmatrix}

特的特征值是λ1=λ2=0\lambda_1=\lambda_2=0，因为它是三角矩阵，并且对角元素为零：

det(A−λI)=det[−λ01−λ]=λ2

\det(A-\lambda I)=\det\begin{bmatrix} -\lambda&1\\ 0&-\lambda \end{bmatrix} =\lambda^2

AA的所有特征向量是向量(1,0)(1,0)的倍数：

[0010]x=[00],orx=[c0]

\begin{bmatrix} 0&1\\ 0&0 \end{bmatrix}x= \begin{bmatrix} 0\\ 0 \end{bmatrix},\quad or\quad x=\begin{bmatrix} c\\ 0 \end{bmatrix}

λ=0\lambda=0是二重特征值——它的代数重数是2，但是几何重数是1——只有一个无关的特征向量，所以我们不能构建SS。

对于AA不能对角化，这里还有一个更直接的证明。因为λ1=λ2=0\lambda_1=\lambda_2=0，Λ\Lambda肯定是一个零矩阵，但是如果S−1AS=0S^{-1}AS=0，那么我们左乘SS，右乘S−1S^{-1}，便得到A=0A=0。但是AA不等于0，所以SS不可逆。

无法对角化的原因不是因为λ=0\lambda=0，而是λ1=λ2\lambda_1=\lambda_2：

A=[3013]andA=[21−10]

A=\begin{bmatrix} 3&1\\ 0&3 \end{bmatrix} \quad and\quad A=\begin{bmatrix} 2&-1\\ 1&0 \end{bmatrix}

他们的特征值是3,3和1,1，但是是奇异的！问题在于特征向量不完备，这里再强调一下：

AA的对角化依赖于充分的特征向量。
AA的逆依赖于非零特征值。

对角化和逆没有联系，由特征值给出的唯一信息是：只有在特征值重复的时候，对角化才会失败。但是不总是会失败，A=IA=I的特征值就是重复的1,1,…\ldots,1，但是它已经是对角矩阵！这时候特征向量是完备的。

在特征值出现pp次重复的时候，需要检验是否有pp个无关的特征向量——也就是说，检验A−λIA-\lambda I的秩为n−pn-p，为了完成所有的想法，我们必须说明特征值不同的情况。

4、如果特征向量x1,…,xkx_1,\ldots,x_k对应不同的特征值λ1,…,λk\lambda_1,\ldots,\lambda_k，那么这些特征向量就是线性无关的。

首先假设k=2k=2，并且x1,x2x_1,x_2的组合是零：c1x1+c2x2=0c_1x_1+c_2x_2=0，用AA进行相乘，可以得到c1λ1x1+c2λ2x2=0c_1\lambda_1x_1+c_2\lambda_2x_2=0，用此方程减去前面方程的λ2\lambda_2倍，可以消去向量x2x_2：

c1(λ1−λ2)x1=0

c_1(\lambda_1-\lambda_2)x_1=0

因为λ1≠λ2\lambda_1\neq\lambda_2并且x1≠0x_1\neq 0，我们得出c1=0c_1=0，同样我们可以得到c2=0c_2=0，所以两个向量是无关的；因为只有平凡组合才能得出零。

这个论证可以扩展到任意个特征向量的情况：如果某个组合产生零，那么用AA 去乘然后减去原组合的λk\lambda_k倍，xkx_k消失了，只留下x1,…,xk−1x_1,\ldots,x_{k-1}为零的组合。重复相同的步骤(这就是数学归纳法)，最终我们会得到x1x_1的倍数等于零，所以c1=0c_1=0，从而每个ci=0c_i=0，于是来自不同特征值的特征向量自然线性无关。

有nn个不同特征值的矩阵可以被对角化，下面给出一个典型的例子。

对角化实例

这部分主要是S−1AS=AS^{-1}AS=A，特征向量矩阵SS将AA变成特征值矩阵Λ\Lambda(对角的)，现在我们来看一下投影和旋转矩阵。

例1：投影矩阵

⎡⎣⎢⎢12121212⎤⎦⎥⎥

\begin{bmatrix} \frac{1}{2}&\frac{1}{2}\\ \frac{1}{2}&\frac{1}{2} \end{bmatrix}

特征值矩阵为

Λ=[1000]

\Lambda=\begin{bmatrix} 1&0\\ 0&0 \end{bmatrix}

将特征向量放入SS的列中得：

S=[111−1]andAS=SΛ=[1100]

S= \begin{bmatrix} 1&1\\ 1&-1 \end{bmatrix}\quad\text{and}\quad AS=S\Lambda= \begin{bmatrix} 1&0\\ 1&0 \end{bmatrix}

因此S−1AS=ΛS^{-1}AS=\Lambda。

例2：对于旋转而言，特征值不是很明显：

90∘旋转K=[01−10]

90^{\circ}\text{旋转}\quad K= \begin{bmatrix} 0&-1\\ 1&0 \end{bmatrix}

可以得出det(K−λI)=λ2+1\det(K-\lambda I)=\lambda^2+1。一个向量旋转后怎样才会保持方向不变呢？很显然，除了零向量外(然而它是没用的)不可能有向量如此，但是必须由特征值，我们必须求解du/dt=Kudu/dt=Ku，特征多项式λ2+1\lambda^2+1依然有两个根—— 但是这些根不是实值而已。

基于上面的提示，我们找到了出路，KK的特征值是虚数，λ1=i,λ2=−i\lambda_1=i,\lambda_2=-i，从而看出特征值可以是非实的。这似乎很神奇，旋转九十度后他们乘以ii或者−i-i：

(K−λ1I)x1=[−i1−1−i][yz]=[00]andx1=[1−i](K−λ2I)x2=[i1−1i][yz]=[00]andx1=[1i]

\begin{align*} &(K-\lambda_1I)x_1=\begin{bmatrix} -i&-1\\ 1&-i \end{bmatrix} \begin{bmatrix} y\\ z \end{bmatrix}= \begin{bmatrix} 0\\ 0 \end{bmatrix} \quad\text{and}\quad x_1=\begin{bmatrix} 1\\ -i \end{bmatrix}\\ &(K-\lambda_2I)x_2=\begin{bmatrix} i&-1\\ 1&i \end{bmatrix} \begin{bmatrix} y\\ z \end{bmatrix}= \begin{bmatrix} 0\\ 0 \end{bmatrix} \quad\text{and}\quad x_1=\begin{bmatrix} 1\\ i \end{bmatrix}\\ \end{align*}

即便特征值是虚数，但他们是不同的并且特征值是无关的。将他们放到SS中：

S=[1−i1i]andS−1KS=[i00−i]

S=\begin{bmatrix} 1&1\\ -i&i \end{bmatrix}\quad\text{and}\quad S^{-1}KS=\begin{bmatrix} i&0\\ 0&-i \end{bmatrix}

我们面临着一个不可避免的事实，即使是实数矩阵，依然需要复数。如果实特征值很少，那么总是存在nn个复特征值。(当虚部为零时，复数包括实数)如果R3,RnR^3,R^n中实特征向量很少时，我们就考虑C3,CnC^3,C^n，CnC^n空间包含有复元素的所有列向量并且长度，内积与正交有新的定义，但是确比RnR^n简单。

幂和乘 :Ak,ABA^k,AB

这里将解一个计算比较简单的情况。A2A^2的特征值是λ21,…,λ2n\lambda_1^2,\ldots,\lambda_n^2，并且AA的特征向量也是A2A^2的特征向量，我们先从Ax=λxAx=\lambda x 开始，然后乘以AA：

A2x=Aλx=λAx=λ2x(3)

\begin{equation} A^2x=A\lambda x=\lambda Ax=\lambda^2x\tag3 \end{equation}

因此λ2\lambda^2是A2A^2的特征值，并且有相同的特征向量xx。如果第一次乘以AA后留下的xx方向未变，那么第二次同样如此。

利用对角化可以得到相同的结论，将S−1AS=ΛS^{-1}AS=\Lambda平方:

(S−1AS)(S−1AS)=Λ2orS−1A2S=Λ2

(S^{-1}AS)(S^{-1}AS)=\Lambda^2\quad or\quad S^{-1}A^2S=\Lambda^2

矩阵A2A^2被相同的SS对角化，所以特征向量不变。特征值是原来的进行平方，这个结论对任意AA的幂次都成立：

5、AkA^k的特征值是λk1,…,λkn\lambda_1^k,\ldots,\lambda_n^k并且AA的每个特征向量依然是AkA^k的特征向量。当SS对角化AA时，它也对角化AkA^k：

λk=(S−1AS)(S−1AS)⋯(S−1AS)=S−1AkS(4)

\begin{equation} \lambda_k=(S^{-1}AS)(S^{-1}AS)\cdots(S^{-1}AS)=S^{-1}A^kS\tag4 \end{equation}

除了第一个S−1S^{-1}和最后一个SS外，每一个S−1S^{-1}都消掉一个SS。

如果AA是可逆的，这个规则也可以应用到它的逆上(幂k=−1k=-1)，A−1A^{-1}的特征值是1/λi1/\lambda_i，这个结果即使未对角化也能看出来：

如果Ax=λx那么x=λA−1x并且1λx=A−1x

\text{如果}Ax=\lambda x\text{那么}x=\lambda A^{-1}x\text{并且}\frac{1}{\lambda}x=A^{-1}x

例3：如果KK表示旋转90∘90^{\circ}，那么K2K^2 表示旋转180∘180^{\circ}(也就是−I-I)并且K−1K^{-1} 表示旋转−90∘-90^{\circ}：

K=[01−10],K2=[−100−1],K−1=[0−110]

K=\begin{bmatrix} 0&-1\\ 1&0 \end{bmatrix},\quad K^2=\begin{bmatrix} -1&0\\ 0&-1 \end{bmatrix},\quad K^{-1}=\begin{bmatrix} 0&1\\ -1&0 \end{bmatrix}

KK的特征值是i,−ii,-i；他们的平方是-1和-1；他们的倒数是1/i=−i,1/(−i)=i1/i=-i,1/(-i)=i，那么K4K^4就是旋转360∘360^{\circ}:

K4=[1001],Λ4=[i400(−i)4]=[1001]

K^4=\begin{bmatrix} 1&0\\ 0&1 \end{bmatrix},\quad \Lambda^4=\begin{bmatrix} i^4&0\\ 0&(-i)^4 \end{bmatrix}= \begin{bmatrix} 1&0\\ 0&1 \end{bmatrix}

对于两个矩阵的乘积，我们可能希望它与ABAB的特征值有关—— 但是事与愿违，尝试用同样的推理似乎非常诱人，可是一般情况下这不是真的。如果λ\lambda 是AA的特征值，μ\mu是BB 的特征值，这里给出一个ABAB等于μλ\mu\lambda的错误证明：

ABx=Aμx=μAx=μλx

ABx=A\mu x=\mu Ax=\mu\lambda x

错误的原因在于认为A,BA,B有相同的特征向量xx，一般情况下，他们是不相等的，这里我们给出两个特征值为0的矩阵：

AB=[0010][0100]=[1000]

AB=\begin{bmatrix} 0&1\\ 0&0 \end{bmatrix} \begin{bmatrix} 0&0\\ 1&0 \end{bmatrix} =\begin{bmatrix} 1&0\\ 0&0 \end{bmatrix}

A,BA,B的特征向量完全不同。同理，A+BA+B的特征值和λ+μ\lambda+\mu也没有关系。

上面错误的表明了哪些是对的，如果A,BA,B的特征向量一样，那么特征值就是他们的乘积μλ\mu\lambda。但是还有更重要的，这提供了一种识别A,BA,B是否共享同一特征向量集合的方法，这在量子力学中是非常关键的问题。

6、当且仅当AB=BAAB=BA时，对角化矩阵有相同的特征向量矩阵SS。

证明：如果同样的SS对角化得A=SΛ1S−1,B=SΛ2S−1A=S\Lambda_1S^{-1},B=S\Lambda_2S^{-1}，那么我们用两种顺序相乘得：

AB=SΛ1S−1SΛ2S−1=SΛ1Λ2S−1, BA=SΛ2S−1SΛ1S−1=SΛ2Λ1S−1

AB=S\Lambda_1S^{-1}S\Lambda_2S^{-1}=S\Lambda_1\Lambda_2S^{-1},\ BA=S\Lambda_2S^{-1}S\Lambda_1S^{-1}=S\Lambda_2\Lambda_1S^{-1}

因为Λ1Λ2=Λ2Λ1\Lambda_1\Lambda_2=\Lambda_2\Lambda_1(对角矩阵满足交换律)，所以我们有AB=BAAB=BA。

反过来，假设AB=BAAB=BA，从Ax=λxAx=\lambda x开始，我们有

ABx=BAx=Bλx=λBx

ABx=BAx=B\lambda x=\lambda Bx

所以x,Bxx,Bx都是AA的特征向量，他们共享λ\lambda。为了方便如果我们假设AA的特征值是不同的——特征空间总是一维的——那么BxBx肯定是xx的倍数，换句或说xx是B,AB,A的特征向量。对于有相同特征值得证明有点长，这里从略。

海森伯格不确定性原则来非交换矩阵，像位置PP和动量QQ。位置是对称的，动量是斜对称的并且他们都满足QP−PQ=IQP-PQ=I，不确定性原则直接来此施瓦兹不等式(Qx)T(Px)≤∥Qx∥∥Px∥(Qx)^{T}(Px)\leq\Vert Qx\Vert\Vert Px\Vert:

∥x∥2=xTx=xT(QP−PQ)x≤2∥Qx∥∥Px∥

\Vert x\Vert^2=x^{T}x=x^{T}(QP-PQ)x\leq2\Vert Qx\Vert\Vert Px\Vert

∥Qx∥/∥x∥\Vert Qx\Vert/\Vert x\Vert与∥Px∥/∥x∥\Vert Px\Vert/\Vert x\Vert的乘积——动量和位置误差(当波函数是xx时)——最小是12\frac{1}{2}，我们无法让两者误差都变小，因为当我们试着度量粒子的位置时我们已经改变了它的动量。

最后我们回到A=SΛS−1A=S\Lambda S^{-1}，这个分解非常适合取AA 的幂，我们用最简单的例子A2A^2进行说明，在平方的情况下LULU分解完全没办法，但是SΛS−1S\Lambda S^{-1}确非常完美，它的平方是SΛ2S−1S\Lambda^2S^{-1}并且特征向量不变。利用这些特征向量，我们将解决微分方程与差分方程。

漫步线性代数二十七——矩阵对角化相关推荐

漫步线性代数二——线性方程的几何形状
漫步线性代数二--线性方程的几何形状 2016年08月15日 23:10:10 会敲键盘的猩猩阅读数:1818 几何形状理解这个主题的方法是举例说明.我们以两个极其简单的方程开始,可以说大家在没有 ...
漫步线性代数七——特殊矩阵和应用
本篇文章有两个目标.第一是解释实际问题中大型线性方程组Ax=bAx=b的一种解法,事实是,工程或经济学中大型和现实的问题能够引导我们更深入理解这些知识.但是有一个很重要应用却不需要大量的准备工作. 另 ...
漫步线性代数二十六——特征值和特征向量（续）
上面展示了当求解du/dt=Audu/dt=Au时,如何自然而然的引出特征值λ\lambda和特征向量xx,这样的一个方程有纯指数解u=eλtxu=e^{\lambda t}x:特征值给出了增长或衰减 ...
漫步线性代数二十五——特征值和特征向量
之后的文章开始介绍线性代数的后半部分.线性代数的前半部分几乎都涉及到Ax=bAx=b,从现在起我们将通过化简矩阵(尽可能变成对角矩阵)来求解新问题Ax=λxAx=\lambda x,基本的步骤已经不是 ...
漫步线性代数二十四——行列式应用
本篇文章介绍四个应用:AA的逆,求解Ax=bAx=b,盒子的体积以及主元.他们都是线性代数里面非常关键的计算,而行列式给出了这些答案的公式. 1.计算A−1A^{-1}.2×22\times 2矩阵展 ...
漫步线性代数二十一——行列式引言
在一百年前,行列式不是线性代数的中心,但是数学的方向一直在变换!毕竟,仅仅一个数就能告诉我们许多矩阵的信息. 对行列式的一种理解是:它对A−1,A−1bA^{-1},A^{-1}b的每一项给出了明确的 ...
线性代数二之矩阵加速DP——数学作业，Arc of Dream
矩阵加速数学作业 description solution code Arc of Dream description solution code 数学作业 description solution ...
漫步线性代数二十三——行列式公式
第一个公式上篇文章已经出现了,行操作得到DD中的主元: 1.如果AA是可逆的,那么PA=LDUPA=LDU并且detP=±1\det P=\pm 1.乘积法则得出 detA=±detLdetDdetU ...
漫步线性代数二十二——行列式性质
行列的性质比较多,不过幸运的是,每条性质都很容易理解,甚至用2×22\times 2的例子进行图解会更加容易,因此我们将用2×22\times 2的情况来证实这些定义, det[acbd]=∣∣∣ac ...

漫步线性代数二十七——矩阵对角化

对角化实例

幂和乘 :Ak,ABA^k,AB

漫步线性代数二十七——矩阵对角化相关推荐

最新文章

热门文章