笔记：线性代数的本质

本为观看 3Blue1Brown 制作的《线性代数的本质》(Essense of Linear Algebra) 系列视频的笔记，记录于此帮助自己及他人理解线性代数。

b站地址：https://www.bilibili.com/video/BV1rs411k7ru/?spm_id_from=333.788.videocard.6
youtube 地址：https://www.youtube.com/watch?v=kjBOesZCoqc

一、线性变换

线性变换：1. 直线在变换后仍保持为直线，不能有所弯曲（Lines remain lines）或者说原空间中的网格线在变换后仍然等距且平行；2. 原点必须固定。

线性降维：使用线性变换的方式进行的降维方法。所有线性降维，都满足线性变换的两个性质，即新的坐标轴是通过原坐标轴平移、伸缩、旋转得到，而不能对原坐标轴扭曲。

线性相关：几何概念 1：当有多个向量时，移除其中一个而不减小张成空间的维度，则称这几个向量之间线性相关。几何概念 2：其中一个向量可以表示为其他向量的线性组合，因为这个向量已经落在其他向量张成的空间中，则称这几个向量线性相关。

线性无关：几何概念：如果所有向量都给张成的空间增添了新的维度，则称这些向量之间是线性无关的。向量空间的一个基是张成该空间的一个线性无关向量集。

线性函数：如果我们将函数视为变换，输入视为原空间向量，输出为新空间中向量，则线性函数满足输入为等差数列时，输出维持等差数列，即原空间中的网格线在变换后仍然等距且平行。严格的定义为函数满足：L(v+w)=L(v)+L(w),L(cv)=cL(v)L(v +w) = L(v) + L(w),L(cv) = cL(v)L(v+w)=L(v)+L(w),L(cv)=cL(v)时，称此函数为线性函数。

矩阵：可以理解为对向量空间的线性变换，其中矩阵中的列向量为原空间中的基向量对应的变换后空间中的向量。
为什么矩阵可以这样理解？

线性变换是对空间中任意向量施加以相同的操作
空间中任意向量都可以通过基向量及比例来描述

所以可以通过描述基的变换实现对空间中任意向量变换的描述，即整个空间变换的描述。如原向量 v⃗=[−12]=−1i⃗+2j⃗=[i⃗j⃗][−12]\vec{v}=\begin{bmatrix} -1 \\ 2 \end{bmatrix}=-1\vec{i}+2\vec{j}=\begin{bmatrix} \vec{i} & \vec{j} \end{bmatrix}\begin{bmatrix} -1 \\ 2 \end{bmatrix}v=[−12]=−1i+2j=[ij][−12] 在线性变换后依然满足 vtransformed⃗=−1(itransformed⃗)+2(jtransformed⃗)=[itransformed⃗jtransformed⃗][−12]\vec{v_{transformed}}=-1(\vec{i_{transformed}})+2(\vec{j_{transformed}})=\begin{bmatrix} \vec{i_{transformed}} & \vec{j_{transformed}} \end{bmatrix}\begin{bmatrix} -1 \\ 2 \end{bmatrix}vtransformed=−1(itransformed)+2(jtransformed)=[itransformedjtransformed][−12]。如果基向量i⃗=[10],j⃗=[01]\vec{i}=\begin{bmatrix} 1 \\ 0 \end{bmatrix},\vec{j}=\begin{bmatrix} 0 \\ 1 \end{bmatrix}i=[10],j=[01]，矩阵[i⃗j⃗]=[1001]\begin{bmatrix} \vec{i} & \vec{j} \end{bmatrix}=\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}[ij]=[1001]，向量v⃗(−1,2)=[1001][−12]\vec{v}(-1, 2)=\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}\begin{bmatrix} -1 \\ 2\end{bmatrix}v(−1,2)=[1001][−12]。现在我们对空间进行线性变换，方式为基向量在原有方向上延长2倍，即新基向量在原有坐标系下的描述为 inew⃗(2,0),jnew⃗(0,2)\vec{i_{new}}(2, 0),\vec{j_{new}}(0, 2)inew(2,0),jnew(0,2)，矩阵形式为 [2002],vtransformed⃗(−2,4)=[2002][−12]=[−24]\begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix},\vec{v_{transformed}}(-2,4)=\begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix}\begin{bmatrix} -1 \\ 2\end{bmatrix}=\begin{bmatrix} -2 \\ 4\end{bmatrix}[2002],vtransformed(−2,4)=[2002][−12]=[−24]。将原向量与变换后的基向量组成的矩阵相乘，得到变换后向量在原坐标系下的坐标。所以我们可以使用变换后的基向量组成的矩阵表示空间的线性变换。

变换与函数同义，都是对输入向量进行特定的操作后得到输出向量，变换只是函数的一个花哨的说法，但为何使用变换而不是使用函数？使用函数不是更让人理解吗？使用变换是希望我们以运动的角度来理解坐标的改变，而不是仅作为一个数学公式。

线性变换复合（Composition）：多个线性变换相继作用，用矩阵表示为多个矩阵连乘。需要注意的是，复合变换的先后顺序是按照相乘矩阵的从右至左的顺序进行。这一点类似与函数的嵌套，如 f(g(x))f(g(x))f(g(x)) 也是从右至左进行。若矩阵相乘的顺序发生了变化，空间变换的结果可能是不一样的（详见视频），所以矩阵相乘不满足乘法交换率。但矩阵相乘满足乘法结合率 A(BC)=(AB)CA(BC)=(AB)CA(BC)=(AB)C，因为无论怎样都是按照固定的操作进行变换。

二、行列式

The purpose of computation is insight, not numbers.
计算的目的不在于数字本身，而在于洞察其背后的意义。

以下结论均是建立在原空间为二维空间的基础上进行：

空间线性变换对原空间中面积产生改变的比例，被称为这个变换的行列式。 如线性变换 [3222]\begin{bmatrix} 3&2 \\ 2&2 \end{bmatrix}[3222]，使原空间中图形的面积变为原来的 6 倍，则 [3222]\begin{bmatrix} 3&2 \\ 2&2 \end{bmatrix}[3222] 的行列式为 6，即 det([3222])=6det(\begin{bmatrix} 3&2 \\ 2&2 \end{bmatrix}) = 6det([3222])=6 。理解行列式的几何意义，远比学会计算行列式重要的多。
行列式也可以用于求解两个向量所围成的平行四边形的面积。 如向量 e⃗=[ab],f⃗=[cd]\vec{e}=\begin{bmatrix} a \\ b \end{bmatrix}, \vec{f}=\begin{bmatrix} c \\ d \end{bmatrix}e=[ab],f=[cd] 围成的平行四边形面积等于det([acbd])det(\begin{bmatrix} a&c \\ b&d \end{bmatrix})det([abcd]) 。因为求向量 e⃗,f⃗\vec{e},\vec{f}e,f 围成图形的面积可以通过将基向量 i⃗,j⃗\vec{i}, \vec{j}i,j 通过线性变换矩阵 [acbd]\begin{bmatrix} a&c\\ b&d \end{bmatrix}[abcd] 转化为 e⃗,f⃗\vec{e},\vec{f}e,f，已知 i⃗,j⃗\vec{i}, \vec{j}i,j 围成图形的面积为 111， [acbd]=λ\begin{bmatrix} a&c\\ b&d \end{bmatrix}=λ[abcd]=λ，则 e⃗,f⃗\vec{e},\vec{f}e,f 围成图形的面积为 λλλ，即为行列式的值。
线性变换矩阵的行列式为 0 时，说明变换将原空间进行了降维。 行列式为 0 说明原空间中的图形面积经过线性变换后被压缩为 0，这种情况仅当原空间被降维时才会发生。如 1 维空间降至 0 维时长度为 0，2 维空间降至 1、0 维时面积均为0，三维空间降至 2、1、0 维时体积均为0。
线性变换矩阵的行列式为 0 时，说明矩阵内列向量间存在线性相关。 空间变换前后列向量的数量是不变的，但变换后的空间维度发生了降低，空间维度小于列向量数，说明可以移除其中一个向量而不减小张成空间的维度，或者说有向量落在了由其他向量张成的空间中，即矩阵内列向量间存在线性相关。
行列式的负值表示线性变换对空间进行了翻转。 如果将二维空间比作一张纸，面向你的称为正面，背向你的称为反面，行列式为负表示将纸进行了翻转，使纸的反面面向你，而纸的正面背向你。行列式的正负号表示取向，绝对值表示伸缩比例。一种不用计算行列式即可判断空间是否发生翻转的方法为观察空间基向量 i⃗,j⃗\vec{i}, \vec{j}i,j 的相对位置关系是否发生变化，如果原空间中 i⃗\vec{i}i 移动到 j⃗\vec{j}j 变换的角度为正，而新空间中 i⃗\vec{i}i 移动到 j⃗\vec{j}j 变换的角度为负，则空间发生了翻转。
行列式的计算公式为 det([acbd])=ad–bcdet(\begin{bmatrix} a&c \\ b&d \end{bmatrix})= ad – bcdet([abcd])=ad–bc，几何意义如下图所示

det(M1M2) = det(M1)det(M2)。无论是将变换分为几步，变换的结果是恒定的，即面积最终的改变比例是恒定的。而每次变换都是在上次变换后空间的基础上进行的，所以是叠乘的关系，如第一次变换使空间中图形面积增加1倍，第二次增加2倍，所以总共增加1×2×3-1=5倍。
行列式可以用于判断方程组是否有解、解是否唯一。 设有如下方程组 {2i+5j+3k=−34i+0j+8k=01i+3j+0k=2\begin{cases}2i+5j+3k=-3 \\4i+0j+8k=0 \\1i+3j+0k=2 \end{cases}⎩⎪⎨⎪⎧2i+5j+3k=−34i+0j+8k=01i+3j+0k=2 ，用矩阵的形式表示为[253403130]⋅[ijk]=[−302]\begin{bmatrix} 2&5&3 \\ 4&0&3 \\ 1&3&0 \end{bmatrix} \cdot \begin{bmatrix} i \\ j \\ k \end{bmatrix}=\begin{bmatrix} -3 \\0\\2 \end{bmatrix}⎣⎡241503330⎦⎤⋅⎣⎡ijk⎦⎤=⎣⎡−302⎦⎤，将[253403130]\begin{bmatrix} 2&5&3 \\ 4&0&3 \\ 1&3&0 \end{bmatrix}⎣⎡241503330⎦⎤ 记为 AAA，未知量矩阵记为 x⃗\vec{x}x，结果矩阵记为 v⃗\vec{v}v，上述方程组可以写为 Ax⃗=v⃗A\vec{x} =\vec{v}Ax=v，可以理解为向量 x⃗\vec{x}x 在线性变换矩阵 AAA 的作用下得到了向量 v⃗\vec{v}v。现在我们来想象两种情况：
```
  (1) 线性变换矩阵 A 对原空间降维， A 的行列式为 0，det(A) = 0；(2) A对原始空间不降维， A 的行列式不为 0， det(A) ≠ 0。
```
我们已知线性变换矩阵 AAA 和向量 v⃗\vec{v}v，求解向量 x⃗\vec{x}x，即已知线性变换和变换后的新向量，求原向量。那么我们对新向量进行逆线性变换，就可以得到原向量。若逆线性变换 AAA 用 A−1A^{-1}A−1 表示，称为原矩阵 AAA 的逆，有 x⃗=A−1v⃗\vec{x} = A^{-1}\vec{v}x=A−1v。如矩阵 AAA 代表将二维空间旋转 90 度，那么逆矩阵 A−1A^{-1}A−1 代表将二维空间旋转 -90 度。所以如果知道线性变换 AAA 的逆变换，就可以根据 v⃗\vec{v}v 求解 x⃗\vec{x}x 。那么什么情况下 AAA 存在逆？或者说什么情况下 AAA 不存在逆？若 AAA 不存在逆，说明无法将新空间变换回旧空间。我们知道“变换”与“函数”同义，所以新空间无法变换成旧空间也可以说成不存在函数将新空间中的向量映射到旧空间中，即不存在反函数。当新空间中的一个向量可以匹配多个（或无数个）旧空间中向量时，我们无法找到一种线性变换矩阵将新空间中的向量映射回旧空间。那么什么情况下新空间中的一个向量可以匹配多个（或无数个）旧空间中向量？答案是降维。降维使被降维度上原先的所有向量被压缩为一个向量。所以当 AAA 的行列式为 0 时，AAA 不存在逆矩阵， x⃗\vec{x}x 不存在唯一解。还有一种情况会使得 x⃗\vec{x}x 无法求解—— v⃗\vec{v}v 不在矩阵 AAA 列向量所构成的空间中。此时任意 x⃗\vec{x}x 都无法经过矩阵 AAA 的变换后得到向量 v⃗\vec{v}v ， x⃗\vec{x}x 不存在解。综上，当 v⃗\vec{v}v 不在矩阵 AAA 列向量所构成的空间中，x⃗\vec{x}x 无解；当 v⃗\vec{v}v 在矩阵 AAA 列向量所构成的空间中，若 det(A)=0det(A)=0det(A)=0，x⃗\vec{x}x 无穷多解，若 det(A)≠0det(A)≠0det(A)=0，x⃗\vec{x}x 解唯一）。

PS：

列向量所构成的空间称之为列空间，矩阵A中列向量所构成的空间称为A的列空间。常用秩表示变换后空间的维数，即为矩阵列空间的维数。当列空间的维数与原空间的维数相等时，我们称矩阵 AAA 为满秩， det(A)≠0det(A)≠0det(A)=0 。当矩阵不满秩时，说明矩阵列向量间存在线性相关。
通过几何概念，可以理解当 AAA 为 M×N 的矩阵时，AAA 的秩小于等于 min{M,N}min\{M, N\}min{M,N}。因为秩为列空间的维数，若 M>N，列空间基向量至多 N 个，当基向量不相关时列空间的维数达到最大，秩小于等于 N；若 M<N，列空间是 N 个 M 维的基向量组成的空间，基向量只能在 M 维中运动，所以基向量所构建的空间至多 M 维，即秩小于等于 M；综上秩小于等于 min{M,N}min\{M, N\}min{M,N}。
设 v⃗\vec{v}v 是原空间中一个随机向量，如果 AAA 的列向量所构成的空间维度越小，则 v⃗\vec{v}v 处于 AAA 的列空间内的概率越小，即 x⃗\vec{x}x 存在解的概率越小。
当一个空间连续经过线性变换及其逆变换时，空间保持不变，有 AA−1x⃗=x⃗AA^{-1}\vec{x} = \vec{x}AA−1x=x 或 A−1Ax⃗=x⃗A^{-1}A\vec{x} = \vec{x}A−1Ax=x，有 AA−1=AA^{-1} =AA−1= 原空间基向量矩阵 [1001]\begin{bmatrix} 1&0\\ 0&1 \\ \end{bmatrix}[1001]，一般将元素均为 1 的对角矩阵称为单位矩阵，记为 III，有 AA−1=IAA^{-1} = IAA−1=I。
上面讨论内容中线性变换矩阵 AAA 均为方阵，那么 AAA 为非方阵时的几何意义是什么？它所代表的线性变换又是怎样的呢？如矩阵 AAA 为 3×2 且秩为 2，表示变换后 2 个基向量组成的空间为一个嵌入在三维空间中的二维平面。若矩阵 AAA 为 2×3 且秩为2，表示变换后的 3 个列向量组成的空间为二维平面，列向量间存在线性相关。

三、点积

[ac]⋅[bd]=ab+cd\begin{bmatrix} a \\ c \end{bmatrix} \cdot \begin{bmatrix} b \\d \end{bmatrix}=ab+cd[ac]⋅[bd]=ab+cd

如果想将二维空间中任意向量 a⃗\vec{a}a 投影到另一个向量 b⃗\vec{b}b 上应该怎么操作？
∵\because∵ 原空间中的网格线在投影后仍然等距且平行
∴\therefore∴ 投影可以视为一种线性变换，问题等价于找到一个线性变换矩阵 AAA 将二维空间转换为一维空间，且向量 b⃗\vec{b}b 正好落在此一维空间中。问题转变为：如何设计这个矩阵 AAA ？
∵\because∵ 矩阵 AAA 是将 2 维空间转换为 1 维空间
∴\therefore∴ 矩阵的形式为 1×2，即为 [AiAj]\begin{bmatrix} A_i &A_j \end{bmatrix}[AiAj] ，其中 Ai⃗,Aj⃗\vec{A_i},\vec{A_j}Ai,Aj 为原 2 维空间中基向量 i⃗,j⃗\vec{i},\vec{j}i,j 经转换后在 1 维空间中对应的向量。
∵\because∵ 线性变换中任意向量 a⃗\vec{a}a 与基向量的对应关系在变换前后是保持不变的，如变换前 a⃗=4i⃗+3j⃗\vec{a} = 4\vec{i} + 3\vec{j}a=4i+3j，变换后 a⃗=4itransformed⃗+3jtransformed⃗\vec{a} = 4\vec{i_{transformed}} + 3\vec{j_{transformed}}a=4itransformed+3jtransformed
∴\therefore∴ 只要 Ai⃗,Aj⃗\vec{A_i},\vec{A_j}Ai,Aj 是原空间中基向量 i⃗,j⃗\vec{i},\vec{j}i,j 在向量 b⃗\vec{b}b 上的投影，那么原空间中任意向量 a⃗\vec{a}a 经过矩阵 AAA 的转换都将是在向量 b⃗\vec{b}b 上的投影。常将矩阵 BBB 称为投影矩阵（Projection Matrix）
设向量 b⃗\vec{b}b 的单位向量为 u⃗\vec{u}u ，对 i⃗,j⃗\vec{i},\vec{j}i,j 的投影为 ux,uyu_x,u_yux,uy，
∵\because∵ 对称性， i⃗,j⃗\vec{i},\vec{j}i,j 在向量 u⃗\vec{u}u 上的投影与向量 u⃗\vec{u}u 在 i⃗,j⃗\vec{i},\vec{j}i,j 上的投影长度相等
∴i⃗,j⃗\therefore \vec{i},\vec{j}∴i,j 在单位向量 u⃗\vec{u}u 上的投影也为 ux,uyu_x,u_yux,uy，即Ai⃗=[ux],Aj⃗=[uy]\vec{A_i} = \begin{bmatrix}u_x\end{bmatrix}, \vec{A_j} =\begin{bmatrix}u_y\end{bmatrix}Ai=[ux],Aj=[uy]，线性变换矩阵 A=[uxuy]A=\begin{bmatrix}u_x & u_y\end{bmatrix}A=[uxuy]。
∴\therefore∴ 二维空间中任意向量 a⃗\vec{a}a 投影到另一个向量 b⃗\vec{b}b 上的变换为[uxuy][axay]=axux+ayuy\begin{bmatrix}u_x & u_y\end{bmatrix}\begin{bmatrix}a_x \\ a_y\end{bmatrix}= a_xu_x + a_yu_y[uxuy][axay]=axux+ayuy
∵\because∵ 向量 b⃗\vec{b}b 与向量 u⃗\vec{u}u 存在与同一条直线上，有 b⃗=λu⃗\vec{b} =λ\vec{u}b=λu
若线性变换矩阵B=[λuxλuy]=[bxby]B=\begin{bmatrix}λu_x&λu_y\end{bmatrix}=\begin{bmatrix}b_x&b_y\end{bmatrix}B=[λuxλuy]=[bxby]，则有 [bxby][axay]=λ[uxuy][axay]=\begin{bmatrix}b_x&b_y\end{bmatrix}\begin{bmatrix}a_x\\a_y\end{bmatrix} =λ \begin{bmatrix}u_x&u_y\end{bmatrix}\begin{bmatrix}a_x\\a_y\end{bmatrix}=[bxby][axay]=λ[uxuy][axay]= 向量 a⃗\vec{a}a 在 b⃗\vec{b}b 上的投影乘以 λλλ 倍=λ(uxax+uyay)=axbx+ayby=[axay]⋅[bxby]=λ(u_xa_x+u_ya_y)=a_xb_x + a_yb_y=\begin{bmatrix} a_x \\ a_y \end{bmatrix} \cdot \begin{bmatrix} b_x \\b_y \end{bmatrix}=λ(uxax+uyay)=axbx+ayby=[axay]⋅[bxby]，与向量 a⃗\vec{a}a 点积向量 b⃗\vec{b}b 的结果一致
∴\therefore∴ 点积的几何意义为向量 a⃗\vec{a}a 对向量 b⃗\vec{b}b 投影的模与向量 b⃗\vec{b}b 的模相乘，即点积还可以通过 ∣a∣∣b∣cosθ|a||b|cosθ∣a∣∣b∣cosθ 来计算

启发：无论何时看到一个二维（多维）到一维的线性变换，在原空间中都可以找到一个向量与这个变换所对应，这个向量即为这个变换的转置。

四、基变换

在同一个空间中，向量 y⃗\vec{y}y 在不同的坐标系（基）下有不同的表示结果。如在基向量 i⃗(1,0),j⃗(0,1)\vec{i} (1, 0), \vec{j}(0, 1)i(1,0),j(0,1) 的空间中， y⃗\vec{y}y 的表示结果为 (2,2)(2, 2)(2,2)；同样的 y⃗\vec{y}y 在基向量 k⃗(2,0),l⃗(0,2)\vec{k} (2, 0), \vec{l}(0, 2)k(2,0),l(0,2) 的空间中则表示为 (1,1)(1, 1)(1,1)。那么这两者之间如何转换呢？即已知向量 x⃗\vec{x}x 在一种基向量下的表示以及两种基向量间的变换规则，如何推出在另一种基向量下的表示？

设基向量 i⃗,j⃗\vec{i}, \vec{j}i,j 变换为 k⃗,l⃗\vec{k}, \vec{l}k,l 的线性变换规则矩阵为 AAA，有 Ai⃗=k⃗、i⃗=A−1k⃗、Aj⃗=l⃗、j⃗=A−1l⃗A\vec{i} = \vec{k}、\vec{i} = A^{-1}\vec{k}、A\vec{j} = \vec{l}、\vec{j} = A^{-1}\vec{l}Ai=k、i=A−1k、Aj=l、j=A−1l。设向量 x⃗\vec{x}x 在基向量 i⃗,j⃗\vec{i}, \vec{j}i,j 下的表示为 (a,b)(a, b)(a,b)，有 x⃗=ai⃗+bj⃗=A−1(ak⃗+bl⃗)\vec{x} = a\vec{i} + b\vec{j} = A^{-1} (a\vec{k} + b\vec{l})x=ai+bj=A−1(ak+bl)。将在基向量 k⃗,l⃗\vec{k}, \vec{l}k,l 下表示为 (a,b)(a, b)(a,b) 的向量记为 y⃗\vec{y}y ，经过矩阵A−1A^{-1}A−1变换后得到向量 x⃗\vec{x}x 。我们知道原空间中向量经过变换后得到的向量是用原空间中的基向量来描述的，所以上面的向量x是用基向量 k⃗,l⃗\vec{k}, \vec{l}k,l 来描述的。综上，利用不同组基之间的线性变化矩阵，可以推导出相同向量在不同基下的描述。

试问 A−1MAx⃗A^{-1}MA\vec{x}A−1MAx表示的是什么几何意义的线性变换？设矩阵 AAA 为基向量 i⃗(1,0),j⃗(0,1)\vec{i} (1, 0), \vec{j}(0, 1)i(1,0),j(0,1) 转换为基向量 k⃗,l⃗\vec{k}, \vec{l}k,l 的线性变换矩阵，Ax⃗A\vec{x}Ax表示将向量 x⃗\vec{x}x 以基向量 k⃗,l⃗\vec{k}, \vec{l}k,l 描述转变为以 i⃗,j⃗\vec{i}, \vec{j}i,j 描述。MAx⃗MA\vec{x}MAx 表示对向量 x⃗\vec{x}x 进行以矩阵 MMM 为规则的线性变换后的向量，记为 z⃗\vec{z}z ，A−1MAx⃗A^{-1}MA\vec{x}A−1MAx表示向量 z⃗\vec{z}z 由以 i⃗,j⃗\vec{i}, \vec{j}i,j 描述又变回为以 k⃗,l⃗\vec{k}, \vec{l}k,l 描述。

五、特征向量与特征值

Last time, I asked: What does mathematics mean to you? Some people answered: The manipulation of numbers, the manipulation of structures. And if I had asked what music means to you, would you have answered: The manipulation of notes? “上次演讲中我问道：‘数学对你来说意味着什么？’有些人回答：“‘处理数字，处理结构。’那么如果我问音乐对你来说意味着什么，你会回答‘处理音符’吗？”

在空间的线性变换过程中我们发现有部分向量在变换前后方向不变，这类向量可以用如下公式表示：Av⃗=λv⃗A\vec{v} = λ\vec{v}Av=λv，即矩阵 AAA 对空间的线性变换只改变向量 v⃗\vec{v}v 的大小，不改变方向。我们将 v⃗\vec{v}v 称为特征向量，λλλ 称为特征值，表示特征向量在变换前后大小改变的比例。

那么如何求解出在矩阵 AAA 的变换中那些向量的方向是不变的？注意到公式 Av⃗=λv⃗A\vec{v} = λ\vec{v}Av=λv 中左边有矩阵，但右边没有，是否能将右边也改写成矩阵形式？我们知道空间线性变换前后基向量保持不变意味着空间未发生变换，即空间中任意向量乘以其基向量所构建的线性变换矩阵仍得到原向量。一般默认原始空间中基向量组成的矩阵为单位矩阵 III，任意向量左乘 III 仍为其原向量，即 Iv⃗=v⃗I\vec{v} = \vec{v}Iv=v 。有 Av⃗=λIv⃗,(A−λI)v⃗=0A\vec{v} = λI\vec{v}, (A - λI)\vec{v} = 0Av=λIv,(A−λI)v=0，排除 v⃗\vec{v}v 为零向量，什么情况下非零向量经过线性变换后会变为 0 ？答案是降维，只有当对空间降维，原空间中才会有向量变为 0⃗\vec{0}0 向量。哪些向量在降维过程中会变为 0⃗\vec{0}0 ？答案是只有那些处在与被降去维度的基向量所在直线上的向量，才能在降维后变为 0⃗\vec{0}0 ，否则无法变为 0⃗\vec{0}0 。如线性变换矩阵 [10]\begin{bmatrix} 1&0\end{bmatrix}[10]，原空间中处在基向量 j⃗(0,1)\vec{j}(0, 1)j(0,1) 所在直线上的向量，在变换后均变为 0⃗\vec{0}0。所以 (A−λI)v⃗=0(A - λI)\vec{v} = 0(A−λI)v=0 成立要求 det(A–λI)=0det(A – λI) = 0det(A–λI)=0 且 v⃗\vec{v}v 处于被降方向上， v⃗\vec{v}v 与 A–λIA – λIA–λI 变换后的空间正交。举个例子，设在三维空间中有一组正交基向量x⃗,y⃗,z⃗\vec{x}, \vec{y}, \vec{z}x,y,z，变换后的空间用基向量x⃗,y⃗\vec{x}, \vec{y}x,y表示，变换矩阵为 [100010000]\begin{bmatrix} 1&0&0 \\ 0&1&0 \\ 0&0&0 \end{bmatrix}⎣⎡100010000⎦⎤ ，设原始空间中向量 v⃗\vec{v}v 为 (a,b,c)(a, b, c)(a,b,c)，经过变换后为 (a,b,0)(a, b, 0)(a,b,0)，如果想变换后为 0⃗\vec{0}0，则需要 a=b=0a = b = 0a=b=0，所以向量 v⃗\vec{v}v 为 (0,0,c)(0, 0, c)(0,0,c)，落在 zzz 轴上，而 zzz 轴与 x,yx, yx,y 构成的平面正交。所以通过 (A−λI)v⃗=0(A - λI)\vec{v} = 0(A−λI)v=0 求解出的特征向量 v⃗\vec{v}v 均为与变换后空间正交的直线上的向量。

注意在有些变换中，空间中没有任意向量能保持方向不变，如对 2 维空间进行 [0−110]\begin{bmatrix} 0&-1 \\ 1&0 \end{bmatrix}[01−10] 变换，整个平面的旋转让所有向量无一幸免，从解方程角度上 det(A–λI)=det([−λ−11−λ])=λ2+1>0,λdet(A – λI) = det(\begin{bmatrix}-λ&-1 \\ 1&-λ \end{bmatrix}) = λ^2 + 1 > 0, λdet(A–λI)=det([−λ1−1−λ])=λ2+1>0,λ 不存在实数解。同样有些变换也存在无穷多解，如对 2 维空间进行 [3003]\begin{bmatrix} 3&0 \\ 0&3 \end{bmatrix}[3003] 变换， det(A–λI)=det([3−λ003−λ])=(3−λ)2det(A – λI) = det(\begin{bmatrix}3-λ&0 \\ 0&3-λ \end{bmatrix}) =(3-λ)^2det(A–λI)=det([3−λ003−λ])=(3−λ)2，当 λ=3λ = 3λ=3 时行列式为 0，此时 A–λI=[0000]A – λI = \begin{bmatrix} 0&0 \\ 0&0 \end{bmatrix}A–λI=[0000] ，将空间转化成了 0 维空间，对于任意向量 v⃗\vec{v}v 均满足变换后为 0⃗\vec{0}0。

如果空间在一个线性变换中基向量都是特征向量，则这个线性变换矩阵必然是一个对角矩阵，且对角线上的值为相应基向量的特征值。

特征向量的用法：

用于方便直观的描述多维空间的旋转。因为特征向量可以作为旋转轴。我们可以不再用矩阵描述空间的旋转，转而用特征向量 + 旋转角度来描述。
将线性方程组写成矩阵形式，判断线性方程组是否有解。如设有如下线性方程组： {2i+5j+3k=−34i+0j+8k=01i+3j+0k=2\begin{cases}2i+5j+3k=-3 \\4i+0j+8k=0 \\1i+3j+0k=2 \end{cases}⎩⎪⎨⎪⎧2i+5j+3k=−34i+0j+8k=01i+3j+0k=2 可以转化为： {2i+5j+3k+3=04i+0j+8k+0=01i+3j+0k+(−2)=0\begin{cases}2i+5j+3k+3=0 \\4i+0j+8k+0=0 \\1i+3j+0k+(-2)=0 \end{cases}⎩⎪⎨⎪⎧2i+5j+3k+3=04i+0j+8k+0=01i+3j+0k+(−2)=0 用矩阵的形式表示为： [25334080130−2]⋅[ijk1]=0⃗\begin{bmatrix}2&5&3&3 \\4&0&8&0 \\1&3&0&-2 \end{bmatrix}\cdot\begin{bmatrix}i\\j\\k\\1\end{bmatrix} = \vec{0}⎣⎡24150338030−2⎦⎤⋅⎣⎢⎢⎡ijk1⎦⎥⎥⎤=0

可以将上述方程组视为 (A–λI)v⃗=0⃗(A – λI) \vec{v}= \vec{0}(A–λI)v=0，由于向量 v⃗\vec{v}v 中坐标不全为 0，所以 v⃗\vec{v}v 不是零向量，有且仅当 det(A–λI)=0det(A – λI) = 0det(A–λI)=0 时方程有解。因为 A–λIA – λIA–λI 已知，可以计算出 det(A–λI)det(A – λI)det(A–λI) 的值，从而判断该方程组是否有解。

六、总结

普适的代价是抽象。

学习至此，我们花费了大量的篇幅介绍向量、空间的线性变换以及变换后的一些性质。那么这与线性代数有什么关系？为什么这个系列的视频以线性代数的本质作为题目？因为本视频为了方便大家了解线性的相关知识，以向量、空间变换作为载体来呈现，使知识的介绍更为直观，向量只是符合线性定义的一个实例。试想如果某函数符合向量的性质，那在向量空间中有关线性变换的推论是否也适用于此函数？答案是肯定的。线性的严格定义为：L(v+w)=L(v)+L(w)；L(cv)=cL(v)L(v +w) = L(v) + L(w)；L(cv) = cL(v)L(v+w)=L(v)+L(w)；L(cv)=cL(v) 。将符合线性定义的函数称为线性函数，如 f(x,y,z)=5x+3y+2zf(x, y, z) = 5x + 3y +2zf(x,y,z)=5x+3y+2z 函数满足 f(cx,cy,cz)=cf(x,y,z),f(x1+x2,y1+y2,z1+z2)=f(x1,y1,z1)+f(x2,y2,z2)f(cx, cy, cz) = cf(x, y, z), f(x_1+x_2, y_1+y_2, z_1+z_2) = f(x_1, y_1, z_1) + f(x_2, y_2, z_2)f(cx,cy,cz)=cf(x,y,z),f(x1+x2,y1+y2,z1+z2)=f(x1,y1,z1)+f(x2,y2,z2)，可以将 (x,y,z)(x, y, z)(x,y,z) 视为一个向量，而它们的系数视为一个线性变换矩阵，将向量有 3 维转换为 1 维。线性代数的本质就是两个公式：L(v+w)=L(v)+L(w)；L(cv)=cL(v)L(v +w) = L(v) + L(w)；L(cv) = cL(v)L(v+w)=L(v)+L(w)；L(cv)=cL(v)。符合这两个公式的任何形式的载体我们都可以称之为是线性的，可以将线性代数的结论应用其中来解决一些实际问题。抽象可以使结论具有一般性，推广到所有相似的问题中，并解决他们。但如果一上来学习的就是抽象公式，而不理解公式诞生的过程、背后的意义、推广（抽象的意义）等，那么抽象就会在普适的同时变成学习的障碍（最后的总结还是建议观看视频）。