一、矩阵的基本概念和意义
- 1、一种线性变换
- 2、加法与数乘
- 3.矩阵的乘法
二、矩阵运算在深度学习中的应用(初级)
- 1.数字图像识别
- 2.矩阵的迹，矩阵的转置，对称矩阵(协方差矩阵)
- - 1.矩阵的迹
  - 2.矩阵的转置
  - 3.对称矩阵
  - 4.协方差矩阵
- 3.行列式的引入
- - 1.特殊矩阵的行列式
  - 2.行列式的性质
  - 3.行列式按行(列)展开，代数余子式
  - 4.行列式的应用：克莱姆法则(Cramer′sruleCramer's\quad ruleCramer′srule)
- 4.矩阵逆的引入
- - 4.1 矩阵的逆的常用性质以及特殊矩阵的逆
  - 4.2 特殊矩阵的逆
  - 4.3 矩阵逆在机器学习线性回归算法中的运用(初级)
  - - 4.3.1 多元线性回归问题
- 5. 分块矩阵
- - 5.1 协方差矩阵的计算
三、矩阵初等变换的引入
- 1 三种矩阵的初等变化
- 2.矩阵的标准型
- 3.三种初等矩阵
- 4. 矩阵秩的定义以及性质
- 5.线性方程组解的个数
四、矩阵秩在机器学习线性回归算法中的应用(中级)
- 1.向量的线性相关，线性无关以及与可逆矩阵的关系
- - 1.1 线性相关与线性无关
  - 1.2 向量的内积，范数，正交，规范正交基
- 2.施密特正交化
- 3.特征值和特征向量的定义以及直观的意义
五、相似矩阵的定义以及矩阵的对角化
- 5.1一般矩阵对角化的条件
- 5.2 对称矩阵对角化
- 5.3 对角化在数据压缩算法中的简单应用
- 5.4 二次型以及矩阵的正定性
六、矩阵的正定型在机器学习线性回归算法中的运用(高级)
七、SVD分解及其应用

一、矩阵的基本概念和意义

定义1 由m×nm\times nm×n个数aija_{ij}aij(i=1,2,...mi=1,2,...mi=1,2,...m;j=1,2...nj=1,2...nj=1,2...n)排成mmm行nnn列的数表

a11a12...a1na21a22...a2n⋮⋮⋱⋮am1am2⋮amn\begin{matrix} a_{11} &a_{12} &... & a_{1n}\\ a_{21} &a_{22} &... & a_{2n}\\ \vdots & \vdots &\ddots &\vdots \\ a_{m1}&a_{m2} &\vdots &a_{mn} \end{matrix}a11a21⋮am1a12a22⋮am2......⋱⋮a1na2n⋮amn
称为mmm行nnnl列矩阵，简称m×nm\times nm×n矩阵，为表示它是一个整数，总是加一个括弧，并用大写黑体字母表示它，记作

A=[a11a12...a1na21a22...a2n⋮⋮⋱⋮am1am2⋮amn]A = \begin{bmatrix} a_{11} &a_{12} &... & a_{1n}\\ a_{21} &a_{22} &... & a_{2n}\\ \vdots & \vdots &\ddots &\vdots \\ a_{m1}&a_{m2} &\vdots &a_{mn} \end{bmatrix}A=⎣⎢⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2......⋱⋮a1na2n⋮amn⎦⎥⎥⎥⎥⎤

这m×nm\times nm×n个数称为矩阵AAA的元素，简称元。数aija_{ij}aij位于矩阵的第iii行第jjj列，称为矩阵AAA的(i,j)(i,j)(i,j)元，以数aija_{ij}aij为(i,j)(i,j)(i,j)元的矩阵可简记为(aij)(a_{ij})(aij)或(aij)m×n(a_{ij})_{m\times n}(aij)m×n,m×nm\times nm×n矩阵AAA也记作Am×nA_{m\times n}Am×n。

什么时候是方阵呢？就是当m=nm = nm=n的时候。

什么是行向量呢？就是当m=1m = 1m=1

什么是列向量呢？就是当n=1n = 1n=1

什么是两个矩阵相等呢？就是两个矩阵对应的元素相等

什么是零矩阵？就是矩阵所有的元素都为0

探讨矩阵的意义

1、一种线性变换

{y1=a11×x1+a12×x2+⋯+a1n×xny2=a21×x1+a22×x2+⋯+a2n×xn⋯ym=am1×x1+am2×x2+⋯+amn×xn\left\{\begin{matrix} y_{1}=a_{11}\times x_{1} + a_{12}\times x_{2} + \cdots + a_{1n}\times x_{n}\\ y_{2} = a_{21}\times x_{1}+a_{22}\times x_{2} + \cdots + a_{2n}\times x_{n}\\ \cdots \\ y_{m} = a_{m1}\times x_{1}+a_{m2}\times x_{2} + \cdots + a_{mn}\times x_{n} \end{matrix}\right.⎩⎪⎪⎨⎪⎪⎧y1=a11×x1+a12×x2+⋯+a1n×xny2=a21×x1+a22×x2+⋯+a2n×xn⋯ym=am1×x1+am2×x2+⋯+amn×xn
表示一个从变量x1,x2,⋯xnx_{1},x_{2}, \cdots x_{n}x1,x2,⋯xn到变量y1,y2,⋯ymy_{1},y_{2}, \cdots y_{m}y1,y2,⋯ym的线性变换，其中系数aija_{ij}aij构成矩阵A=(aij)m×nA = (a_{ij})_{m \times n}A=(aij)m×n

恒等变换就是矩阵AAA为单位矩阵

对角矩阵即除了对角之外，其他元素都为零

2、加法与数乘

定义2，设有两个m×nm\times nm×n矩阵A=(aij)A = (a_{ij})A=(aij)和矩阵B=(bij)B = (b_{ij})B=(bij)，那么矩阵AAA与矩阵BBB的和记作A+BA+BA+B,规定为

A+B=[a11+b11a12+b12⋯a1n+b1na21+b21a22+b22⋯a2n+b2n⋮⋮⋱⋮am1+bm1am2+bm2⋯amn+bmn]A+B = \begin{bmatrix} a_{11}+b_{11} &a_{12}+b_{12} &\cdots & a_{1n}+b_{1n}\\ a_{21}+b_{21}&a_{22}+b_{22} &\cdots &a_{2n}+b_{2n} \\ \vdots& \vdots & \ddots & \vdots\\ a_{m1}+b_{m1}&a_{m2}+b_{m2} &\cdots &a_{mn}+b_{mn} \end{bmatrix}A+B=⎣⎢⎢⎢⎡a11+b11a21+b21⋮am1+bm1a12+b12a22+b22⋮am2+bm2⋯⋯⋱⋯a1n+b1na2n+b2n⋮amn+bmn⎦⎥⎥⎥⎤

设A,B,CA,B,CA,B,C都是m×nm \times nm×n的矩阵，满足加法运算律

(A+B)=(B+A)(A+B) = (B+A)(A+B)=(B+A)

(A+B)+C=A+(B+C)(A+B)+C = A + (B+C)(A+B)+C=A+(B+C)

注意:只有当两个矩阵是同型矩阵时，这两个矩阵才可以进行加法运算

定义3，数λ\lambdaλ与矩阵AAA的乘积记作λA\lambda AλA或者AλA \lambdaAλ，规定为
λA=Aλ=[λa11λa12⋯λa1nλa21λa22⋯λa2n⋮⋮⋱⋮λam1λam2⋯λamn]\lambda A =A \lambda = \begin{bmatrix} \lambda a_{11}&\lambda a_{12} &\cdots &\lambda a_{1n} \\ \lambda a_{21}&\lambda a_{22} &\cdots & \lambda a_{2n}\\ \vdots& \vdots & \ddots &\vdots \\ \lambda a_{m1}&\lambda a_{m2} &\cdots &\lambda a_{mn} \end{bmatrix}λA=Aλ=⎣⎢⎢⎢⎡λa11λa21⋮λam1λa12λa22⋮λam2⋯⋯⋱⋯λa1nλa2n⋮λamn⎦⎥⎥⎥⎤

设λ,μ∈R\lambda ,\mu \in Rλ,μ∈R,AAA为m×nm \times nm×n矩阵，
满足以下规律

(i) (λμ)A=λ(μ)A(\lambda \mu) A = \lambda(\mu)A(λμ)A=λ(μ)A

(ii)(λ+μ)A=λA+μA(\lambda + \mu)A = \lambda A + \mu A(λ+μ)A=λA+μA

(iii)λ(A+B)=λA+λB\lambda (A+B) = \lambda A + \lambda Bλ(A+B)=λA+λB

3.矩阵的乘法

定义4 设A=(aij)A = \left( a_{ij}\right)A=(aij)是一个m×sm \times sm×s矩阵，B=(bij)B = \left(b_{ij}\right)B=(bij)是一个s×ns\times ns×n的矩阵，那么规定矩阵AAA与矩阵BBB的乘积是一个m×nm \times nm×n矩阵C=(cij)C = \left(c_{ij}\right)C=(cij),
其中

cij=ai1b1j+ai2b2j+⋯+aisbsj=∑k=1saikbskc_{ij} = a_{i1}b_{1j} + a_{i2}b_{2j}+ \cdots+a_{is}b_{sj} = \sum_{k=1}^{s}a_{ik}b_{sk}cij=ai1b1j+ai2b2j+⋯+aisbsj=∑k=1saikbsk
(i=1,2,⋯m;j=1,2⋯n)(i = 1,2,\cdots m; j = 1,2 \cdots n)(i=1,2,⋯m;j=1,2⋯n),

并把这次成绩记作C=A×BC=A \times BC=A×B

设有矩阵A,B,CA,B,CA,B,C，则满足规律

(i)(AB)C=A(BC)(AB)C = A(BC)(AB)C=A(BC)

(ii)λ(AB)=(λA)B=A(λB)\lambda (AB) = (\lambda A)B = A(\lambda B)λ(AB)=(λA)B=A(λB)

(iii)A(B+C)=AB+AC,(B+C)A=BC+CAA(B+C) = AB+AC,(B+C)A = BC+CAA(B+C)=AB+AC,(B+C)A=BC+CA

二、矩阵运算在深度学习中的应用(初级)

1.数字图像识别

输入一张为数字(0-9)的图片，大小为10×1010 \times 1010×10，下面图片也可以体现出矩阵是一种特征空间的变换

单样本：
(x1,x2,⋯,x100)w1=(y1,y2,⋯,y512)(x_{1},x_{2},\cdots,x_{100})w_{1} = (y_{1},y_{2},\cdots,y_{512})(x1,x2,⋯,x100)w1=(y1,y2,⋯,y512)
(z1,z2,⋯,z512)w2=(O1,O2,⋯,O10)(z_{1},z_{2},\cdots,z_{512})w_{2} = (O_{1},O_{2},\cdots,O_{10})(z1,z2,⋯,z512)w2=(O1,O2,⋯,O10)

关于relurelurelu函数如下：

relu(x)={xx>00x⩽0relu(x) = \left\{\begin{matrix} x & x>0\\ 0& x\leqslant 0 \end{matrix}\right.relu(x)={x0x>0x⩽0

nnn个样本：
[x11x12⋯x1,100⋮⋮⋮xn1xn2⋯xn,100]w1=[y11y12⋯y1,512⋮⋮⋮yn1yn2⋯yn,512]\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1,100}\\ \vdots&\vdots&&\vdots\\ \\ x_{n1}&x_{n2}&\cdots&x_{n,100} \end{bmatrix}w_{1} = \begin{bmatrix} y_{11}&y_{12}&\cdots&y_{1,512}\\ \vdots&\vdots&&\vdots\\ \\ y_{n1}&y_{n2}&\cdots&y_{n,512} \end{bmatrix}⎣⎢⎢⎢⎡x11⋮xn1x12⋮xn2⋯⋯x1,100⋮xn,100⎦⎥⎥⎥⎤w1=⎣⎢⎢⎢⎡y11⋮yn1y12⋮yn2⋯⋯y1,512⋮yn,512⎦⎥⎥⎥⎤

[z11z12⋯x1,512⋮⋮⋮zn1zn2⋯zn,512]w2=[O11O12⋯O1,10⋮⋮⋮On1On2⋯On,10]\begin{bmatrix} z_{11}&z_{12}&\cdots&x_{1,512}\\ \vdots&\vdots&&\vdots\\ \\ z_{n1}&z_{n2}&\cdots&z_{n,512} \end{bmatrix}w_{2} = \begin{bmatrix} O_{11}&O_{12}&\cdots&O_{1,10}\\ \vdots&\vdots&&\vdots\\ \\ O_{n1}&O_{n2}&\cdots&O_{n,10} \end{bmatrix}⎣⎢⎢⎢⎡z11⋮zn1z12⋮zn2⋯⋯x1,512⋮zn,512⎦⎥⎥⎥⎤w2=⎣⎢⎢⎢⎡O11⋮On1O12⋮On2⋯⋯O1,10⋮On,10⎦⎥⎥⎥⎤

2.矩阵的迹，矩阵的转置，对称矩阵(协方差矩阵)

1.矩阵的迹

定义： 在线性代数中，一个n×nn\times nn×n的矩阵AAA的主对角线(从左上方至右下方的对角线)上各个元素的总和被称为矩阵AAA的迹(或迹数)，一般记作tr(A)tr(A)tr(A)
tr(A)=∑i=1naiitr(A) = \sum_{i=1}^{n}a_{ii}tr(A)=i=1∑naii

结论 $\$tr(AB)=TR(AB)tr(AB) = TR(AB)tr(AB)=TR(AB)对于满足矩阵乘法条件(型号匹配的)任意Am×nA_{m \times n}Am×n、Bn×mB_{n \times m}Bn×m均成立。

证明

设 C=(AB)m×mC = (AB)_{m \times m}C=(AB)m×m , D=(BA)n×nD = (BA)_{n \times n}D=(BA)n×n

所以，tr(AB)=∑i=1mcii=∑i=1m∑s=1naisbsitr(AB)=\sum_{i=1}^{m}c_{ii}=\sum_{i=1}^{m}\sum_{s=1}^{n}a_{is}b_{si}tr(AB)=∑i=1mcii=∑i=1m∑s=1naisbsi
同时，tr(BA)=∑i=1ndii=∑s=1n∑i=1mbsiaistr(BA)=\sum_{i=1}^{n}d_{ii} = \sum_{s=1}^{n}\sum_{i=1}^{m}b_{si}a_{is}tr(BA)=∑i=1ndii=∑s=1n∑i=1mbsiais
又因为求和可交换，则最后可得tr(AB)=tr(BA)tr(AB)=tr(BA)tr(AB)=tr(BA)

2.矩阵的转置

定义: 把矩阵AAA的行换成同序数的列得到的一个新矩阵，叫做矩阵的转置，记作AT.A^{T}.AT.

性质：(i)(AT)T=A(A^{T})^{T} = A(AT)T=A
(ii)(A+B)T=AT+BT(A+B)^{T}=A^{T}+B^{T}(A+B)T=AT+BT
(iii)(λA)T=λAT(\lambda A)^{T}=\lambda A^{T}(λA)T=λAT
(AB)T=BTAT(AB)^{T}=B^{T}A^{T}(AB)T=BTAT

3.对称矩阵

定义： 设AAA为n阶方阵，如果满足AT=AA^{T}=AAT=A,即aij=aji,(i,j=1,2,⋯,n)a_{ij}=a_{ji},(i,j=1,2,\cdots,n)aij=aji,(i,j=1,2,⋯,n)那么称AAA为对称矩阵.

4.协方差矩阵

NNN个样本，每个样本的特征的维度为nnn,容易证明协方差矩阵是对称矩阵

设X=(x1T⋮xNT)N×nX=\begin{pmatrix} x_{1}^{T}\\ \vdots\\ x_{N}^{T} \end{pmatrix}_{N\times n}X=⎝⎜⎛x1T⋮xNT⎠⎟⎞N×n,XT=(x1,x2,⋯,xN)n×NX^{T}=\begin{pmatrix} x_{1},x_{2},\cdots,x_{N} \end{pmatrix}_{n\times N}XT=(x1,x2,⋯,xN)n×N

XTXX^{T}XXTX为样本的协方差矩阵。

3.行列式的引入

定义: 关于行列式的引入可从解方程的角度去看，例如二阶行列式，采用消元法解二元线性方程组,具体此处省略.
∣abcd∣=ad−bc\begin{vmatrix} a&b\\ c&d \end{vmatrix} =ad-bc∣∣∣∣acbd∣∣∣∣=ad−bc为二阶行列式

1.特殊矩阵的行列式

∣λ11λ22⋱λn∣=λ1λ2⋯λn\begin{vmatrix} \lambda_{11}\\ &\lambda_{22}\\ & &\ddots\\ & & &\lambda_{n} \end{vmatrix}=\lambda_{1}\lambda_{2} \cdots \lambda_{n} ∣∣∣∣∣∣∣∣λ11λ22⋱λn∣∣∣∣∣∣∣∣=λ1λ2⋯λn
∣λ1λ2⋯λn∣=(−1)n(n−1)2λ1λ2⋯λn\qquad \quad\begin{vmatrix} & & & \lambda_{1}\\ & &\lambda_{2}\\ & \cdots \\ \lambda_{n} \end{vmatrix}=(-1)^{\frac{n(n-1)}{2}}\lambda_{1}\lambda_{2}\cdots\lambda_{n}∣∣∣∣∣∣∣∣λn⋯λ2λ1∣∣∣∣∣∣∣∣=(−1)2n(n−1)λ1λ2⋯λn

D=∣a11⋯⋯0a21a22⋮⋮⋱an1an2⋯ann∣=a11a22⋯annD=\begin{vmatrix} a_{11}& \cdots& \cdots&0 \\ a_{21}&a_{22}& & \\ \vdots&\vdots &\ddots &\\ a_{n1}&a_{n2}&\cdots&a_{nn} \end{vmatrix}=a_{11}a_{22}\cdots a_{nn}D=∣∣∣∣∣∣∣∣∣a11a21⋮an1⋯a22⋮an2⋯⋱⋯0ann∣∣∣∣∣∣∣∣∣=a11a22⋯ann

2.行列式的性质

(1) 行列式与它的转置行列式相等

(2)互换行列式的两行(列)，行列式变号。

推论: 如果行列式有两行(行列)完全相同，则次行列式为零。

(3)行列式的某一行(列)中所有元素都乘以同一数kkk，等于用kkk乘以此行列式.

(4) 行列式中如果两行(列)的元素成比例，则此行列式等于零。

(5) 把行列式的某一行（列）的各元素乘以同一数然后加到另一行(列)的元素上去，h行列式不变。

(6) ∣a11⋯a1k⋮⋮ak1⋯akkc11⋯c1kb11⋯a1n⋮⋮⋮⋮cn1⋯cnkbn1⋯bnn∣\begin{vmatrix} a_{11}&\cdots&a_{1k}& & \\ \vdots& &\vdots& & \\ a_{k1}&\cdots&a_{kk} & \\ c_{11}&\cdots&c_{1k}& b_{11}&\cdots&a_{1n}\\ \vdots& & \vdots& \vdots& & \vdots& \\ c_{n1}& \cdots&c_{nk}& b_{n1}&\cdots&b_{nn} \end{vmatrix}∣∣∣∣∣∣∣∣∣∣∣∣∣∣a11⋮ak1c11⋮cn1⋯⋯⋯⋯a1k⋮akkc1k⋮cnkb11⋮bn1⋯⋯a1n⋮bnn∣∣∣∣∣∣∣∣∣∣∣∣∣∣

D1=det(aij)=∣a11⋯a1k⋮⋮ak1⋯akk∣D2=∣b11⋯b1k⋮⋮bn1⋯bnn∣D_{1}=det(a_{ij})=\begin{vmatrix} a_{11}& \cdots&a_{1k}\\ \vdots& &\vdots \\ a_{k1}& \cdots&a_{kk} \end{vmatrix} \qquad D_{2}=\begin{vmatrix} b_{11}& \cdots&b_{1k}\\ \vdots& &\vdots \\ b_{n1}& \cdots&b_{nn} \end{vmatrix}D1=det(aij)=∣∣∣∣∣∣∣a11⋮ak1⋯⋯a1k⋮akk∣∣∣∣∣∣∣D2=∣∣∣∣∣∣∣b11⋮bn1⋯⋯b1k⋮bnn∣∣∣∣∣∣∣
\qquad那么D=D1D2D=D_{1}D_{2}D=D1D2

(7)∣AB∣=∣A∣∣B∣\begin{vmatrix} AB \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\begin{vmatrix} B \end{vmatrix}∣∣AB∣∣=∣∣A∣∣∣∣B∣∣

3.行列式按行(列)展开，代数余子式

降阶处理，用低阶的行列式来算高阶的行列式

在nnn阶行列式，把(i,j)(i,j)(i,j)元aija_{ij}aij的第iii行和第jjj列划去以后，留下来的n−1n-1n−1阶行列式叫做(i,j)(i,j)(i,j)元aija_{ij}aij余子式，记作MijM_{ij}Mij，记
Aij=(−1)i+jMijA_{ij}=(-1)^{i+j}M_{ij}Aij=(−1)i+jMij

AijA_{ij}Aij叫做aija_{ij}aij的代数余子式

引理： 一个nnn阶行列式，如果其中第iii行所有元素除aija_{ij}aij外都等于0，那么行列式等于aija_{ij}aij与它的代数余子式的乘积，即D=aijAijD=a_{ij}A_{ij}D=aijAij

定理: 行列式等于它的任一行(列)的各元素与其对应的代数余子式乘积之和。

推论: 行列式某一行(列)的元素与另一行(列)对应元素得代数余子式乘积之和等于0。

4.行列式的应用：克莱姆法则(Cramer′sruleCramer's\quad ruleCramer′srule)

{a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2⋯⋯⋯an1x1+an2x2+⋯+annxn=bn\left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=b_{1}\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=b_{2}\\ \cdots \cdots \cdots\\ a_{n1}x_{1}+a_{n2}x_{2}+\cdots+a_{nn}x_{n}=b_{n} \end{matrix}\right.⎩⎪⎪⎨⎪⎪⎧a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2⋯⋯⋯an1x1+an2x2+⋯+annxn=bn
如果方程的系数行列式不等于0，即$\$
D=∣a11⋯a1n⋮⋮an1⋯ann∣≠0D=\begin{vmatrix} a_{11}&\cdots&a_{1n} \\ \vdots& &\vdots\\ a_{n1}& \cdots&a_{nn} \end{vmatrix}\neq 0D=∣∣∣∣∣∣∣a11⋮an1⋯⋯a1n⋮ann∣∣∣∣∣∣∣=0

那么方程有唯一解
x1=D1Dx2=D2D,⋯xn=DnDx_{1}=\frac{D_{1}}{D}\quad x_{2}=\frac{D_{2}}{D},\cdots x_{n}=\frac{D_{n}}{D}x1=DD1x2=DD2,⋯xn=DDn

其中Dj(j=1,2,⋯n)D_{j}(j=1,2,\cdots n)Dj(j=1,2,⋯n) 是把系数行列式中DDD中第jjj列的元素用方程组右端的常数项代替后得到的nnn阶行列式，即

Dj=∣a11⋯ai,j−1b1ai,j+1⋯a1n⋮⋮⋮⋮⋮an1⋯an,j−1bnan,j+1⋯ann∣\\ D_{j}=\begin{vmatrix} a_{11}&\cdots&a_{i,j-1}&b_{1}&a_{i,j+1}&\cdots&a_{1n} \\ \vdots& & \vdots& \vdots& \vdots& &\vdots \\ a_{n1}& \cdots& a_{n,j-1}&b_{n}& a_{n,j+1}&\cdots &a_{nn} \end{vmatrix}Dj=∣∣∣∣∣∣∣a11⋮an1⋯⋯ai,j−1⋮an,j−1b1⋮bnai,j+1⋮an,j+1⋯⋯a1n⋮ann∣∣∣∣∣∣∣

如果上式方程无解或者有两个不同的解，那DDD一定为0.
若上式方程的bjb_{j}bj都为零，那么就由非齐次方程组转化为齐次方程组,即
{a11x1+a12x2+⋯+a1nxn=0a21x1+a22x2+⋯+a2nxn=0⋯⋯⋯an1x1+an2x2+⋯+annxn=0\left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=0\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=0\\ \cdots \cdots \cdots\\ a_{n1}x_{1}+a_{n2}x_{2}+\cdots+a_{nn}x_{n}=0 \end{matrix}\right.⎩⎪⎪⎨⎪⎪⎧a11x1+a12x2+⋯+a1nxn=0a21x1+a22x2+⋯+a2nxn=0⋯⋯⋯an1x1+an2x2+⋯+annxn=0

如果该方程的系数行列式DDD不为0，则方程只有0解，无非零解。如果该方程有非零解，则DDD一定为0.

4.矩阵逆的引入

定义: 对于nnn阶矩阵AAA，如果有一个nnn阶矩阵BBB，使得AB=BA=EAB=BA=EAB=BA=E，则说明矩阵AAA是可逆的，并把矩阵BBB称为矩阵AAA的逆矩阵，AAA的逆矩阵记作A−1A^{-1}A−1即B=A−1B=A^{-1}B=A−1

定理1 若A≠0A \neq 0A=0矩阵AAA可逆，则∣A∣≠0\begin{vmatrix} A \end{vmatrix}\neq 0∣∣A∣∣=0

证明： ∣A−1∣A可逆，则有A−1,使得AA−1=E\begin{vmatrix} A^{-1} \end{vmatrix}A可逆，则有A^{-1},使得AA^{-1}=E∣∣A−1∣∣A可逆，则有A−1,使得AA−1=E,所以有∣A∣∣A−1∣=1\begin{vmatrix} A \end{vmatrix}\begin{vmatrix} A^{-1} \end{vmatrix}=1∣∣A∣∣∣∣A−1∣∣=1A
那么，∣A∣≠0\begin{vmatrix} A \end{vmatrix}\neq 0∣∣A∣∣=0

定理2 若∣A∣≠0\begin{vmatrix} A \end{vmatrix}\neq 0∣∣A∣∣=0,则矩阵AAA可逆，且A−1=1∣A∣A∗A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*}A−1=∣A∣1A∗,其中A∗A^{*}A∗为矩阵AAA的伴随矩阵.

A∗=(A11A21⋯An1A12A22⋯An2⋮⋮⋮A1nA2n⋯Ann)A^{*}=\begin{pmatrix} A_{11}& A_{21} &\cdots &A_{n1} \\ A_{12}& A_{22} &\cdots &A_{n2} \\ \vdots& \vdots & &\vdots \\ A_{1n}&A_{2n} &\cdots &A_{nn} \end{pmatrix}A∗=⎝⎜⎜⎜⎛A11A12⋮A1nA21A22⋮A2n⋯⋯⋯An1An2⋮Ann⎠⎟⎟⎟⎞

4.1 矩阵的逆的常用性质以及特殊矩阵的逆

性质

(i) 若AAA可逆，则A−1A^{-1}A−1也可逆，且(A−1)−1=A(A^{-1})^{-1}=A(A−1)−1=A

(ii)若AAA可逆，数λ≠0\lambda \neq 0λ=0,则λA\lambda AλA可逆，(λA)−1=1λA−1(\lambda A)^{-1}=\frac{1}{\lambda}A^{-1}(λA)−1=λ1A−1

(iii) 若A,BA,BA,B为同阶方阵且均可逆，则∣AB∣=∣A∣∣B∣≠0\begin{vmatrix} AB \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\begin{vmatrix} B \end{vmatrix}\neq 0∣∣AB∣∣=∣∣A∣∣∣∣B∣∣=0,则ABABAB可逆；且(AB)−1=B−1A−1(AB)^{-1}=B^{-1}A^{-1}(AB)−1=B−1A−1

(iiii) 若AAA是可逆的，则ATA^{T}AT也可逆，且(AT)−1=(A−1)−T(A^{T})^{-1}=(A^{-1})^{-T}(AT)−1=(A−1)−T

说明： ∣AT∣=∣A∣≠0\begin{vmatrix} A^{T} \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\neq 0∣∣AT∣∣=∣∣A∣∣=0,则ATA^{T}AT可逆，因为AT(A−1)T=(A−1A)T=EA^{T}(A^{-1})^{T}=(A^{-1}A)^{T}=EAT(A−1)T=(A−1A)T=E

4.2 特殊矩阵的逆

求二阶矩阵A=(abcd)A=\begin{pmatrix} a&b&\\ c&d& \end{pmatrix}A=(acbd)的逆矩阵。

解：∣A∣=ad−bc,A∗=(d−b−ca)\begin{vmatrix} A \end{vmatrix}=ad-bc,\qquad A^{*}= \begin{pmatrix} d&-b&\\ -c&a& \end{pmatrix}∣∣A∣∣=ad−bc,A∗=(d−c−ba)
A
利用逆矩阵公式A−1=1∣A∣A∗A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*}A−1=∣A∣1A∗,当det(A)≠0det(A)\neq0det(A)=0时，有
A
A−1=1∣A∣A∗=1ad−bc(d−b−ca)A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*}=\frac{1}{ad-bc}\begin{pmatrix} d&-b&\\ -c&a& \end{pmatrix}A−1=∣∣A∣∣1A∗=ad−bc1(d−c−ba)

单位矩阵的逆矩阵为单位矩阵
对角矩阵的逆矩阵

A=(λ1⋱λn),∴A−1=(λ1−1⋱λn−1)A=\begin{pmatrix} \lambda_{1} & &\\ &\ddots&\\ & &\lambda_{n} \end{pmatrix},\qquad \therefore A^{-1}=\begin{pmatrix} \lambda_{1}^{-1} & &\\ &\ddots&\\ & &\lambda_{n}^{-1} \end{pmatrix}A=⎝⎛λ1⋱λn⎠⎞,∴A−1=⎝⎛λ1−1⋱λn−1⎠⎞

4.3 矩阵逆在机器学习线性回归算法中的运用(初级)

4.3.1 多元线性回归问题

x1,x2,⋯,xN,xi∈Rny1,x2,⋯,yN,yi∈R1x_{1},x_{2},\cdots,x_{N},x_{i}\in \mathbb{R}^{n} \\ y_{1},x_{2},\cdots,y_{N},y_{i}\in \mathbb{R}^{1}x1,x2,⋯,xN,xi∈Rny1,x2,⋯,yN,yi∈R1
其中xix_{i}xi表示一个样本，其是一个nnn维向量，yiy_{i}yi是一个输出标量

在回归问题中，我们有

y1=x11a1+x12a2+⋯+x1nany1=x21a1+x22a2+⋯+x2nan⋮yN=xN1a1+xN2a2+⋯+xNnany_{1}=x_{11}a_{1}+x_{12}a_{2}+\cdots+x_{1n}a_{n} \\ y_{1}=x_{21}a_{1}+x_{22}a_{2}+\cdots+x_{2n}a_{n} \\ \vdots\\ y_{N}=x_{N1}a_{1}+x_{N2}a_{2}+\cdots+x_{Nn}a_{n} y1=x11a1+x12a2+⋯+x1nany1=x21a1+x22a2+⋯+x2nan⋮yN=xN1a1+xN2a2+⋯+xNnan

写成矩阵的形式

(x11x12⋯x1nx21x22⋯x2n⋮⋮⋱⋮xN1xN2⋯xNn)(a1a2⋮an)=(y1y1⋮yN)\begin{pmatrix} x_{11}&x_{12} &\cdots &x_{1n}\\ x_{21}& x_{22}&\cdots &x_{2n}\\ \vdots& \vdots& \ddots&\vdots\\ x_{N1}&x_{N2} &\cdots &x_{Nn} \end{pmatrix}\begin{pmatrix} a_{1}\\a_{2}\\\vdots\\a_{n} \end{pmatrix}=\begin{pmatrix} y_{1}\\ y_{1}\\\vdots \\y_{N} \end{pmatrix} ⎝⎜⎜⎜⎛x11x21⋮xN1x12x22⋮xN2⋯⋯⋱⋯x1nx2n⋮xNn⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛a1a2⋮an⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛y1y1⋮yN⎠⎟⎟⎟⎞

XN×nan×1=YN×1X_{N\times n}a_{n\times1}=Y_{N\times1}XN×nan×1=YN×1
当N=nN=nN=n且XN×nX_{N\times n}XN×n可逆时，a=X−1Ya=X^{-1}Ya=X−1Y
一般情况，N≠nN\neq nN=n.

5. 分块矩阵

分块矩阵的运算规则与普通矩阵的运算规则相似，分别说明如下：

(i) 设矩阵AAA与BBB的行数、列数相同，采用相同的分块法，有

A=(A11⋯Air⋮⋮An1⋯Anr),B=(B11⋯Bir⋮⋮Bn1⋯Bnr)A=\begin{pmatrix} A_{11} &\cdots&A_{ir}\\ \vdots& &\vdots\\ A_{n1}& \cdots&A_{nr}\\ \end{pmatrix},\qquad B=\begin{pmatrix} B_{11} &\cdots&B_{ir}\\ \vdots& &\vdots\\ B_{n1}& \cdots&B_{nr}\\ \end{pmatrix}A=⎝⎜⎛A11⋮An1⋯⋯Air⋮Anr⎠⎟⎞,B=⎝⎜⎛B11⋮Bn1⋯⋯Bir⋮Bnr⎠⎟⎞

其中AijA_{ij}Aij与BijB_{ij}Bij行数，列数相同，那么

A+B=(A11+B11⋯Air+Bir⋮⋮An1+Bn1⋯Anr+Bnr)A+B=\begin{pmatrix} A_{11}+B_{11} &\cdots&A_{ir}+B_{ir}\\ \vdots& &\vdots\\ A_{n1}+B_{n1}& \cdots&A_{nr}+B_{nr}\\ \end{pmatrix}A+B=⎝⎜⎛A11+B11⋮An1+Bn1⋯⋯Air+Bir⋮Anr+Bnr⎠⎟⎞

(ii) 设A=(A11⋯A1r⋮⋮As1⋯Asr)A=\begin{pmatrix} A_{11}&\cdots &A_{1r}\\ \vdots& &\vdots \\ A_{s1}&\cdots &A_{sr} \end{pmatrix}A=⎝⎜⎛A11⋮As1⋯⋯A1r⋮Asr⎠⎟⎞,λ\qquad \lambdaλ为一个实数，那么λA=(λA11⋯λA1r⋮⋮λAs1⋯λAsr)\lambda A=\begin{pmatrix} \lambda A_{11}&\cdots &\lambda A_{1r}\\ \vdots& &\vdots \\ \lambda A_{s1}&\cdots &\lambda A_{sr} \end{pmatrix}λA=⎝⎜⎛λA11⋮λAs1⋯⋯λA1r⋮λAsr⎠⎟⎞

(iii) 设AAA为m×lm\times lm×l,BBB为l×nl\times nl×n,分块成
A=(A11⋯A1t⋮⋮As1⋯Ast),B=(B11⋯B1r⋮⋮Bt1⋯Btr)A=\begin{pmatrix} A_{11}&\cdots &A_{1t}\\ \vdots& & \vdots\\ A_{s1}&\cdots &A_{st}\\ \end{pmatrix},\qquad B=\begin{pmatrix} B_{11}& \cdots&B_{1r}\\ \vdots& &\vdots\\ B_{t1}&\cdots &B_{tr} \end{pmatrix}A=⎝⎜⎛A11⋮As1⋯⋯A1t⋮Ast⎠⎟⎞,B=⎝⎜⎛B11⋮Bt1⋯⋯B1r⋮Btr⎠⎟⎞

其中Ai1,Ai2,⋯,AitA_{i1},A_{i2},\cdots,A_{it}Ai1,Ai2,⋯,Ait的列数分别等于B1j,B2j,⋯,BtjB_{1j},B_{2j},\cdots,B_{tj}B1j,B2j,⋯,Btj的行数，那么有

AB(C11⋯C1r⋮⋮Cs1⋯Csr)AB\begin{pmatrix} C_{11}&\cdots &C_{1r}\\ \vdots& &\vdots\\ C_{s1}&\cdots &C_{sr} \end{pmatrix}AB⎝⎜⎛C11⋮Cs1⋯⋯C1r⋮Csr⎠⎟⎞

其中，Cij=∑k=1tAikBkj,(i=1,⋯,s;j=1,⋯,r)C_{ij}=\sum_{k=1}^{t}A_{ik}B_{kj},\qquad (i=1,\cdots,s;j=1,\cdots,r)Cij=∑k=1tAikBkj,(i=1,⋯,s;j=1,⋯,r)

(iv) 设A=(A11⋯A1r⋮⋮As1⋯Asr)A=\begin{pmatrix} A_{11}&\cdots &A_{1r}\\ \vdots& &\vdots\\ A_{s1}&\cdots &A_{sr} \end{pmatrix}A=⎝⎜⎛A11⋮As1⋯⋯A1r⋮Asr⎠⎟⎞,则AT=(A11T⋯As1T⋮⋮A1rT⋯AsrT)A^{T}=\begin{pmatrix} A_{11}^{T}&\cdots &A_{s1}^{T}\\ \vdots& &\vdots\\ A_{1r}^{T}&\cdots &A_{sr}^{T} \end{pmatrix}AT=⎝⎜⎛A11T⋮A1rT⋯⋯As1T⋮AsrT⎠⎟⎞

(v) 设AAA为nnn阶矩阵，若AAA的分块矩阵只有对角线上有非零块，其余子块都为零矩阵，且对角线上的子块都是方阵，即

A=(A1OA2⋱As)A=\begin{pmatrix} A_{1}& & &O\\ & A_{2}& &\\ & & \ddots&\\ & & &A_{s} \end{pmatrix}A=⎝⎜⎜⎛A1A2⋱OAs⎠⎟⎟⎞

其中Ai(i=1,2⋯s)A_{i}(i=1,2\cdots s)Ai(i=1,2⋯s)都是方阵，那么称AAA为分块对角阵，
分块对角阵的行列式具有下述性质
∣A∣=∣A1∣∣A2∣⋯∣As∣\begin{vmatrix} A \end{vmatrix}=\begin{vmatrix} A_{1} \end{vmatrix}\begin{vmatrix} A_{2} \end{vmatrix}\cdots\begin{vmatrix} A_{s} \end{vmatrix}∣∣A∣∣=∣∣A1∣∣∣∣A2∣∣⋯∣∣As∣∣

由此性质可知，若∣Ai∣≠0(i=1,2,⋯s)\begin{vmatrix} A_{i} \end{vmatrix}\neq0(i=1,2,\cdots s)∣∣Ai∣∣=0(i=1,2,⋯s),则∣A∣≠0\begin{vmatrix} A \end{vmatrix}\neq0∣∣A∣∣=0,并有

A−1=(A1−1OA2−1⋱As−1)A^{-1}=\begin{pmatrix} A_{1}^{-1}& & &O\\ & A_{2}^{-1}& &\\ & & \ddots&\\ & & &A_{s}^{-1} \end{pmatrix}A−1=⎝⎜⎜⎛A1−1A2−1⋱OAs−1⎠⎟⎟⎞

5.1 协方差矩阵的计算

x1,x2,⋯xN∈Rnx_{1},x_{2},\cdots x_{N} \in \mathbb{R}^{n}x1,x2,⋯xN∈Rn

X=(x1T⋮xNT)N×n，XT=(x1，x2,⋯,xN)n×N,XTXn×nX=\begin{pmatrix} x_{1}^{T}\\ \vdots\\ x_{N}^{T} \end{pmatrix}_{N \times n}，\qquad X^{T}=\begin{pmatrix} x_{1}，x_{2},\cdots,x_{N} \end{pmatrix}_{n\times N},\qquad X^{T}X_{n\times n}X=⎝⎜⎛x1T⋮xNT⎠⎟⎞N×n，XT=(x1，x2,⋯,xN)n×N,XTXn×n,为样本的协方差矩阵

XTX=∑i=1NxixiTX^{T}X=\sum_{i=1}^{N}x_{i}x_{i}^{T}XTX=i=1∑NxixiT

三、矩阵初等变换的引入

1 三种矩阵的初等变化

定义： 下面的三种变换称为矩阵的初等行变换：

(i) 对调两行(对调i,ji,ji,j两行，记作ri↔rj)r_{i}\leftrightarrow r_{j})ri↔rj)

(ii)以数k≠0k\neq0k=0乘某一行的所有元素(第iii行乘以kkk,记作ri×kr_{i}\times kri×k);

(iii)把某一行所有元素的kkk倍加到另外一行对应的元素上去(第jjj行的kkk倍加到第iii行上，记作ri+k×rjr_{i}+k\times r_{j}ri+k×rj)

把定义中的”行“换成”列”，即得矩阵得初等列变换得定义(记号“rrr”换成“ccc”)

矩阵得初等行变换与初等列变换，统称初等变换

如果矩阵AAA经有限次初等行(列)变换变成矩阵BBB，就称矩阵AAA与BBB行(列)等价，记作A∼BA\sim BA∼B;

如果矩阵AAA经有限次初等变换变成矩阵BBB,就称矩阵AAA与BBB等价，记作A∼BA\sim BA∼B;

矩阵之间的等价关系具有以下性质：

(i)反身性 A∼AA\sim AA∼A；

(ii)对称性若A∼BA\sim BA∼B,则B∼AB\sim AB∼A

(iii)传递性若A∼BA\sim BA∼B,B∼CB\sim CB∼C,则A∼CA\sim CA∼C

2.矩阵的标准型

例如
B=[2−1−11211−2144−62−2436−979]B=\begin{bmatrix} 2& -1&-1 &1 &2\\ 1& 1& -2&1 &4\\ 4& -6&2 &-2 &4\\ 3& 6& -9&7 &9 \end{bmatrix}B=⎣⎢⎢⎡2143−11−66−1−22−911−272449⎦⎥⎥⎤

第一步，进行初等行变换，可得阶梯型矩阵{\color{red}阶梯型矩阵}阶梯型矩阵,Bp=[10−10401−1030001−300000]B_{p}=\begin{bmatrix} 1& 0& -1&0 &4\\ 0& 1& -1&0 &3\\ 0&0 &0 &1 &-3\\ 0&0 &0 &0 &0 \end{bmatrix}Bp=⎣⎢⎢⎡10000100−1−100001043−30⎦⎥⎥⎤

第二步，进行初等列变换，可得矩阵B的标准型F{\color{red}矩阵B的标准型F}矩阵B的标准型F

F=[10000010000010000000]F=\begin{bmatrix} 1& 0& 0& 0&0\\ 0&1 &0 &0 &0\\ 0&0 &1 &0 &0\\ 0&0 &0 &0 &0 \end{bmatrix}F=⎣⎢⎢⎡10000100001000000000⎦⎥⎥⎤

其特点： FFF的左上角是一个单位矩阵。其余元素全为0.

对于m×n矩阵A，总可以经过初等变换(行变换和列变换)，把它化为标准型{\color{red}对于m\times n矩阵A，总可以经过初等变换(行变换和列变换)，把它化为标准型}对于m×n矩阵A，总可以经过初等变换(行变换和列变换)，把它化为标准型

F=[ErOOO]m×nF=\begin{bmatrix} E_{r}&O &\\ O&O & \end{bmatrix}_{m\times n}F=[ErOOO]m×n

3.三种初等矩阵

E(i,j)=[1⋱10⋯11⋮⋱⋮11⋯01⋱1]E(i,j)=\begin{bmatrix} 1& & & & & & & & & &\\ &\ddots& & & & & & & & &\\ &&1&&&&&&&&\\ &&&0&&\cdots&&1&&&\\ &&&&1&&&&&&\\ &&&\vdots&&\ddots&&\vdots&&&\\ &&&&&&1&&&&\\ &&&1&&\cdots&&0&&&\\ &&&&&&&&1&&\\ &&&&&&&&&\ddots&\\ &&&&&&&&&&1\\ \end{bmatrix}E(i,j)=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡1⋱10⋮11⋯⋱⋯11⋮01⋱1⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤

矩阵E(i,j)E(i,j)E(i,j)由单位矩阵互换i,ji,ji,j行得到的。

将该矩阵作用在另外一个矩阵AAA上(即左乘以矩阵AAA)，得到的结果相当于把AAA矩阵的i,ji,ji,j行交换位置

E(i(k))=[1⋱1k1⋱1]E(i(k))=\begin{bmatrix} 1&&&&&&\\ &\ddots&&&&&\\ &&1&&&&\\ &&&k&&&\\ &&&&1&&\\ &&&&&\ddots&\\ &&&&&&1 \end{bmatrix}E(i(k))=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡1⋱1k1⋱1⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤

矩阵E(i(k))E(i(k))E(i(k))由单位矩阵的第iii行乘以kkk得到。

将该矩阵作用在另外一个矩阵AAA上(即左乘以矩阵AAA)，得到的结果相当于把AAA矩阵的iii行乘以kkk

E(ij(k))=[1⋱1⋱1⋱1]E(ij(k))=\begin{bmatrix} 1&&&&&&\\ &\ddots&&&&&\\ &&1&&&&\\ &&&\ddots&&&\\ &&&&1&&\\ &&&&&\ddots&\\ &&&&&&1 \end{bmatrix}E(ij(k))=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡1⋱1⋱1⋱1⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤

矩阵E(ij(k))E(ij(k))E(ij(k))由单位矩阵的第iii行加上第jjj行与kkk的乘积。

将该矩阵作用在另外一个矩阵AAA上(即左乘以矩阵AAA)，得到的结果相当于把AAA矩阵的iii行加上第jjj行与kkk的乘积.

性质1 设AAA是一个m×nm\times nm×n矩阵，对AAA实施一次初等行变换，相当于在AAA的左边乘以相应的mmm阶初等矩阵；对AAA施行一次初等列变换。相当于在AAA的右边乘以相应的nnn阶初等矩阵

性质2 方阵AAA可逆的充分必要条件是存在有限个初等矩阵P1,P2,⋯,PiP_{1},P_{2},\cdots,P_{i}P1,P2,⋯,Pi,使得A=P1P2⋯PiA=P_{1}P_{2}\cdots P_{i}A=P1P2⋯Pi

证明： ∵\because∵任意矩阵，都可以经过初等变换转为为标准型 F=[ErOOO]F=\begin{bmatrix} E_{r}&O\\ O&O \end{bmatrix}F=[ErOOO],ErE_{r}Er为单位矩阵

∴\therefore∴存在初等矩阵Q1,Q2,⋯,Qj,Qj+1,⋯QiQ_{1},Q_{2},\cdots,Q_{j},Q_{j+1},\cdots Q_{i}Q1,Q2,⋯,Qj,Qj+1,⋯Qi,使得Q1Q2⋯QjAQi⋯Qj+1=FQ_{1}Q_{2}\cdots Q_{j}AQ_{i}\cdots Q_{j+1}=FQ1Q2⋯QjAQi⋯Qj+1=F

∵\because∵ 初等矩阵是可逆的

∴\therefore∴ A=Qj−1Qj−1−1⋯Q1−1FQj+1−1⋯Qi−1A=Q_{j}^{-1}Q_{j-1}^{-1}\cdots Q_{1}^{-1}FQ_{j+1}^{-1}\cdots Q_{i}^{-1}A=Qj−1Qj−1−1⋯Q1−1FQj+1−1⋯Qi−1

令Pk=Qk−1，(k=1,2,⋯i)P_{k}=Q_{k}^{-1}，(k=1,2,\cdots i)Pk=Qk−1，(k=1,2,⋯i)

∵\because∵,A=PjPj−1⋯PjFPj+1Pj+2⋯PiA=P_{j}P_{j-1}\cdots P_{j}FP_{j+1}P_{j+2}\cdots P_{i}A=PjPj−1⋯PjFPj+1Pj+2⋯Pi

∵\because∵ ∣A∣=∣P1∣∣P2∣⋯∣F∣∣Pj+1∣⋯∣Pi∣\begin{vmatrix} A \end{vmatrix}=\left | P_{1} \right |\left | P_{2} \right |\cdots \left | F \right |\left | P_{j+1} \right |\cdots \left | P_{i} \right |∣∣A∣∣=∣P1∣∣P2∣⋯∣F∣∣Pj+1∣⋯∣Pi∣

∵\because∵ AAA可逆

∴\therefore∴ ∣F∣≠0\left | F \right |\neq0∣F∣=0,

∵\because∵矩阵FFF是标准型矩阵，∴\therefore∴矩阵FFF为单位矩阵

∴\therefore∴ A=P1P2⋯PiA=P_{1}P_{2}\cdots P_{i}A=P1P2⋯Pi

推论：方阵AAA可逆的充分必要条件是可通过初等**行{\color{red}{行}}行**变换变成单位矩阵

证明：∵\because∵A=P1P2⋯PiA=P_{1}P_{2}\cdots P_{i}A=P1P2⋯Pi

∴P1−1P2−1⋯Pi−1A=E\therefore\qquad P_{1}^{-1}P_{2}^{-1}\cdots P_{i}^{-1}A=E∴P1−1P2−1⋯Pi−1A=E

∴Q1Q2⋯QiA=E\therefore\qquad Q_{1}Q_{2}\cdots Q_{i}A =E∴Q1Q2⋯QiA=E

所以，推论成立。

定理: 设AAA与BBB为m×nm\times nm×n矩阵，那么：

(i) A∼(r)BA\sim (r) BA∼(r)B的充分必要条件是存在mmm阶可逆矩阵PPP；使得PA=BPA=BPA=B；

(ii) A∼(c)BA\sim (c) BA∼(c)B的充分必要条件是存在nnn阶可逆矩阵QQQ；使得AQ=BAQ=BAQ=B；

(iii)A∼BA\sim BA∼B的充分必要条件使存在mmm阶可逆矩阵PPP以及nnn阶可逆矩阵QQQ,，使得PAQ=BPAQ=BPAQ=B

4. 矩阵秩的定义以及性质

定义在m×nm\times nm×n矩阵AAA中，任取kkk行与kkk列(k≤m,k≤n)(k\leq m,k\leq n)(k≤m,k≤n)，位于这些行列交叉处的k2k^{2}k2个元素，不改变它们在AAA中所处的位置次序而得的kkk阶行列式,称为矩阵AAA的kkk阶子式。

m×n矩阵A的k阶子式共有Cmk⋅Cnk个m\times n矩阵A的k阶子式共有C_{m}^{k}\cdot C_{n}^{k}个m×n矩阵A的k阶子式共有Cmk⋅Cnk个

定义: 设在矩阵AAA中有一个不等于0的rrr阶子式子DDD,且所有r+1r+1r+1阶子式(如果存在的话)全等于0，那么DDD称为矩阵AAA的最高阶非零子式，数rrr称为矩阵AAA的秩，记作R(A)R(A)R(A)，并规定零矩阵的秩等于0.

显然，若AAA为m×nm\times nm×n矩阵，则0≤R(A)≤min{m,n}0\leq R(A)\leq min\left \{ m,n \right \}0≤R(A)≤min{m,n}.由于行列式与其转置行列式相等，因此ATA^{T}AT的子式与AAA的子式对应相等，从而R(AT)=R(A)R(A^{T})=R(A)R(AT)=R(A)。对于nnn阶矩阵AAA，由于AAA的nnn阶子式只有一个∣A∣\left | A \right |∣A∣,故当∣A∣≠0\left | A \right |\neq 0∣A∣=0时R(A)=nR(A)=nR(A)=n，当∣A∣=0\left | A \right |=0∣A∣=0时R(A)<nR(A)<nR(A)<n.可见可逆矩阵的秩等于矩阵的阶数，不可逆矩阵的秩小于矩阵的阶数，因此，可逆矩阵又称满秩矩阵，不可逆矩阵(奇异矩阵)又称为降秩矩阵{\color{red}{可逆矩阵又称满秩矩阵，不可逆矩阵(奇异矩阵)又称为降秩矩阵}}可逆矩阵又称满秩矩阵，不可逆矩阵(奇异矩阵)又称为降秩矩阵

注：对于一般矩阵，当行数与列数较高时，按照定义求秩很麻烦，然而对于行阶梯形矩阵，它的秩就等于非零行的行数，一看便知无须计算，因此自然想到用初等变换把矩阵化为行阶梯型矩阵，但是两个等价矩阵的秩是否相等呢？

定理： 若A∼BA\sim BA∼B，则R(A)=R(B)∗∗推论：∗∗若存在R(A)=R(B) **推论：** 若存在R(A)=R(B)∗∗推论：∗∗若存在P，Q可逆矩阵使得可逆矩阵使得可逆矩阵使得PAQ=B$，则 R(A)=R(B)R(A)=R(B)R(A)=R(B)

常用的矩阵秩的性质:(矩阵A,BA,BA,B的行数相同)

(i)max{R(A)，R(B)}≤R(A,B)≤R(A)+R(B)max \left \{ R(A)，R(B) \right \}\leq R(A,B)\leq R(A)+R(B)max{R(A)，R(B)}≤R(A,B)≤R(A)+R(B)

证明： 因为AAA的列向量可由(A,B)(A,B)(A,B)列向量线性表示，所以R(A)≤R(A,B)R(A)\leq R(A,B)R(A)≤R(A,B),同理，R(B)≤R(A,B)R(B)\leq R(A,B)R(B)≤R(A,B)，所以max{R(A)，R(B)}≤R(A,B)max \left \{ R(A)，R(B) \right \}\leq R(A,B)max{R(A)，R(B)}≤R(A,B)。

设a1,a2,⋯,ar1a_{1},a_{2},\cdots,a_{r_{1}}a1,a2,⋯,ar1为AAA的列向量组的极大无关组,b1,b2,⋯,br2b_{1},b_{2},\cdots,b_{r_{2}}b1,b2,⋯,br2为BBB的列向量组的极大无关组,则(A,B)(A,B)(A,B)的列向量组可由a1,a2,⋯,ar1,b1,b2,br2a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}}a1,a2,⋯,ar1,b1,b2,br2线性表示，所以R(A,B)=R(a1,a2,⋯,ar1,b1,b2,br2)≤R(A)+R(B)R(A,B)=R(a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}})\leq R(A)+R(B)R(A,B)=R(a1,a2,⋯,ar1,b1,b2,br2)≤R(A)+R(B)，所以，结论成立.

(ii) R(A+B)≤R(A)+R(B)R(A+B)\leq R(A)+R(B)R(A+B)≤R(A)+R(B)

证明： 设a1,a2,⋯,ar1a_{1},a_{2},\cdots,a_{r_{1}}a1,a2,⋯,ar1为AAA的列向量组的极大无关组,b1,b2,⋯,br2b_{1},b_{2},\cdots,b_{r_{2}}b1,b2,⋯,br2为BBB的列向量组的极大无关组,那么(A+B)(A+B)(A+B)的中的每个列向量都可以用向量组a1,a2,⋯,ar1,b1,b2,br2a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}}a1,a2,⋯,ar1,b1,b2,br2线性表示，所以R(A+B)≤R(A)+R(B)R(A+B)\leq R(A)+R(B)R(A+B)≤R(A)+R(B)

(iii) R(AB)≤min{R(A),R(B)}R(AB)\leq min\left \{R(A),R(B) \right \}R(AB)≤min{R(A),R(B)}

证明:因为矩阵
AB=(α1α2⋯αm)(b11⋯b1s⋮⋮bm1⋯bms)AB=\begin{pmatrix} \alpha_{1}& \alpha_{2}& \cdots&\alpha_{m} \end{pmatrix}\begin{pmatrix} b_{11}&\cdots &b_{1s}\\ \vdots& & \vdots\\ b_{m1}& \cdots& b_{ms}&\\ \end{pmatrix} AB=(α1α2⋯αm)⎝⎜⎛b11⋮bm1⋯⋯b1s⋮bms⎠⎟⎞

所以可知ABABAB的列向量组可由AAA的列向量组表示,则R(AB)≤R(A)R(AB)\leq R(A)R(AB)≤R(A)

同理，有
AB=(a11⋯a1m⋮⋮an1⋯anm)(β1⋮βm)AB= \begin{pmatrix} a_{11}&\cdots &a_{1m}\\ \vdots& &\vdots\\ a_{n1}&\cdots&a_{nm}\\ \end{pmatrix} \begin{pmatrix} \beta_{1}\\\vdots\\\beta_{m}\\ \end{pmatrix} AB=⎝⎜⎛a11⋮an1⋯⋯a1m⋮anm⎠⎟⎞⎝⎜⎛β1⋮βm⎠⎟⎞

所以可知ABABAB的行向量组可由BBB的行向量组表示,则R(AB)≤R(B)R(AB)\leq R(B)R(AB)≤R(B)

所以，R(AB)≤min{R(A),R(B)}R(AB)\leq min\left \{R(A),R(B) \right \}R(AB)≤min{R(A),R(B)}

(iv) 若Am×nBn×i=OA_{m\times n}B_{n\times i}=OAm×nBn×i=O,则R(A)+R(B)≤nR(A)+R(B)\leq nR(A)+R(B)≤n

因为 AB＝0AB＝0AB＝0
所以BBB的列向量都是AX=0AX=0AX=0的解.
所以BBB的列向量组可以由AX=0AX=0AX=0的基础解系线性表示
所以r(B)<=n−r(A)r(B) <= n-r(A)r(B)<=n−r(A)
所以 r(A)+r(B)<=n.r(A)+r(B) <= n.r(A)+r(B)<=n.

5.线性方程组解的个数

设有nnn个未知数mmm个方程的线性方程组

{a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2⋯⋯⋯am1x1+am2x2+⋯+amnxn=bm(1)\left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=b_{1}\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=b_{2}\\ \cdots \cdots \cdots \tag{1} \\ a_{m1}x_{1}+a_{m2}x_{2}+\cdots+a_{mn}x_{n}=b_{m} \end{matrix}\right.⎩⎪⎪⎨⎪⎪⎧a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2⋯⋯⋯am1x1+am2x2+⋯+amnxn=bm(1)

(1)式可以写成以向量xxx为未知元的向量方程
Ax=b(2)Ax=b \tag{2}Ax=b(2)

定理： nnn元线性方程组AX=bAX=bAX=b

(i) 无解的充分必要条件是R(A)<R(A,b)R(A)<R(A,b)R(A)<R(A,b)；

(ii) 有唯一解的充分必要条件是R(A)=R(A,b)=nR(A)=R(A,b)=nR(A)=R(A,b)=n

(iii) 有无限多解的充分必要条件是R(A)=R(A,b)<nR(A)=R(A,b)<nR(A)=R(A,b)<n

定理： nnn元齐次线性方程组Ax=0Ax=0Ax=0有非零解的充分必要条件是R(A)<nR(A)<nR(A)<n

定理： 线性方程组Ax=bAx=bAx=b有解的充分必要条件是R(A)=R(A,b)R(A)=R(A,b)R(A)=R(A,b)

四、矩阵秩在机器学习线性回归算法中的应用(中级)

x1,x2,⋯,xN,xi∈Rnx_{1},x_{2},\cdots,x_{N},x_{i}\in \mathbb{R^{n}}x1,x2,⋯,xN,xi∈Rn表示有NNN个样本，每个样本是nnn维向量

y1,y2,⋯,yN,yi∈R1y_{1},y_{2},\cdots,y_{N},y_{i}\in \mathbb{R^{1}}y1,y2,⋯,yN,yi∈R1表示每个样本的输出，每个输出都为一个标量.

y1=x11a1+x12a2+⋯+x1nany2=x21a1+x22a2+⋯+x2nan⋮yN=xN1a1+xN2a2+⋯+xNnan(x11x12⋯x1nx21x22⋯x2n⋮⋮⋱⋮xN1xN2⋯xNn)=(y1y2⋮yN)XN×nan×1=YN×1y_{1}=x_{11}a_{1}+x_{12}a_{2}+\cdots+x_{1n}a_{n}\\ y_{2}=x_{21}a_{1}+x_{22}a_{2}+\cdots+x_{2n}a_{n}\\ \vdots \\ y_{N}=x_{N1}a_{1}+x_{N2}a_{2}+\cdots+x_{Nn}a_{n} \begin{pmatrix} x_{11}&x_{12}&\cdots&x_{1n}\\ x_{21}& x_{22}& \cdots& x_{2n}\\ \vdots&\vdots &\ddots &\vdots\\ x_{N1}&x_{N2} &\cdots &x_{Nn} \end{pmatrix}=\begin{pmatrix} y_{1}\\y_{2}\\\vdots\\y_{N} \end{pmatrix} \\ X_{N\times n}a_{n\times 1}=Y_{N\times 1} y1=x11a1+x12a2+⋯+x1nany2=x21a1+x22a2+⋯+x2nan⋮yN=xN1a1+xN2a2+⋯+xNnan⎝⎜⎜⎜⎛x11x21⋮xN1x12x22⋮xN2⋯⋯⋱⋯x1nx2n⋮xNn⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛y1y2⋮yN⎠⎟⎟⎟⎞XN×nan×1=YN×1

当N=nN=nN=n且XN×nX_{N\times n}XN×n可逆时：a=X−1Ya=X^{-1}Ya=X−1Y

一般情况下：N≠nN\neq nN=n

那么 min∥Xa−Y∥=Jmin\left \| Xa-Y \right \|=Jmin∥Xa−Y∥=J,构造损失函数,∂J∂a=XT(Xa−Y)=0，XTXa=XTY\frac{\partial J}{\partial a}=X^{T}(Xa-Y)=0，X^{T}Xa=X^{T}Y∂a∂J=XT(Xa−Y)=0，XTXa=XTY,XTXX^{T}XXTX是否可逆？

关于此部分的矩阵损失函数求导以及以下的说明，后续会讲到{\color{red}{关于此部分的矩阵损失函数求导以及以下的说明，后续会讲到}}关于此部分的矩阵损失函数求导以及以下的说明，后续会讲到

1.N>nN>nN>n，如N=5,n=3N=5,n=3N=5,n=3,(xTx)3×3(x^{T}x)_{3\times 3}(xTx)3×3一般是可逆的，a=(XTX)−1XTYa={\color{blue}{(X^{T}X)^{-1}X^{T}}}Ya=(XTX)−1XTY,蓝色部分称为矩阵XXX的伪逆矩阵

2.N<nN<nN<n,如N=3，n=5,(XTX)5×5,R(XTX)≤R(X)≤3N=3，n=5,(X^{T}X)_{5\times 5},R(X^{T}X)\leq R(X)\leq 3N=3，n=5,(XTX)5×5,R(XTX)≤R(X)≤3,所以XTXX^{T}XXTX不可逆。通过加入二范数正则化项，可解决不可逆问题\color{red}{通过加入二范数正则化项，可解决不可逆问题}通过加入二范数正则化项，可解决不可逆问题

补充： 设AAA为m×nm\times nm×n实矩阵，$R(A^{T}A)=R(A)\$
证明： 证明AX=0(1)AX=0 \qquad(1)AX=0(1)与ATAX=0(2)A^{T}AX=0\qquad (2)ATAX=0(2)同解系即可；如下：

显然(1)(1)(1)的解是(2)(2)(2)的解。设X0X_{0}X0是(2)(2)(2)的解，则ATAX0=0A^{T}AX_{0}=0ATAX0=0
所以有X0TATAX0=0,(AX0)TAX0=0X_{0}^{T}A^{T}AX_{0}=0,\qquad (AX_{0})^{T}AX_{0}=0X0TATAX0=0,(AX0)TAX0=0，则AX0=0AX_{0}=0AX0=0，所以X0X_{0}X0也是(2)(2)(2)的解，即两个方程组同解进而基础解系含相同的个数的解向量。所以可得,

n−R(A)=n−R(ATA)R(ATA)=R(A)n-R(A)=n-R(A^{T}A) \\ R(A^{T}A)=R(A) n−R(A)=n−R(ATA)R(ATA)=R(A)

1.向量的线性相关，线性无关以及与可逆矩阵的关系

1.1 线性相关与线性无关

定义: 给定向量组A:a1,a2,⋯,amA:a_{1},a_{2},\cdots,a_{m}A:a1,a2,⋯,am,如果存在不全为零的数k1,k2,⋯,kmk_{1},k_{2},\cdots,k_{m}k1,k2,⋯,km，使
k1a1+k2a2+⋯+kmam=0k_{1}a_{1}+k_{2}a_{2}+\cdots+k_{m}a_{m}=0k1a1+k2a2+⋯+kmam=0
则称向量组AAA是线性相关的，否则为线性无关。

定理： 向量组a1,a2,⋯ama_{1},a_{2},\cdots a_{m}a1,a2,⋯am线性相关的充分必要是它所构成的矩阵A=(a1,a2,⋯,am)A=(a_{1},a_{2},\cdots,a_{m})A=(a1,a2,⋯,am)的秩小于向量个数mmm；向量组线性无关的充分必要条件R(A)=mR(A)=mR(A)=m。

例：试讨论nnn维单位坐标向量组的线性相关性

解：nnn维单位坐标向量组构成的矩阵E=(e1,e2,⋯,en)E=(e_{1},e_{2},\cdots,e_{n})E=(e1,e2,⋯,en)是由nnn阶单位矩阵，由∣E∣=1≠0\left | E \right |=1\neq 0∣E∣=1=0,知R(E)=nR(E)=nR(E)=n，即R(E)R(E)R(E)等于向量组中向量个数，由定理可知，此向量组是线性无关的。

1.2 向量的内积，范数，正交，规范正交基

定义： 设有nnn维向量x=[x1,x2,⋯,xn]T,y=[y1,y2,⋯,yn]x=[x_{1},x_{2},\cdots,x_{n}]^{T},\qquad y=[y_{1},y_{2},\cdots,y_{n}]x=[x1,x2,⋯,xn]T,y=[y1,y2,⋯,yn]，令[x,y]=x1y1+x2y2+⋯+xnyn[x,y]=x_{1}y_{1}+x_{2}y_{2}+\cdots+x_{n}y_{n}[x,y]=x1y1+x2y2+⋯+xnyn称为向量xxx与yyy的内积，内积是两个向量之间的一种运算，其结果是一个实数，用矩阵记号表示，当xxx与yyy都是列向量时，有
[x,y]=xTy[x,y]=x^{T}y[x,y]=xTy

内积具有下列性质(其中x,y,zx,y,zx,y,z为nnn维向量，λ\lambdaλ为实数)

(i) [x,y]=[y,x][x,y]=\left[ y,x \right ][x,y]=[y,x]

(ii)[λx,y]=λ[x,y][\lambda x,y]=\lambda [x,y][λx,y]=λ[x,y]

(iii)[x+y,z]=[x,z]+[y,z][x+y,z]=[x,z]+[y,z][x+y,z]=[x,z]+[y,z]

(iv)当x=0x =0x=0时，[x,x]=0；当x≠0,[x,x]>0[x,x]=0；当x\neq 0,[x,x]>0[x,x]=0；当x=0,[x,x]>0

由这些定义以及二维空间向量夹角的概念cosθ=[a,b]∥a∥∥b∥\color{red}{由这些定义以及二维空间向量夹角的概念cos\theta =\frac{[a,b]}{\left \| a \right \|\left \| b \right \|}}由这些定义以及二维空间向量夹角的概念cosθ=∥a∥∥b∥[a,b]，我们可以推广到高维空间，也可以用来衡量高维空间中两个样本的相似度的一种度量(不同于欧氏距离)

柯西不等式

[x,y]2≤[x,x][y,y][x,y]^{2}\leq[x,x][y,y][x,y]2≤[x,x][y,y]

证明：∀x,y∈Rn,let:z=x−λy,[z,z]=[x−λy,x−λy]=[x,x]−2λ[x,y]+λ2[y,y]≤0∀λ,Δ=4[x,y]2−4[x,x][y,y]≤0,[x,y]2≤[x,x][y,y]\forall x,y\in \mathbb{R}^{n},let:\quad z=x-\lambda y,[z,z]=[x-\lambda y,x-\lambda y]=[x,x]-2\lambda[x,y]+\lambda^{2}[y,y]\leq 0 \\ \forall \lambda,\Delta=4[x,y]^{2}-4[x,x][y,y]\leq 0,\qquad [x,y]^{2}\leq [x,x][y,y]∀x,y∈Rn,let:z=x−λy,[z,z]=[x−λy,x−λy]=[x,x]−2λ[x,y]+λ2[y,y]≤0∀λ,Δ=4[x,y]2−4[x,x][y,y]≤0,[x,y]2≤[x,x][y,y]

范数与正交

**定义:**令∥x∥=[x,x]=x12+x22+⋯+xn2\left \| x \right \|=\sqrt{[x,x]}=\sqrt{x_{1}^{2}+x_{2}^{2}+\cdots+x_{n}^{2}}∥x∥=[x,x]=x12+x22+⋯+xn2,∥x∥\qquad \left \| x \right \|∥x∥称为nnn维向量xxx的长度(或者范数).

当∥x∥=1\left \| x \right \|=1∥x∥=1时，称xxx为单位向量

向量的长度具下述性质：

(i)非负性，当x≠0x\neq 0x=0时，∥x∥>0;\left \| x \right \|>0;∥x∥>0;当x=0x=0x=0时，∥x∥=0\left \| x \right \|=0∥x∥=0

当[x,y]=0[x,y]=0[x,y]=0时，，称向量xxx与yyy正交，显然，若x=0x=0x=0，则xxx与任何向量都正交.

定理: 若nnn维向量a1,a2,⋯ara_{1},a_{2},\cdots a_{r}a1,a2,⋯ar是一组两两正交的非零向量，则a1,a2,⋯,ara_{1},a_{2},\cdots,a_{r}a1,a2,⋯,ar线性无关.

规范正交基

定义: 设nnn维向量e1,e2,⋯,ere_{1},e{2},\cdots,e_{r}e1,e2,⋯,er是向量空间V(V∈Rn)V(V\in \mathbb{R}^{n})V(V∈Rn)的一个基，如果e1,e2,⋯ere_{1},e_{2},\cdots e_{r}e1,e2,⋯er两两正交，且都为单位向量，则称e1,e2,⋯ere_{1},e_{2},\cdots e_{r}e1,e2,⋯er是VVV的一个规范正交基.

若e1,e2,⋯ere_{1},e_{2},\cdots e_{r}e1,e2,⋯er是VVV的一个规范正交基，那么VVV中的任一向量aaa应能由e1,e2,⋯ere_{1},e_{2},\cdots e_{r}e1,e2,⋯er线性表示。

2.施密特正交化

设a1,⋯,ara_{1},\cdots,a_{r}a1,⋯,ar是向量空间VVV的一个基，要求VVV的一个规范正交基，这也就是要找一组两两正交的单位向量e1,⋯,ere_{1},\cdots,e_{r}e1,⋯,er，使e1,⋯,ere_{1},\cdots,e_{r}e1,⋯,er与a1,⋯,ara_{1},\cdots,a_{r}a1,⋯,ar等价，这样的一个问题，称为把a1,a2,⋯,ara_{1},a_{2},\cdots,a_{r}a1,a2,⋯,ar这个基规范正交化。

我们可以用以下办法把a1,⋯,ara_{1},\cdots,a_{r}a1,⋯,ar规范正交化：取
b1=a;b2=a2−[b1,a2][b1,b1]b1⋯⋯⋯br=ar−[b1,ar][b1,b1]b1−[b2,ar][b2,b2]b2−⋯−[br−1,ar][br−1,br−1]br−1b_{1}=a;\\b_{2}=a_{2}-\frac{[b_{1},a_{2}]}{[b_{1},b_{1}]}b_{1}\\\cdots\cdots\cdots\\b_{r}=a_{r}-\frac{[b_{1},a_{r}]}{[b_{1},b_{1}]}b_{1}-\frac{[b_{2},a_{r}]}{[b_{2},b_{2}]}b_{2}-\cdots-\frac{[b_{r-1},a_{r}]}{[b_{r-1},b_{r-1}]}b_{r-1}b1=a;b2=a2−[b1,b1][b1,a2]b1⋯⋯⋯br=ar−[b1,b1][b1,ar]b1−[b2,b2][b2,ar]b2−⋯−[br−1,br−1][br−1,ar]br−1

容易验证，b1,b2,⋯,brb_{1},b_{2},\cdots,b_{r}b1,b2,⋯,br两两正交，且b1,⋯，brb_{1},\cdots，b_{r}b1,⋯，br与a1,⋯ara_{1},\cdots a_{r}a1,⋯ar等价，然后只要对它们单位化，即取

er=1∥br∥br.(r=1,2,⋯,)e_{r}=\frac{1}{\left \| b_{r} \right \|}b_{r}.\qquad (r=1,2,\cdots,)er=∥br∥1br.(r=1,2,⋯,)
就是空间VVV的一个规范正交基

定义： 如果nnn阶矩阵AAA满足ATA=EA^{T}A=EATA=E(即A−1=ATA^{-1}=A^{T}A−1=AT),那么称AAA为正交矩阵，简称正交阵

上式用AAA的列向量表示，即是
[a1Ta2T,⋮anT](a1,a2,⋯,an)=E\begin{bmatrix} a_{1}^{T}\\a_{2}^{T},\\ \vdots\\a_{n}^{T} \end{bmatrix}(a_{1},a_{2},\cdots,a_{n}) =E⎣⎢⎢⎢⎡a1Ta2T,⋮anT⎦⎥⎥⎥⎤(a1,a2,⋯,an)=E

因为ATA=EA^{T}A=EATA=E与AAT=EAA^{T}=EAAT=E等价，所以上述结论对AAA的行向量亦成立。
由此可见，nnn阶正交阵AAA的nnn个列(行)向量构成向量空间Rn\mathbb{R}^{n}Rn的一个规范正交基

3.特征值和特征向量的定义以及直观的意义

定义: 设AAA是nnn阶矩阵，如果数λ\lambdaλ和nnn维非零列向量xxx使关系式
Ax=λxAx=\lambda xAx=λx
成立，那么，这样的数λ\lambdaλ称为矩阵AAA的特征值，非零向量xxx称为AAA的对应特征值λ\lambdaλ的特征向量

直观意义:将一个矩阵作用在一个向量上，即线性变换，得到的向量与原向量平行(或者说线性相关)

特征方程： (A−λE)x=0(A-\lambda E)x=0(A−λE)x=0

特征多项式
∣a11−λa12⋯a1na21a22−λ⋯a2n⋮⋮⋱⋮an1an2⋯ann−λ∣=0\begin{vmatrix} a_{11}-\lambda& a_{12}&\cdots &a_{1n} \\ a_{21}&a_{22}-\lambda &\cdots &a_{2n}\\ \vdots&\vdots &\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn}-\lambda \end{vmatrix}=0∣∣∣∣∣∣∣∣∣a11−λa21⋮an1a12a22−λ⋮an2⋯⋯⋱⋯a1na2n⋮ann−λ∣∣∣∣∣∣∣∣∣=0

推论

(i) λ1+λ2+⋯+λn=tr(A)\lambda_{1}+\lambda_{2}+\cdots+\lambda_{n}=tr(A)λ1+λ2+⋯+λn=tr(A)

(ii)λ1λ2⋯λn=∣A∣\lambda_{1}\lambda_{2}\cdots\lambda_{n}=|A|λ1λ2⋯λn=∣A∣

设λ=λi\lambda=\lambda_{i}λ=λi为矩阵AAA的一个特征值，则由方程(A−λiE)x=0(A-\lambda_{i}E)x=0(A−λiE)x=0可求得非零解x=pix=p_{i}x=pi，那么pip_{i}pi便是AAA的对应特征值λi\lambda_{i}λi的特征向量.

ps: 对于任意矩阵AAA其线性无关的特征向量个数小于矩阵的阶数(即特征值的个数(包含重根个数))

(iii)设λ\lambdaλ是方阵AAA的特征值，则λ2\lambda^{2}λ2是A2A^{2}A2的特征值；当AAA可逆时，1λ\frac{1}{\lambda}λ1是A−1A^{-1}A−1的特征值

Prove：∵λ\because \qquad \lambda∵λ是AAA的特征值

∴p≠0suchthatAp=λp\therefore \qquad p\neq 0\qquad\qquad such \quad that \quad Ap=\lambda p∴p=0suchthatAp=λp

∴A2p=A(Ap)=A(λp)=λ(Ap)=λ2p\therefore \qquad A^{2}p=A(Ap)=A(\lambda p)=\lambda(Ap)=\lambda^{2}p∴A2p=A(Ap)=A(λp)=λ(Ap)=λ2p

WhenAWhen AWhenA是可逆时，由Ap=λpAp=\lambda pAp=λp，有p=λA−1pp=\lambda A^{-1}pp=λA−1p，由于p≠0p\neq 0p=0，知λ≠0\lambda \neq 0λ=0

∴A−1p=1λp\therefore A^{-1}p=\frac{1}{\lambda}p∴A−1p=λ1p

按此例类推，不难证明：若λ\lambdaλ是AAA的特征值，则λk\lambda^{k}λk是AkA^{k}Ak的特征值；φ(λ)\varphi (\lambda)φ(λ)是φ(A)\varphi (A)φ(A)的特征值，其中φ(λ)=a0+a1λ+⋯+amλm\varphi (\lambda)=a_{0}+a_{1}\lambda +\cdots+a_{m}\lambda^{m}φ(λ)=a0+a1λ+⋯+amλm是λ\lambdaλ的多项式，φ(A)=a0E+a1A+⋯+amAm\varphi (A)=a_{0}E+a_{1}A+\cdots+a_{m}A^{m}φ(A)=a0E+a1A+⋯+amAm是矩阵AAA的多项式

定理： 设λ1,λ2,⋯,λm\lambda_{1},\lambda_{2},\cdots,\lambda^{m}λ1,λ2,⋯,λm是矩阵AAA的mmm个特征值，p1,p2,⋯pmp_{1},p_{2},\cdots p_{m}p1,p2,⋯pm依次是与之对应的特征向量，如果λ1,⋯,λm\lambda_{1},\cdots,\lambda_{m}λ1,⋯,λm各不相等，则p1,p2,⋯,pmp_{1},p_{2},\cdots,p_{m}p1,p2,⋯,pm线性无关.

例题设λ1andλ2\lambda_{1} \quad and \quad \lambda_{2}λ1andλ2是矩阵AAA的两个不同的特征值，对应的特征向量依次为p1p_{1}p1和p2p_{2}p2，证明p1+p2p_{1}+p_{2}p1+p2不是AAA的特征向量.

证明： 由题可知，Ap1=λ1p1,A2p=λ2p2Ap_{1}=\lambda_{1}p_{1},\qquad A_{2}p=\lambda^{2}p_{2}Ap1=λ1p1,A2p=λ2p2,所以有A(p1+p2)=λ1p1+λ2p2A(p_{1}+p_{2})=\lambda_{1}p_{1}+\lambda_{2}p_{2}A(p1+p2)=λ1p1+λ2p2

用反证法，假设p1+p2p_{1}+p_{2}p1+p2是AAA的特征向量，则应存在数λ\lambdaλ，使得A(P1+P2)=λ(P1+P2)A(P_{1}+P_{2})=\lambda(P_{1}+P_{2})A(P1+P2)=λ(P1+P2)，于是

λ(p1+p2)=λ1p1+λ2p2\lambda(p_{1}+p_{2})=\lambda_{1}p_{1}+\lambda_{2}p_{2}λ(p1+p2)=λ1p1+λ2p2,即(λ1−λ)p1+(λ2−λ)p2=0(\lambda_{1}-\lambda)p_{1}+(\lambda_{2}-\lambda)p_{2}=0(λ1−λ)p1+(λ2−λ)p2=0

因为λ1≠λ2\lambda_{1}\neq \lambda_{2}λ1=λ2，所以按照定理可知p1,p2p_{1},p_{2}p1,p2线性无关，故由上式得λ1−λ=λ2−λ=0\lambda_{1}-\lambda=\lambda_{2}-\lambda=0λ1−λ=λ2−λ=0,即λ1=λ2\lambda_{1}=\lambda_{2}λ1=λ2。与假设矛盾，因此p1+p2p_{1}+p_{2}p1+p2不是AAA的特征向量。

五、相似矩阵的定义以及矩阵的对角化

**定义：**设A,BA,BA,B都是nnn阶矩阵，若有可逆矩阵PPP,使得
P−1AP=BORPAP−1=BP^{-1}AP=B \qquad OR \qquad PAP^{-1}=BP−1AP=BORPAP−1=B
则称BBB是AAA的相似矩阵，或者说矩阵AAA与BBB相似，对AAA进行运算P−1APP^{-1}APP−1AP称为对AAA进行相似变换，可逆矩阵PPP称为把AAA变成BBB的相似变换矩阵.

定理： 若nnn阶矩阵AAA与BBB相似，则AAA与BBB的特征多项式相同，从而AAA与BBB的特征值亦相同。

证明： 设矩阵BBB的特征多项式为
fB(λ)=∣B−λE∣=∣P−1AP−λP−1EP∣=∣P−1(A−λE)P∣=∣A−λE∣f_{B(\lambda)}=|B-\lambda E|=|P^{-1}AP-\lambda P^{-1}EP|=|P^{-1}(A-\lambda E)P|=|A-\lambda E|fB(λ)=∣B−λE∣=∣P−1AP−λP−1EP∣=∣P−1(A−λE)P∣=∣A−λE∣

推论： 若nnn阶矩阵$A与对角阵相似

Λ=(λ1λ2⋱λn)\Lambda=\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix}Λ=⎝⎜⎜⎛λ1λ2⋱λn⎠⎟⎟⎞
相似，则λ1,λ2,⋯,λn\lambda_{1},\lambda_{2},\cdots,\lambda_{n}λ1,λ2,⋯,λn即AAA的nnn个特征值。

下面我们要讨论的主要问题是：对nnn阶矩阵AAA,寻求相似变换矩阵PPP，使得
P−1AP=ΛP^{-1}AP=\LambdaP−1AP=Λ为对角阵，这就称为把矩阵AAA对角化.

假设已经找到可逆矩阵PPP，使得P−1AP=ΛP^{-1}AP=\LambdaP−1AP=Λ,我们来讨论PPP应满足什么关系.

把PPP用其列向量表示为
P=(p1,p2,⋯,pn)P=(p_{1},p_{2},\cdots,p_{n})P=(p1,p2,⋯,pn)
由P−1AP=ΛP^{-1}AP=\LambdaP−1AP=Λ,得到AP=PΛAP=P\LambdaAP=PΛ

即
A(p1,p2,⋯,pn)=(p1,p2,⋯,pn)(λ1λ2⋱λn)=(λ1p1,λ2p2,⋯,λnpn)A(p_{1},p_{2},\cdots,p_{n})=(p_{1},p_{2},\cdots,p_{n})\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix}=(\lambda_{1}p_{1},\lambda_{2}p_{2},\cdots,\lambda_{n}p_{n})A(p1,p2,⋯,pn)=(p1,p2,⋯,pn)⎝⎜⎜⎛λ1λ2⋱λn⎠⎟⎟⎞=(λ1p1,λ2p2,⋯,λnpn)

于是有，Api=λipi,(i=1,2,⋯,n)Ap_{i}=\lambda_{i}p_{i},\quad (i=1,2,\cdots,n)Api=λipi,(i=1,2,⋯,n)

5.1一般矩阵对角化的条件

定理： nnn阶矩阵AAA与对角阵相似(即AAA能对角化)的充分必要条件是AAA有nnn个线性无关的特征向量.

定理： 设λ1,λ2,⋯,λm\lambda_{1},\lambda_{2},\cdots,\lambda_{m}λ1,λ2,⋯,λm是方阵AAA的mmm个特征值，p1,p2,⋯,pmp_{1},p_{2},\cdots,p_{m}p1,p2,⋯,pm依次是与之对应的特征向量，如果λ1,λ2,⋯,λm\lambda_{1},\lambda_{2},\cdots,\lambda_{m}λ1,λ2,⋯,λm各不相等，p1,p2,⋯,pmp_{1},p_{2},\cdots,p_{m}p1,p2,⋯,pm线性无关。

推论： 如果nnn阶矩阵AAA的nnn个特征值互不相等，则AAA与对角阵相似。

5.2 对称矩阵对角化

定理： 实对称矩阵的特征值为实数。

证明： 设实对称矩阵AAA的特征值为λ\lambdaλ，特征向量为xxx，那么

Ax=λx(1)Ax=\lambda x \qquad (1)\qquad \qquadAx=λx(1)等式两边取共轭，那么得到Aˉxˉ=λˉxˉ\bar{A}\bar{x}=\bar{\lambda}\bar{x}Aˉxˉ=λˉxˉ,

又因为AAA为实对称矩阵，所以可得Axˉ=λˉxˉA\bar{x}=\bar{\lambda}\bar{x}Axˉ=λˉxˉ,等式(1)两边转置并右乘以xˉ\bar{x}xˉ，得
xTAxˉ=λxTxˉx^{T}A\bar{x}=\lambda x^{T}\bar{x}xTAxˉ=λxTxˉ
所以，λˉxTxˉ=λxTxˉ\bar{\lambda}x^{T}\bar{x}=\lambda x^{T}\bar{x}λˉxTxˉ=λxTxˉ,又因为xxx为非零向量，所以λˉ=λ\bar{\lambda}=\lambdaλˉ=λ，即λ\lambdaλ为实数.

定理设λ1,λ2\lambda_{1},\lambda_{2}λ1,λ2是对称矩阵AAA的两个特征值，p1,p2p_{1},p_{2}p1,p2是对应特征向量，若λ1≠λ2\lambda_{1} \neq \lambda_{2}λ1=λ2,则p1p_{1}p1与p2p_{2}p2正交。

证明： 由题可知，λ1p1T=(λ1p1)T=(Ap1)T=p1TA\lambda_{1}p_{1}^{T}=(\lambda_{1}p_{1})^{T}=(Ap_{1})^{T}=p_{1}^{T}Aλ1p1T=(λ1p1)T=(Ap1)T=p1TA,于是λ1p1Tp2=p1TAp2=p1Tλ2p2=λ2p1Tp2\lambda_{1}p_{1}^{T}p_{2}=p_{1}^{T}Ap_{2}=p_{1}^{T}\lambda_{2}p_{2}=\lambda_{2}p_{1}^{T}p_{2}λ1p1Tp2=p1TAp2=p1Tλ2p2=λ2p1Tp2
即
(λ1−λ2)p1Tp2=0(\lambda_{1}-\lambda_{2})p_{1}^{T}p_{2}=0(λ1−λ2)p1Tp2=0

但是λ1≠λ2\lambda_{1}\neq \lambda_{2}λ1=λ2,故p1Tp2=0p_{1}^{T}p_{2}=0p1Tp2=0，即p1与p2p_{1}与p_{2}p1与p2正交。

**结论：**实对称矩阵n×nn\times nn×n一定可以对角化，且一定有nnn个线性无关的特征向量.

定理： 设AAA为nnn阶对称阵，则必有正交矩阵PPP，使得P−1AP=PTAP=ΛP^{-1}AP=P^{T}AP=\LambdaP−1AP=PTAP=Λ,其中Λ\LambdaΛ是以AAA的nnn个特征值为对角元的对角阵。

推论： 设AAA为nnn阶对称阵，λ\lambdaλ是AAA的特征方程的kkk重根，则矩阵A−λEA-\lambda EA−λE的秩R(A−λE)=n−kR(A-\lambda E)=n-kR(A−λE)=n−k ,且对应特征值λ\lambdaλ
恰有kkk个线性无关的特征向量.

对称矩阵对角化步骤:

(i)求出AAA的全部互不相等的特征值λ1,λ2,⋯,λs\lambda_{1},\lambda_{2},\cdots,\lambda_{s}λ1,λ2,⋯,λs,它们的重数依次为k1,k2,⋯,ks,(k1+k2+⋯+ks=n)k_{1},k_{2},\cdots,k_{s},\qquad (k_{1}+k_{2}+\cdots+k_{s}=n)k1,k2,⋯,ks,(k1+k2+⋯+ks=n)。

(ii)对每个kik_{i}ki重特征值λi\lambda_{i}λi，求方程(A−λiE)x=0(A-\lambda_{i}E)x=0(A−λiE)x=0的基础解系。得kik_{i}ki个线性无关得特征向量，再把它们正交化，单位化，得kik_{i}ki个两两正交的单位特征向量，因为k1+⋯+ks=nk_{1}+\cdots+k_{s}=nk1+⋯+ks=n，故总共可得nnn个两两正交的单位特征向量。

(iii) 把这nnn个两两正交的单位特征向量构成正交矩阵PPP，便有P−1AP=PTAP=ΛP^{-1}AP=P^{T}AP=\LambdaP−1AP=PTAP=Λ,注意Λ\LambdaΛ中的对角元的排列次序应与PPP中列向量的排列次序相对应。

5.3 对角化在数据压缩算法中的简单应用

AAA为nnn阶对称阵
A=P−1ΛP=PTΛPA=P^{-1}\Lambda P=P^{T}\Lambda PA=P−1ΛP=PTΛP

存nnn阶的对称阵需要多少个参数呢？n(n+1)2\frac{n(n+1)}{2}2n(n+1)个

令PT=(P1,P2,⋯,PN)P^{T}=(P_{1},P_{2},\cdots,P_{N})PT=(P1,P2,⋯,PN)

A=(P1,p2,⋯,pn)(λ1λ2⋱λn)(p1Tp2T⋮pnT)=λ1p1p1T+λ2p2p2T+⋯+λnpnpnT(1)A=(P_{1},p_{2},\cdots,p_{n})\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix}\begin{pmatrix} p_{1}^{T}\\p_{2}^{T}\\\vdots\\p_{n}^{T} \end{pmatrix}=\lambda_{1}p_{1}p_{1}^{T}+\lambda_{2}p_{2}p^{T}_{2}+\cdots+\lambda_{n}p_{n}p_{n}^{T}\tag{1}A=(P1,p2,⋯,pn)⎝⎜⎜⎛λ1λ2⋱λn⎠⎟⎟⎞⎝⎜⎜⎜⎛p1Tp2T⋮pnT⎠⎟⎟⎟⎞=λ1p1p1T+λ2p2p2T+⋯+λnpnpnT(1)

假设∣λ1∣≥∣λ2∣≥∣λ3∣⋯≥∣λn∣|\lambda_{1}|\geq|\lambda_{2}|\geq|\lambda_{3}|\cdots \geq|\lambda_{n}|∣λ1∣≥∣λ2∣≥∣λ3∣⋯≥∣λn∣

现在需要节省内存，可在损失一点精度的情况下来节省内存。对式子(1)(1)(1)近似，可得

A≈λ1p1p1T+⋯+λkpkpkTk≤nA\approx \lambda_{1}p_{1}p_{1}^{T}+\cdots+\lambda_{k}p_{k}p_{k}^{T} \qquad k\leq nA≈λ1p1p1T+⋯+λkpkpkTk≤n
那么此时需要多少个参数存AAA矩阵呢？

首先λ1,⋯,λk\lambda_{1},\cdots,\lambda_{k}λ1,⋯,λk有kkk个参数，以及向量p1,⋯,pkp_{1},\cdots,p_{k}p1,⋯,pk有n×kn\times kn×k个参数，总共有k(n+1)k(n+1)k(n+1)个参数。

而原需要n(n+1)2=n2(n+1)\frac{n(n+1)}{2}=\frac{n}{2}(n+1)2n(n+1)=2n(n+1)

若n=100n=100n=100，取k=10k=10k=10，那么可节省5倍内存.

损失精度为：
err=1−∑i=1k∣λi∣∑i=1n∣λi∣err=1-\frac{\sum_{i=1}^{k}|\lambda_{i}|}{\sum^{n}_{i=1}|\lambda_{i}|}err=1−∑i=1n∣λi∣∑i=1k∣λi∣

5.4 二次型以及矩阵的正定性

在解析几何中，为了便于研究二次曲线
ax′2+bx′y′+cy′2=1ax'^{2}+bx'y'+cy'^{2}=1ax′2+bx′y′+cy′2=1
的几何性质，可以选择适当的坐标旋转变换
{x=x′cosθ−y′sinθy=x′sinθ+y′cosθ\left\{\begin{matrix} x={x}'cos\theta-{y}'sin\theta\\ y={x}'sin\theta+{y}'cos\theta \end{matrix}\right.{x=x′cosθ−y′sinθy=x′sinθ+y′cosθ
即
(xy)=(cosθ−sinθsinθcosθ)(x′y′)\begin{pmatrix} x\\y \end{pmatrix}=\begin{pmatrix} cos\theta&-sin\theta\\ sin\theta&cos\theta \end{pmatrix}\begin{pmatrix} {x}'\\{y}' \end{pmatrix}(xy)=(cosθsinθ−sinθcosθ)(x′y′)

把方程化为标准型
mx2+ny2=1m{x}^{2}+n{y}^{2}=1mx2+ny2=1

定义： 含有nnn个变量x1,x2,⋯,xnx_{1},x_{2},\cdots,x_{n}x1,x2,⋯,xn的二次齐次函数
f(x1,x2,⋯,xn)=a11x12+a22x22+⋯+annxn2+2a12x1x2+2a13x1x3+⋯+2an−1,nxn−1xnf(x_{1},x_{2},\cdots,x_{n})=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\cdots+a_{nn}x_{n}^{2}+2a_{12}x_{1}x_{2}+2a_{13}x_{1}x_{3}+ \cdots+2a_{n-1,n}x_{n-1}x_{n}f(x1,x2,⋯,xn)=a11x12+a22x22+⋯+annxn2+2a12x1x2+2a13x1x3+⋯+2an−1,nxn−1xn
称为二次型。

对于二次型，我们讨论的主要问题是：寻找可逆的线性变换
{x1=c11y1+c12y2+⋯+c1nynx2=c21y1+c22y2+⋯+c2nyn⋯⋯xn=cn1y1+cn2y2+⋯+cnnyn\left\{\begin{matrix} x_{1}=c_{11}y_{1}+c_{12}y_{2}+\cdots+c_{1n}y_{n}\\ x_{2}=c_{21}y_{1}+c_{22}y_{2}+\cdots+c_{2n}y_{n}\\ \cdots \cdots\\ x_{n}=c_{n1}y_{1}+c_{n2}y_{2}+\cdots+c_{nn}y_{n} \end{matrix}\right.⎩⎪⎪⎨⎪⎪⎧x1=c11y1+c12y2+⋯+c1nynx2=c21y1+c22y2+⋯+c2nyn⋯⋯xn=cn1y1+cn2y2+⋯+cnnyn
使二次型只含平方项，也就是f=k1y12+k2y22+⋯+knyn2f=k_{1}y_{1}^{2}+k_{2}y_{2}^{2}+\cdots+k_{n}y_{n}^{2}f=k1y12+k2y22+⋯+knyn2
这种只含平方项的二次型，称为二次型的标准型(或法式)

如果标准形的系数k1,k2,knk_{1},k_{2},k_{n}k1,k2,kn只在1，-1，0三个数中取值，能使
f=y12+y22−y32+⋯f=y_{1}^{2}+y_{2}^{2}-y_{3}^{2}+\cdotsf=y12+y22−y32+⋯
称上式为二次型的规范型.

一般的二次型可写成
f=a11x12+a12x1x2+⋯+a1nx1xn+a21x2x1+a22x22+⋯+a2nx2xn+⋯+an1xnx1+an2xnx2+⋯+annxn2=∑i,j=1naijxixj=(x1x2,⋯,xn)(a11a12⋯a1na21a22⋯a2n⋮⋮⋱⋮an1an2⋯ann)(x1x2⋮xn)f=a_{11}x_{1}^{2}+a_{12}x_{1}x_{2}+\cdots+a_{1n}x_{1}x_{n}+ \\a_{21}x_{2}x_{1}+a_{22}x_{2}^{2}+\cdots+a_{2n}x_{2}x_{n} \\+\cdots+a_{n1}x_{n}x_{1}+a_{n2}x_{n}x_{2}+\cdots+a_{nn}x_{n}^{2} \\=\sum_{i,j=1}^{n}a_{ij}x_{i}x_{j} \\=\begin{pmatrix} x_{1}&x_{2},\cdots,x_{n} \end{pmatrix}\begin{pmatrix} a_{11}& a_{12}&\cdots &a_{1n}\\ a_{21}& a_{22}&\cdots &a_{2n}\\ \vdots& \vdots&\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn} \end{pmatrix}\begin{pmatrix} x_{1}\\x_{2}\\\vdots\\x_{n} \end{pmatrix}f=a11x12+a12x1x2+⋯+a1nx1xn+a21x2x1+a22x22+⋯+a2nx2xn+⋯+an1xnx1+an2xnx2+⋯+annxn2=i,j=1∑naijxixj=(x1x2,⋯,xn)⎝⎜⎜⎜⎛a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮ann⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞

记
A=(a11a12⋯a1na21a22⋯a2n⋮⋮⋱⋮an1an2⋯ann),x=(x1x2⋮xn)A=\begin{pmatrix} a_{11}& a_{12}&\cdots &a_{1n}\\ a_{21}& a_{22}&\cdots &a_{2n}\\ \vdots& \vdots&\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn} \end{pmatrix},\qquad x=\begin{pmatrix} x_{1}\\x_{2}\\\vdots\\x_{n} \end{pmatrix}A=⎝⎜⎜⎜⎛a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮ann⎠⎟⎟⎟⎞,x=⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞

则二次型可记作
f=xTAxf=x^{T}Axf=xTAx
其中AAA为对称阵.

如果AAA是对角矩阵该多好呀，就变成了标准型甚至规范型.

由前面可知，实对称矩阵一定可对角化，即Λ=PTAP=P−1AP\Lambda=P^{T}A P=P^{-1}A PΛ=PTAP=P−1AP

设x=Pyx=Pyx=Py，则f=yTPTAPy=yTΛyf=y^{T}P^{T}APy=y^{T}\Lambda yf=yTPTAPy=yTΛy,

推论： 对称矩阵AAA为正定的充分必要条件是：AAA的特征值全为正.

定义： 设有二次型f(x)=xTAxf(x)=x^{T}Axf(x)=xTAx,如果对任何x≠0x\neq 0x=0，都有f(x)>0f(x)>0f(x)>0(显然f(0)=0)，则称fff为正定二次型，并称对称阵AAA是正定的；如果对任何
x≠0x\neq 0x=0，都有f(x)<0f(x)<0f(x)<0,则称fff为负定二次型，并称对称矩阵AAA是负定的。

xTAx=∑i=1nλiyi2>0x^{T}Ax=\sum_{i=1}^{n}\lambda_{i}y_{i}^{2}>0xTAx=∑i=1nλiyi2>0,则λi\lambda_{i}λi都为正；正定。

定理： nnn元二次型f=xTAxf=x^{T}Axf=xTAx为正定的充分必要条件：它的标准型的nnn个系数全为正，即它的规范型的nnn个系数全为1，亦即它的正惯性指数等于nnn。

补充半正定：
xTAx≥0⇔λi≥0x^{T}Ax\geq 0 \Leftrightarrow \lambda_{i}\geq 0xTAx≥0⇔λi≥0,注意x≠0x\neq 0x=0

补充负半定:
xTAx≤0⇔λi≤0x^{T}Ax\leq 0 \Leftrightarrow \lambda_{i}\leq 0xTAx≤0⇔λi≤0,注意x≠0x\neq 0x=0

六、矩阵的正定型在机器学习线性回归算法中的运用(高级)

根据文章之前所述，有个问题待解决，问题如下：

N<n,suchasN=3,n=5(XTX)5×5,R(XTX)≤R(X)≤3N<n,such \quad as \quad N=3,n=5\\ (X^{T}X)_{5\times 5}\quad ,R(X^{T}X)\leq R(X)\leq 3N<n,suchasN=3,n=5(XTX)5×5,R(XTX)≤R(X)≤3
故XTXX^{T}XXTX不可逆

此刻，可重新定义损失函数J=∣∣Xa−Y∣∣+λ∣∣a∣∣2J=||Xa-Y||+\lambda ||a||^{2}J=∣∣Xa−Y∣∣+λ∣∣a∣∣2

求导，得到∂J∂a=XTXa−XTY+λa=0\frac{\partial J}{\partial a}=X^{T}Xa-X^{T}Y+\lambda a=0∂a∂J=XTXa−XTY+λa=0
,那么
(XTX+λI)a=XTY(X^{T}X+\lambda I)a=X^{T}Y(XTX+λI)a=XTY
且(XTX+λI)(X^{T}X+\lambda I)(XTX+λI)必可逆，即可得a=(XTX+λI)−1XTYa=(X^{T}X+\lambda I)^{-1}X^{T}Ya=(XTX+λI)−1XTY

关于证明矩阵XTX+λI可逆\color{red}{关于证明矩阵X^{T}X+\lambda I}可逆关于证明矩阵XTX+λI可逆

证明： 从正定性角度来证明

1.aT(xTx)a=(xa)T(xa)≥0a_{T}(x^{T}x)a=(xa)^{T}(xa)\geq 0aT(xTx)a=(xa)T(xa)≥0,即矩阵XTXX^{T}XXTX半正定，所以λi≥0\lambda_{i}\geq 0λi≥0

又因为矩阵(不局限于对称矩阵)的行列式等于其所有特征值相乘，即xTx=λ1λ2⋯λnx^{T}x=\lambda_{1}\lambda_{2}\cdots\lambda_{n}xTx=λ1λ2⋯λn
以下对对称矩阵XTX=P−1(λ1⋱λn)PX^{T}X=P^{-1}\begin{pmatrix} \lambda_{1}& &\\ & \ddots&\\ & &\lambda_{n} \end{pmatrix}PXTX=P−1⎝⎛λ1⋱λn⎠⎞P

两边取行列式,所以XTX=λ1λ2⋯λnX^{T}X=\lambda_{1}\lambda_{2}\cdots\lambda_{n}XTX=λ1λ2⋯λn

又因为矩阵XTXX^{T}XXTX半正定，则λi≥0\lambda_{i}\geq 0λi≥0,所以XTXX^{T}XXTX仍然可能为0，不一定可逆.

2.aT(XTX+λI)a=(Xa)T(Xa)+λaTa>0a^{T}(X^{T}X+\lambda I)a=(Xa)^{T}(Xa)+\lambda a^{T}a>0aT(XTX+λI)a=(Xa)T(Xa)+λaTa>0,即矩阵XTX+λIX^{T}X+\lambda IXTX+λI正定，所以λi≥0\lambda_{i}\geq 0λi≥0

所以∣XTX+λI∣>0|X^{T}X+\lambda I|>0∣XTX+λI∣>0恒成立，一定可逆.

加了正则化项的线性回归也称为岭回归\color{blue}{加了正则化项的线性回归也称为岭回归}加了正则化项的线性回归也称为岭回归

七、SVD分解及其应用

SVD比较复杂，之后再单独分析

机器学习之重温线性代数相关推荐

重温线性代数（1）——线性组合
线性代数是数学中的基础,也是十分重要的数学工具.在接触机器学习之后,我逐渐认识到了线性代数的重要性,矩阵运算,优化求解,都离不开线性代数的知识.同时,我也发现了自己数学基础的严重不足,急需好好重学一遍 ...
重温线性代数（3）——正交、投影
线性代数是数学中的基础,也是十分重要的数学工具.在接触机器学习之后,我逐渐认识到了线性代数的重要性,矩阵运算,优化求解,都离不开线性代数的知识.同时,我也发现了自己数学基础的严重不足,急需好好重学一遍 ...
机器学习中的线性代数之矩阵求导
前面针对机器学习中基础的线性代数知识,我们做了一个常用知识的梳理.接下来针对机器学习公式推导过程中经常用到的矩阵求导,我们做一个详细介绍. 矩阵求导(Matrix Derivative)也称作矩阵微分 ...
【机器学习】【线性代数】均值，无偏估计，总体/样本方差，样本标准差，矩阵中心化/标准化、协方差，正/不/负相关等，协方差矩阵
本篇是概念讲解,协方差以及协方差矩阵的Python实现代码详见:[机器学习][线性代数]协方差+协方差矩阵的多种求解方法的Python实现(公式法 + 样本集中心化方法 + np.cov()法等) 0 ...
机器学习中的线性代数知识（中）
关于作者作者小硕一枚,研究方向为机器学习与自然语言处理,欢迎大家关注我的个人博客https://wangjie-users.github.io/,相互交流,一起学习成长. 前言在机器学习中的线性代 ...
机器学习中的线性代数
第二章机器学习中的线性代数知识线性代数作为数学中的一个重要的分支,广发应用在科学与工程中.掌握好线性代数对于理解和从事机器学习算法相关的工作是很有必要的,尤其是对于深度学习而言.因此,在开始介绍深 ...
10个例子带你了解机器学习中的线性代数
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达转自:机器之心本文介绍了 10 个常见机器学习案例,这些案例需要 ...
初学者 | 10个例子带你了解机器学习中的线性代数
选自 | machinelearningmastery 作者 | Jason Brownlee 编译 | 机器之心参与 | 张倩.刘晓坤本文介绍了 10 个常见机器学习案例,这些案例需要用线性 ...
吴恩达机器学习+林轩田机器学习+高等数学和线性代数等视频领取
机器学习一直是一个热门的领域.这次小编应大家需求,整理了许多相关学习视频和书籍. 本次分享包含:台湾大学林轩田老师的[机器学习基石]和[机器学习技法]视频教学.吴恩达老师的机器学习分享.徐小湛的高等数 ...

机器学习之重温线性代数

目录