第二十六课时:对称矩阵和正定性

本节研究对称矩阵的特征值和特征向量。

对称矩阵的性质:

  • 实对称矩阵的特征值是实数
  • 在对称矩阵的特征向量中,能挑出一组是垂直正交的
    • 如果特征值互不相同,那么每个特征值的特征向量是在单独的一条线上,那些线是垂直正交的;
    • 如果特征值重复,那就有一整个平面的特征向量,在那个平面上,我们可以选择垂直的向量
    • 将这组特征向量转化为标准正交向量,由它们组成的矩阵称为标准正交矩阵。
  • 如果是复矩阵,不仅要求转置相等,而且要求共轭,即:A=A¯TA=\bar A^T

通常情况下,矩阵A可表示为 A=SΛS−1A=S\Lambda S^{-1}
当 A 是对称矩阵的时候,A=QΛQ−1=QΛQTA=Q\Lambda Q^{-1}=Q\Lambda Q^T,Q表示标准正交矩阵。数学上叫这个为谱定理,谱就是指矩阵的特征值集合。

证明:实对称矩阵的特征值是实数

设 λ,x\lambda,x 分别为对称矩阵A的特征值和特征向量,满足:Ax=λxAx=\lambda x. 对式子两边同时取共轭有:A¯x¯=λ¯x¯\bar A\bar x=\bar \lambda \bar x. 对第一个式子两边同时左乘 x¯T\bar x^T,有:

x¯TAx=λx¯Tx

\bar x^TAx=\lambda \bar x^Tx
对第二个式子两边转置并右乘 xx,同时利用实对称(A=A¯,A=ATA=\bar A,A=A^T)性得到:

x¯TAx=λ¯x¯Tx

\bar x^TAx=\bar \lambda \bar x^Tx
对比可知: λ=λ¯\lambda=\bar \lambda,得证。

证明:实对称阵属于不同特征值的的特征向量是正交的

设 λ1,λ2\lambda_1,\lambda_2 为 A 的两个不同特征值,x1,x2x_1,x_2 分别为其对应的特征向量,有:

Ax1=λ1x1Ax2=λ2x2

Ax_1=\lambda_1x_1\\Ax_2=\lambda_2x_2
分别取转置,并分别右乘 x2x_2 和 x1x_1 得:

xT1ATx2=λ1xT1x2xT2ATx1=λ2xT2x1

x_1^TA^Tx_2=\lambda_1x_1^Tx_2\\ x_2^TA^Tx_1=\lambda_2x_2^Tx_1
因为 xT1ATx2x_1^TA^Tx_2 是一个常数,故它等于它的转置,并且根据 A 是实对称矩阵有 A=ATA=A^T,所以

xT1ATx2=(xT1ATx2)T=xT2Ax1=xT2ATx1

x_1^TA^Tx_2=(x_1^TA^Tx_2)^T=x_2^TAx_1=x_2^TA^Tx_1
因此 λ1xT1x2=λ2xT2x1\lambda_1x_1^Tx_2=\lambda_2x_2^Tx_1,又 λ1≠λ2\lambda_1\neq \lambda_2,故 x1⊥x2x_1\perp x_2. 得证。

每一个对称矩阵都是一些相互垂直的投影矩阵的组合

某单位向量(如前面的标准正交向量),乘以自己的转置得到的是什么矩阵:投影矩阵,记得投影矩阵的重要性质:PT=PP^T=P.

A=QΛQT==[q1q2⋯]⎡⎣⎢⎢λ1q2⋱⎤⎦⎥⎥⎡⎣⎢⎢q1q2⋮⎤⎦⎥⎥λ1q1qT1+λ2q2qT2+⋯

\begin{align*} A=Q\Lambda Q^T=&\begin{bmatrix}q_1&q_2&\cdots\end{bmatrix}\begin{bmatrix}\lambda_1\\&q_2\\&&\ddots\end{bmatrix}\begin{bmatrix}q_1\\q_2\\\vdots\end{bmatrix}\\ =&\lambda_1q_1q_1^T+\lambda_2q_2q_2^T+\cdots \end{align*}

对称矩阵特征值的符号:

  • 实对称矩阵的特征值的符号与主元的符号一致;
  • 正主元的个数等于正特征值的个数
  • 特征值之积等于主元之积,因为特征值之积等于行列式,主元之积为行列式。

正定矩阵

如果一个实对称矩阵特征值都是正数,那么它是正定矩阵。

性质:

  • 主元也都是正数
  • 所有子行列式都是正数

正定矩阵将方阵特征值,主元,行列式融为一体。

第二十五课时:复矩阵和快速傅里叶变换FFT

复向量和复矩阵

定复向量z,每个元素是复数,z 向量是在 CnC^n 而不是在 RnR^n 中,即n 维复空间

复向量的模

复向量的模不能向实向量那样求 zTzz^Tz。举例:(1i)T(1i)=0(1 \;i)^T(1\;i)=0. 但如果求向量与共轭向量的乘积,那就可以,(1−i)T(1i)=2(1 \;-i)^T(1\;i)=2.

复向量求模时,在做转置的时候还需要求共轭复数
用 zHzz^Hz 表示,这就是模长的平方。zHz^H 表示对向量z 的转置并共轭,H 代表埃尔米特 Hermite。复向量的内积:yHxy^Hx。

埃尔米特矩阵(复对称矩阵)

埃尔米特矩阵:对于复矩阵,复对称矩阵需满足的是AH=A,AH 表示的是对角线上元素不变,其余对称的元素转置时变为共轭复数。

实对称矩阵的结论对复对称矩阵同样成立:对称矩阵和埃尔米特矩阵的特征值是实数,特征向量相互垂直。

酉矩阵(复空间的标准正交矩阵)

如果一组复向量 q1,12,⋯,qnq_1,1_2,\cdots,q_n 是标准正交基,向量间模为1,那么有:

qHiqj={0,i≠j1,i=j

q_i^Hq_j=\begin{cases} 0,i\neq j\\ 1,i=j \end{cases}

综合考虑实矩阵和复矩阵可知,正交矩阵需要满足的条件即为:QHQ=IQ^HQ=I,在复空间叫做酉矩阵(unitary,n 阶方阵,列
向量正交,单位向量)。

傅里叶矩阵:最著名的酉矩阵

n阶傅里叶矩阵定义如下:

Fn=1n√⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢111⋮11ww2⋮wn−11w2w4⋮w2(n−1)⋯⋯⋯⋱⋯1wn−1w2(n−1)⋮w(n−1)2⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥,(Fn)jk=wjk

F_n=\frac{1}{\sqrt n}\begin{bmatrix} 1&1&1&\cdots&1\\ 1&w&w^2&\cdots&w^{n-1}\\ 1&w^2&w^4&\cdots&w^{2(n-1)}\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 1&w^{n-1}&w^{2(n-1)}&\cdots&w^{(n-1)^2} \end{bmatrix},(F_n)_{jk}=w^{jk}
元素是 ww 的幂,且 wn=1w^n=1 (n 是矩阵阶数),在复平面内, ww 落在单位圆上,故 w=ei2π/nw=e^{i2\pi/n}。(在复数域内指数函数的定义: eix=cosx+isinxe^{ix}=\text{cos}x+i\text{sin}x)

例如,

  • 当 n=6n=6 时, w=ei2π/6=12+3√2i,w6=1w=e^{i2\pi/6}=\frac{1}{2}+\frac{\sqrt 3}{2}i,w^6=1,可以说 1 的 6 次方根是它们,ww 是原根;
  • 当 n=4n=4 时,w=ei2π/4=iw=e^{i2π/4}=i(刚好是90°),w2=−1w^2=-1,w3=−iw^3=-i,w4=1w^4=1。
  • F4F_4 定义如下:
    F4==14√⎡⎣⎢⎢⎢⎢11111ii2i31i2i4i61i3i6i9⎤⎦⎥⎥⎥⎥=⎡⎣⎢⎢⎢11111i−1−i1−11−11−i−1i⎤⎦⎥⎥⎥12⎡⎣⎢⎢⎢⎢1010010110−100i0−i⎤⎦⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢111i2111i2⎤⎦⎥⎥⎥⎥⎡⎣⎢⎢⎢1000001001000001⎤⎦⎥⎥⎥

    \begin{align*} F_4=&\frac{1}{\sqrt 4}\begin{bmatrix}1&1&1&1\\1&i&i^2&i^3\\1&i^2&i^4&i^6\\1&i^3&i^6&i^9\end{bmatrix}=\begin{bmatrix}1&1&1&1\\1&i&-1&-i\\1&-1&1&-1\\1&-i&-1&i\end{bmatrix}\\ =&\frac{1}{2}\left[ \begin{array}{cc|cc}1& 0&1&0 \\ 0& 1&0&i \\ \hline 1& 0&-1&0 \\ 0& 1&0&-i \end{array}\right] \begin{bmatrix}1&1&&\\1&i^2&&\\&&1&1\\&&1&i^2\end{bmatrix} \begin{bmatrix}1&0&0&0\\0&0&1&0\\0&1&0&0\\0&0&0&1\end{bmatrix} \end{align*}

  • F−14=FH4,FH4F4=IF_4^{-1}=F_4^H,F_4^HF_4=I

傅里叶变换:向量左乘矩阵 F4F_4(四点傅里叶变换)
傅里叶逆变换:向量左乘矩阵 F−14F_4^{-1}(四点傅里叶逆变换)
一个很好的性质:傅里叶矩阵可以分解为一些列“稀疏矩阵”。

快速傅里叶变换

F2nF_{2n} 与 FnF_n 之间的联系:

F2n=[IID−D][FnFn]P

F_{2n}=\begin{bmatrix}I&D\\I&-D\end{bmatrix}\begin{bmatrix}F_n&\\&F_n\end{bmatrix}P

P是 奇偶置换矩阵,上部分阶梯型的1 是在列 0,2,4,...,620,2,4,...,62,下部分阶梯型的1 是在列 1,3,...,631,3,...,63,P 乘以一个向量,它把偶数位置上的分量全部排到奇数前面。例子见上文的 F4F_4。

所以:F64F_{64} 与向量或矩阵相乘的计算开销由原来的 64264^2 变成:2∗322+322*32^2+32,加32 是左乘对角阵D 的开销,乘I 或P 的计算开销忽略不计。

而且,F32F_{32} 又可以继续 递归分解,进一步减少计算开销,开销将变为:2(2×(162)+16)+322(2\times(16^2)+16)+32。最终分解为二阶,一阶傅里叶矩阵,左右两侧却堆满了修正矩阵,共有 log264=6\text{log}_264=6 个修正矩阵,第一次是32 阶,然后16,8,4,2,1,一共6 步。计算开销最终变为 6×64=64log2646\times64=64\text{log}_264,因此:

对于n 阶傅里叶变换,无需 n2n^2 次乘法,只需要12nlog2n\frac{1}{2}n\text{log}_2n 即可。

这是矩阵分解FFT的功劳。

第二十八课时:正定矩阵和二次型

2x2 矩阵正定性(positive definite)的判定:

  • λ1>0,λ2>0\lambda_1>0,\lambda_2>0
  • 所有子行列式大于零:a>0,ac−b2>0a>0,ac-b^2>0
  • 主元方法:第一个主元 a>0a>0,第二个主元(ac−b2)/a>0(ac-b^2)/a>0
  • 二次型(quadratic form)判断方法::xTAx>0x^TAx>0,xx 是任意非零任意向量,x=(x,y),f(x,y)=xTAx=ax2+2bxy+cy2x=(x,y),f(x,y)=x^TAx=ax^2+2bxy+cy^2

其中最后一种方法是大多数情况下正定性的定义。

定理: xTAx>0⇔x^TAx>0 \Leftrightarrow AA 的所有特征值是正的 ,其中 An×nA_{n\times n} 为实对称矩阵。

证明:
充分性:若 xTAx>0x^TAx>0,且 λ\lambda 为 AA 的一个特征值,则对于属于 λ\lambda 的任意特征向量 xx,有:

xTAx=λxTx=λ∥x∥2

x^TAx=\lambda x^Tx=\lambda \|x\|^2
因此 λ=xTAx∥x∥2>0\lambda=\frac{x^TAx}{\|x\|^2}>0.
必要性:若 AA 的所有特征值均为正. 令 {u1,u2,⋯,un}\{u_1,u_2,\cdots,u_n\} 为 AA 的一组规范正交特征向量基. 若 xx 为 RnR^n 中的任意非零向量,则 xx 可写成:

x=c1u1+c2u2+⋯+cnun

x=c_1u_1+c_2u_2+\cdots+c_nu_n
其中:ci=xTui,i=1,⋯,nc_i=x^Tu_i,i=1,\cdots,n 且 ∑ni=1c2i=∥x∥2>0\sum_{i=1}^nc_i^2=\|x\|^2>0.
由此可得:

xTAx====≥xT(c1Au1+c2Au2+⋯+cnAun)xT(c1λ1u1+c2λ2u2+⋯+cnλnun)c21λ1uT1u1+c22λ2uT2u2+⋯+c2nλnuTnun∑i=1n(ci)2λi(minλi)∥x∥2>0

\begin{align*} x^TAx=&x^T(c_1Au_1+c_2Au_2+\cdots+c_nAu_n) \\ =&x^T(c_1\lambda_1u_1+c_2\lambda_2u_2+\cdots+c_n\lambda_nu_n)\\ =&c_1^2\lambda_1u_1^Tu_1+c_2^2\lambda_2u_2^Tu_2+\cdots+c_n^2\lambda_nu_n^Tu_n\\ =&\sum_{i=1}^n(c_i)^2\lambda_i \\ \geq &(\text{min}\lambda_i)\|x\|^2>0 \end{align*}
因此, AA 是正定的.

半正定矩阵(semi-positive definite matrix):

  • 不是正定矩阵
  • 对称的
  • 成为正定矩阵的临界点
  • 奇异矩阵
  • 有特征值0
  • 特征值大于等于0

判定非正定矩阵

对于矩阵[2667]\begin{bmatrix}2&6\\6&7\end{bmatrix},对应的 f(x,y)=2x2+12xy+7y2f(x,y)=2x^2+12xy+7y^2 的函数图像可以告诉我们一些信息。

经过原点,在某个方向上向上,但在另一个方向向下,像马鞍面,中间的那个点就是鞍点,是某个方向上的极大值,另一个方向的极小值。实际上,最佳观测方向是沿特征向量的方向。

判定正定矩阵

对于矩阵[26620]\begin{bmatrix}2&6\\6&20\end{bmatrix},得到的式子是二次形式,不再是线性的(Ax 是线性的),纯二次形式,没有线性部分,没有常数项。

x=(x,y)x=(x,y),f(x,y)=xTAx=ax2+2bxy+cy2f(x,y)=x^TAx=ax^2+2bxy+cy^2=2x2+12xy+20y2=2(x+3y)2+2y22x^2+12xy+20y^2=2(x+3y)^2+2y^2。(通过配方法completing the square得到,配方实际上就是消元,消元时第一行要乘以3 倍减去第二行,在配方结果中,两个主元2,2 是平方项外边系数,消元时所乘3 倍数在平方里面)

它的图像形状像个碗,纯二次形式,经过原点,有极小值,极小值所在切面所有一阶导数都为0。如果在碗状上高度为1 的位置做一个切面,那这个切面就是一个椭圆2(x+3y)2+2y2=12(x+3y)^2+2y^2=1。

怎样判断极小值

微积分中,判定是否有极值,首先需要判断导数是否为0,然后要确定是极大值还是极小值,此时需要看二阶导数,二阶导数大于0 时,有极小值。

而现在,线性代数中,函数 f(x1,x2,...,xn)f(x_1,x_2,...,x_n)存在极小值的条件是:二阶导数矩阵是正定矩阵。二阶导数矩阵:如下 2 维变量x,yx,y,

[fxxfyxfxyfyy]

\begin{bmatrix}f_{xx}&f_{xy}\\f_{yx}&f_{yy}\end{bmatrix}
用 fxxf_{xx} 表示对 xx 变量的二阶导,fxyf_{xy} 与 fyxf_{yx} 是相等的,因为不管先求哪个的导数得到的结果都是一样,它存在极小值的条件是它是正定矩阵。

主轴定理

考虑,3×3 的矩阵。如果在f 所表示的几何图形上面,高度为1(f=1)的地方做切割,得到的图形则是一个扁的橄榄球,有一个长轴,另外两个轴相等,类似于一个矩阵有一重复的特征值,另一个不同(3 个特征值)。如果是球的话,那就是单位矩阵,所有的特征值相同

但是一般的情况下,三个特征值都不相同,它相当于有一个长轴,一个中轴,一个短轴,三个轴的方向就是特征向量的方向,轴的长度由特征值大小来决定。

可以将对称矩阵 AA 写成 QΛQTQ\Lambda Q^T,这是主轴定理特征向量说明主轴的方向,特征值说明那些轴的长度,这是特征值理论中最重要的分解。

正定矩阵的性质:

  • 若 AA 是一个正定矩阵,那么 A−1A^{-1} 也是正定矩阵(其特征值为原来的倒数)
  • 如果 A,BA,B 都是正定矩阵,那么 A+BA+B 也是正定的

  • 在第16课时中,我们已经证明了:

    如果矩阵 Am×nA_{m\times n} 各列线性无关,则 ATAA^TA 是可逆矩阵

这也是最小二乘方程存在最优解的条件。
其实 ATAA^TA 也是正定矩阵,因为 xT(ATA)x=(Ax)T(Ax)=|Ax|2>0x^T(A^TA)x = (Ax)^T(Ax) = |Ax|^2 > 0.

第二十九课时:相似矩阵和若尔当形

相似矩阵(similar matrix)

AA 和 BB 是两个 n×nn\times n 方阵,如果存在某个可逆矩阵 MM,使得:B=M−1AMB=M^{-1}AM,那么 AA 和 BB 是相似的。

我们注意到,对角矩阵 Λ=S−1AS\Lambda=S^{-1}AS,可见对角阵是 AA 的相似矩阵。对角阵是所有相似矩阵里面最简洁的一种,还有许多其他矩阵与A 相似。

性质1:相似矩阵具有相同的特征值

注意特征向量并不相同.此性质说明具有相同特征值的一类矩阵,两个矩阵之间由一个可逆 MM 联系起来
证明
有 Ax=λxAx=\lambda x,假设 λ\lambda 是 AA 的特征值,那么 AMM−1x=λxAMM^{-1}x=\lambda x,等式两边同时乘以 M−1M^{-1},M−1AMM−1x=λM−1xM^{-1}AMM^{-1}x=\lambda M^{-1}x,同时有B=M−1AMB=M^{-1}AM,所以前面的式子化为:BM−1x=λM−1xBM^{-1}x =\lambda M^{-1}x,此等式表明 λ\lambda 是 BB 的一个特征值。

性质2:若 AA 的特征向量为 xx,则相似矩阵 BB 的特征向量为 M−1xM^{-1}x;

特殊情况

当矩阵 AA 有重复的特征值,那么意味着 AA 的特征向量会共线,矩阵可能无法对角化。

假设 AA 的特征值:λ1=λ2=4\lambda_1=\lambda_2=4

  • 对角阵
    A=[4004]A=\begin{bmatrix}4&0\\0&4\end{bmatrix},那么 M−1AMM^{-1}AM 仍旧为 AA,这样的对角矩阵是单一的一类矩阵,它的相似矩阵只有自己
  • 不可对角化的矩阵
    A=[4014]A=\begin{bmatrix}4&1\\0&4\end{bmatrix},它可以找到一类矩阵与它相似(但不是对角阵),如果把右上角的元素换成其他的数,也是一样的能找到相应的 MM 使之与其相似

右上角是 1 的特征值重复的三角矩阵称为若尔当标准型(Jordan form)。若尔当标准型是最接近对角阵的一个,但又不完全对角化。

不可对角化的矩阵的相似矩阵

对于有重复特征值的无法对角化的矩阵,都可以通过某种特殊方法,完成近似的“对角化”。

相似矩阵
有相同的迹和相同的行列式。它们的特征值相等,且所有特征值都重复。比如:(trace=8,det=16)

[4014],[5−113],[41004],[am08−a],⋯

\begin{bmatrix}4&1\\0&4\end{bmatrix},\begin{bmatrix}5&1\\-1&3\end{bmatrix},\begin{bmatrix}4&0\\10&4\end{bmatrix},\begin{bmatrix}a&0\\m&8-a\end{bmatrix},\cdots

不相似的矩阵
有的矩阵虽然有相同的特征值,但它们并不相似

若尔当块大小不一样,所以两个矩阵不相似

⎡⎣⎢⎢⎢⎢0000100001000000⎤⎦⎥⎥⎥⎥,⎡⎣⎢⎢⎢⎢0000100000000010⎤⎦⎥⎥⎥⎥

\left[\begin{array}{ccc|c}0&1&0&0\\ 0&0&1&0\\ 0&0&0&0 \\ \hline 0&0&0&0\end{array}\right], \left[\begin{array}{cc|cc}0&1&0&0\\ 0&0&0&0\\ \hline 0&0&0&1 \\ 0&0&0&0\end{array}\right]

  • 第一个矩阵,λ1=λ2=λ3=λ4=0\lambda_1=\lambda_2=\lambda_3=\lambda_4=0,特征向量为整个零空间,零空间是二维的。如果把第一行的第三个元素改为7,特征值仍然相等,特征向量个数仍然相等,修改过的矩阵和原先的矩阵相似,但因为之前的矩阵很美观,所以选择前者。
  • 第二个矩阵,4 个特征值仍然全为0,特征向量的个数为2

但若尔当认为第二个矩阵并不相似与第一个矩阵

第一个矩阵由3×3 的矩阵和1×1 的矩阵若尔当块组成,第二个矩阵由两个2×2 的分块组成,这些分块称为若尔当块。因为若尔当块大小不一样,所以若尔当认为两个矩阵并不相似

若尔当块
JiJ_i 表示 ii 阶的若尔当块,它只有一个重复的特征值,对角线上全是λi\lambda_i,在对角线上一斜线全是1(i-1个),其它全为0,只有一个特征向量

Ji(λ)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢λ01λ1⋱⋱⋱01λ⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥

J_i(\lambda)=\begin{bmatrix}\lambda&1&&&0\\&\lambda&1&&\\&&\ddots&\ddots&\\&&&\ddots&1\\0&&&&\lambda\end{bmatrix}

若尔当阵J
由若尔当块构成的矩阵,特征值位于对角线上,对角线上方有若干个1,若尔当块的数量等于特征向量的个数,因为每一块对应于一个特征向量。

若尔当定理
每个方阵 AA 都相似于一个若尔当阵 JJ。如果方阵 AA 有 nn 个互不相同的特征值,那么它是一个可对角化的矩阵,对应的若尔当阵就是对角阵 Λ\Lambda,J=ΛJ=\Lambda,d=nd=n。

第三十课时:奇异值分解(SVD)

AB 与 BA 的特征值相同

奇异值分解(Singular Value Decomposition,SVD),这是矩阵最终和最好的分解。任意矩阵 A=UΣVTA=U\Sigma V^T,分解的因子是正交矩阵,对角矩阵,正交矩阵。

正定矩阵的奇异值分解

A=SΛS−1=QΛQTA = S\Lambda S^{-1}= Q\Lambda Q^T,正定矩阵由于其对称性,它们的特征向量是正交的,特征向量矩阵 SS 可以改写为 QQ(A=SΛS−1A = S\Lambda S^{-1} 是一般情况下的矩阵分解);正定矩阵由于其正定性,一般的 Λ\Lambda 矩阵成为正的 Λ\Lambda 矩阵。正定矩阵的奇异值分解不需要两个 UU,VV 矩阵

奇异值分解的理解

AA 是 m×nm\times n 的矩阵,在行空间中找个典型变量,记为 v1v_1,然后变换到列空间的某向量,记为 u1u_1,有 u1=Av1u_1=Av_1。在奇异值分解中,要找行空间的一组正交基,然后变换成列空间的一组正交基

首先,这个行空间能找到一组正交基(格拉姆-施密特正交化),但这组正交基经过 AA 变换后不一定能在列空间成为正交基,所以行空间中的正交基要找特殊的。考虑零空间,这些零空间体现在对角矩阵 Σ\Sigma 中是0。

AvAv 变换过程中,我希望转换得到的正交单位向量,所以 u1,u2,⋯u_1,u_2,\cdots 是单位正交基,同时 u1,u2,⋯u_1,u_2,\cdots 也是单位正交基,Av1Av_1 等于 u1u_1 的一个倍数,即:σu1=Av1\sigma u1=Av_1,σ\sigma 称为伸缩因子。这种转换关系写成矩阵形式就是:

A[v1v2⋯vr]=[u1u2⋯ur]⎡⎣⎢⎢σ1σ2⋱⎤⎦⎥⎥

A\begin{bmatrix}v_1&v_2&\cdots&v_r\end{bmatrix}=\begin{bmatrix}u_1&u_2&\cdots&u_r\end{bmatrix}\begin{bmatrix}\sigma_1&&\\&\sigma_2&\\&&\ddots\end{bmatrix}
转化为:AV=UΣAV=U\Sigma,(对于正定矩阵,这里是 AQ=QΣAQ=Q\Sigma)

如果 AA 存在零空间,那么行空间是 rr 维,零空间是 n−rn-r 维,我们同样可以取一组正交基。如果基零空间的向量为 vr+1,⋯,vnv_{r+1},\cdots,v_n,那么 Avr+1Av_{r+1} 将得到零向量,得到对角阵 Σ\Sigma 对角线下方有一些0。

需要把整个 RnR^n 空间的标准正交基完善成整个 RmR^m 空间的标准正交基,在对角阵 Σ\Sigma 中用 0 来完善,所以存在零空间时没问题,但行空间和列空间的基向量才是主要的。

求 VV 和 UU 的方法

找V(行空间的正交基+零空间)
ATA=VΣTUTUΣVT=VΣ2VTA^TA=V\Sigma^TU^TU\Sigma V^T=V\Sigma^2V^T,得到的形式即:ATA=QΛQTA^TA=Q\Lambda Q^T,因此 ATAA^TA 是一个正定矩阵,它的特征向量标准正交组成 QQ,特征值是 σ2\sigma^2 组成 Λ\Lambda。注意 σ2\sigma^2 是 Av=σuAv=σu 的伸缩因子,σ2\sigma^2 是 ATAA^TA 的特征值。σ\sigma 取 σ2\sigma^2 的正平方根。

找U(列空间的正交基+左零空间)
AAT=UΣVTVΣTUT=UΣ2UTAA^T=U\Sigma V^TV\Sigma^TU^T=U\Sigma^2U^T,同样,形式即:AAT=QΛQTAA^T =Q\Lambda Q^T,因此AATAA^T 是一个正定矩阵,它的特征向量标准正交组成 QQ,特征值是 σ2\sigma^2 组成 Λ\Lambda。注意 σ\sigma 是 Av=σuAv=σu 的伸缩因子,σ2\sigma^2 是 AATAA^T 的特征值。

因此,AATAA^T 和 ATAA^TA 是特征值相同,特征向量不同的相似矩阵

奇异值分解
在线性代数的四个子空间中选出合适的基,v1v_1 到 vrv_r 是行空间的标准正交基,用零空间的标准正交基 vr+1v_{r+1} 到 vnv_n 补充完整,u1u_1 到 uru_r 是列空间的标准正交基,用左零空间的标准正交基 ur+1u_{r+1} 到 umu_m 补充完整。AA 乘以每一个 vv 对应一个 uu 的方向,Avi=σiuiAv_i=\sigma_iu_i,可将矩阵对角化 A=UΣV−1=UΣVTA=U\Sigma V^{-1}=U\Sigma V^T。

例1:

如下 AA 矩阵,可逆,秩为2,需要在行空间 R2R^2 中找标准正交向量 v1,v2v_1,v_2,列空间 R2R^2 找标准正交向量 u1,u2u_1,u_2,系数缩放因子 σ1>0,σ2>0\sigma_1>0, \sigma_2>0,使的 Av_1=\sigma_1u_1, Av_2=\sigma_2u_2Av1=σ1u1,Av2=σ2u2Av_1=\sigma_1u_1, Av_2=\sigma_2u_2。
A=\begin{bmatrix}4&4\\-3&3\end{bmatrix}

A=[4−343]

A=\begin{bmatrix}4&4\\-3&3\end{bmatrix}
A 矩阵不是对称矩阵,它的特征向量不是正交的。计算A^TAATAA^TA 的特征值和特征向量,并将特征向量标准化,得到 VVV,然后利用 AV=UΣAV=U\Sigma 求解 UU。

[4−343]=[100−1][32−−√0032−−√][1/2√1/2√1/2√−1/2√]

\begin{bmatrix}4&4\\-3&3\end{bmatrix}= \begin{bmatrix}1&0\\0&-1\end{bmatrix} \begin{bmatrix}\sqrt{32}&0\\0&\sqrt{32}\end{bmatrix} \begin{bmatrix}1/\sqrt2&1/\sqrt2\\1/\sqrt2&-1/\sqrt2\end{bmatrix}

例2:

这时矩阵 A2×2A_{2\times 2} 的秩为1,行空间是一维的,零空间是一维的,列空间也是一维的,左零空间也是一维的。行空间和零空间中可找出一组正交基转换到列空间和左零空间的一组正交基。

A=[4836]=15√[122−1][125−−−√000][0.80.60.6−0.8]

A=\begin{bmatrix}4&3\\8&6\end{bmatrix}=\frac{1}{\sqrt5} \begin{bmatrix}1&2\\2&-1\end{bmatrix} \begin{bmatrix}\sqrt{125}&0\\0&0\end{bmatrix} \begin{bmatrix}0.8&0.6\\0.6&-0.8\end{bmatrix}

问题:如何理解奇异值?

https://zhihu.com/question/22237507/answer/53804902

第三十一课时:线性变换与对应矩阵

线性变换(linear transformation)的两个条件:

  • T(v+w)=T(v)+T(w)T(v+w)=T(v)+T(w)
  • T(cv)=cT(v)T(cv)=cT(v)

例如:

  • 投影就是一种线性变换。通过线性变换使得平面内的一个向量变成平面内的另一个向量。T:R2→R2T:R^2\rightarrow R^2,这种变换关系通常称为“映射”。在平面中将向量 vv 投影到直线上,T(v)T(v)就像一个函数,对某输入进行变换,结果得到一个输出;
  • 特例:T(0)=0,这可以用来判断某些变换是否是线性变换
  • 平面平移:假如平面内的所有向量,沿着某个方向平移 v0v_0,T(v)=v+v0T(v)=v+v_0,这不是线性变换,因为不符合以上两个条件。平面平移不是一个线性变换;
  • 求向量长度:T(v)=∥v∥T(v)=\|v\|,T:R3→RT:R^3\rightarrow R 不是一个线性变换;
  • 旋转45°:一个线性变换

T(v)=AvT(v)=Av 是一个线性变换

因为它满足:T(v+w)=A(v+w)=Av+Aw+T(v)+T(w)T(v+w)=A(v+w)=Av+Aw+T(v)+T(w),T(cv)=cAv=cT(v)T(cv)=cAv=cT(v)

例如:A=[100−1]A=\begin{bmatrix}1&0\\0&-1\end{bmatrix},表示对向量 v=[xy]v=\begin{bmatrix}x\\y\end{bmatrix} 的 xx 保持不变,将 yyy 反号。相当于沿 xxx 翻转。

又如:线性变换 T:R^3\rightarrow R^2T:R3→R2T:R^3\rightarrow R^2,输入是三维向量,输出是二维向量。将三维空间映射到二维空间。令 T(v)=AvT(v)=AvT(v)=Av,那么 AA 就是一个 2×32\times 3 的矩阵。

线性变换对输入空间和输出空间的影响 ???

假设输入空间 RnR^n 可由一组基 v1,v2,⋯,vnv_1,v_2,\cdots,v_n 生成,输入空间 RmR^m 由一组基 w1,w2,⋯,wmw_1,w_2,\cdots,w_m 生成.

只要确定了线性变换对于输入空间基向量的影响,就可确定对整个输入空间的影响。因为 T(v)=c1T(v1)+c2T(v2)+⋯+⋯+cnT(vn)T(v)=c _1T(v_1)+c_2T(v_2)+\cdots+\cdots+c_nT(v_n),v=c1v1+c2v2+⋯+cnvnv=c_1v_1+c_2v_2+\cdots+c_nv_n.

矩阵A 表示线性变换 T:Rn→RmT:R^n\rightarrow R^m

还是考虑投影变换,假定输入空间的基向量,第一个基向量就是被投影的直线上的单位向量 v1v_1,第二个基向量是垂直于该直线的单位向量 v2v_2,输出空间的基向量与输入空间的一样。

设输入向量 v=c1v1+c2v2v=c_1v_1+c_2v_2,那么输出向量为 w=c1v1w=c_1v_1,投影矩阵为 [1000]\begin{bmatrix}1&0\\0&0\end{bmatrix}。

(投影矩阵的特征值为0 和1)

这组基实际上都是线性变换(投影变换)的特征向量,所以得到的矩阵是由特征值组成的对角阵 Λ\Lambda。

如果以特征向量为基,可以得到对角阵 Λ\Lambda ,对角线上都是特征值。如上例中,线性变换的特征向量分别与直线方向相同,以及垂直于直线,特征值分别是1,0。最好的坐标系由特征向量组成

假如上例中以原始坐标系作为基,将得到不一样的投影矩阵,同样的投影,但矩阵不再是对角阵。也就是说不同的矩阵可表示同一线性变换

如何确定 AA

假设输入基和输出基分别是 v1,⋯,vnv_1,\cdots,v_n 和 w1,⋯,wmw_1,\cdots,w_m
矩阵的第一列:线性变换对于第一个基向量产生怎样的影响?最直接的方法是:对 v1v_1 进行线性变换,
T(v1)=a11w1+a21w2+⋯+am1wmT(v_1)=a_{11}w_1+a_{21}w_2+\cdots+a_{m1}w_m,这些系数 a11,a21,⋯,am1a_{11},a_{21},\cdots,a_{m1} 组成了矩阵的第一列。
第二列:
T(v2)=a12w1+a22w2+⋯+am2wmT(v_2)=a_{12}w_1+a_{22}w_2+\cdots+a_{m2}w_m,得到矩阵的第二列。

这样就可以得到变换矩阵A,A 乘以输入向量可得到变换后的向量。线性变换可以在没有坐标系的情况下进行,而矩阵用坐标来表示线性变换。

更重要的是:矩阵的逆相当于线性变换的逆。矩阵的乘积相当于线性变换的乘积。矩阵乘法也源于线性变换

一个特别的线性变换

这个线性变换的作用是求导。三维空间到二维空间的线性变换,输入空间和输出空间的基,输入和输出如图所示。其实,求导就是线性运算。

例如,对 c1+c2x+c3x2c_1+c_2x+c_3x^2 求导,其中基为1,x,x21,x,x^2。结果为 c2+2c3xc_2+2c_3x,基为 1,x1,x。
此时 AA 满足:

[001002]⎡⎣⎢c1c2c3⎤⎦⎥=[c22c3]

\begin{bmatrix}0&1&0\\0&0&2\end{bmatrix}\begin{bmatrix}c_1\\c_2\\c_3\end{bmatrix}=\begin{bmatrix}c_2\\2c_3\end{bmatrix}

第三十二课时:基变换和图像压缩(略)

本节课的主题仍是线性变换与矩阵关联。

图像压缩

压缩包括无损压缩和有损压缩,这里讲有损压缩。

一个好的基需要有哪些性质?

  • 计算快;
  • 正交的
  • 良好的压缩性,少量的基向量就能接近信号,能够重现图像。

傅里叶基
小波基

JPEG 所用的最好的基就是傅里叶基

基变换

已知一个基上的向量,变换到不同的基中

矩阵变换

已知确定的线性变换 T:T(x)=AxT:T(x)=Ax,是对于 n×nn\times n 的矩阵来说的。有两组基:
第一组以 v1,v2,⋯,v8v_1,v_2,\cdots,v_8 为基,有矩阵 AA;
第二组以 w1,w2,⋯,w8w_1,w_2,\cdots,w_8 为基,有矩阵BB,T(x)=BxT(x)=Bx,

AA 和 BB 来自同一线性变换 TT(来自同一变换的意思是AA,BB 是同一变换的不同表示形式,因为选择的基不同),在一组基上计算得到一个矩阵 AA,然后在另一组基上计算另一个矩阵 BB。AA 和 BB 有什么联系?

A 和B 是相似的,即有 B=M−1AMB=M^{-1}AM,M 就是基变换矩阵。

线性变换,如果变成一组不同的基去做变换,发生了两件事:

  • 每个向量有了新坐标,新旧坐标的关系为 x=Wcx=Wc;
  • 每个矩阵变了,每一个变换有一个新矩阵,新矩阵之间的关系就是 B=M−1AMB=M^{-1}AM。

在信号图像应用中,很多情况下用小波基或者傅里叶基,但最好的基是特征向量基,不过找特征向量基代价较大。

第三十三课时:复习三

主要内容:

  • 特征值与特征向量
  • 微分方程
  • 对称矩阵 A=ATA=A^T 的特征值是实数,总存在足够的特征向量特征值使它可以对角化:A=QΛQTA=Q\Lambda Q^T
  • 正定矩阵
  • 相似矩阵满足 B=M−1AMB=M^{-1}AM,AA 与 BB 的特征值相同,它的关键在于,通过不同的基表示同样的变换动作,且 Bk=M−1AkMB^k=M^{-1}A^kM,所以,虽然 MM 改变了矩阵的特征向量,但不会改变特征值
  • 奇异值分解SVD

要点:

  • 正交矩阵的特征值的绝对值等于1,正交矩阵的作用就像旋转,不会改变向量的长度;
  • 当矩阵满足:AAT=ATAAA^T=A^TA 时,AA 的特征向量正交对称阵,反对称阵,正交矩阵是满足此条件的三类矩阵(统称正规矩阵);
    • 之前我们有结论:实对称矩阵不同的特征值对应的特征向量是相互正交的,在这里我们将其扩展到反对称矩阵和正交矩阵。
  • SVD:任意矩阵 A=UΣVTA=U\Sigma V^T,VV 是 ATAA^TA 的特征向量矩阵,UU 是 AATAA^T 的特征向量矩阵。具体做奇异值分解时,奇异值 σ\sigma 是对角矩阵 Σ\Sigma 对角线上的元素,它的值等于(ATAA^TA)的特征值的正平方根,但值得注意的一点是:在求 AATAA^T 的特征向量的时候,方向要由 Avi=σiuiAv_i=\sigma_iu_i 来确定

  1. (微分方程,exp(At))解微分方程:

    dudt=Au=⎡⎣⎢010−1010−10⎤⎦⎥u

    \frac{du}{dt}=Au=\begin{bmatrix}0&-1&0\\1&0&-1\\0&1&0\end{bmatrix}u
    答:
    (1)通解的形式为:

    u(t)=c1eλ1tx1+c2eλ2tx2+c3eλ3tx3

    u(t)=c_1e^{\lambda_1t}x_1+c_2e^{\lambda_2t}x_2+c_3e^{\lambda_3t}x_3
    求出特征向量和特征值,然后通过初始值确定 c1,c2,c3c_1,c_2,c_3 常数。
    因为这是个奇异矩阵,故有特征值0;同时,这是个反对称矩阵(A=−ATA=-A^T),故特征值为纯虚数,两个非零特征值分别为 ±2√i\pm\sqrt 2i。

    u(t)=c1x1+c2e2√itx2+c3e−2√itx3

    u(t)=c_1x_1+c_2e^{\sqrt 2it}x_2+c_3e^{-\sqrt 2it}x_3
    此解既不发散也不收敛于0,而是稳定在某值,且具有周期性,周期为 2√π\sqrt 2\pi。指数矩阵形式如下:
    (2)eAt=SeΛtS−1e^{At}=Se^{\Lambda t}S^{-1}

  2. 特征值与特征向量)已知 3×33\times 3 矩阵的特征向量和两个特征值:

    λ1=0,λ2=c,λ3=2x1=⎡⎣⎢111⎤⎦⎥,x2=⎡⎣⎢1−10⎤⎦⎥,x3=⎡⎣⎢11−2⎤⎦⎥

    \lambda_1=0,\lambda_2=c,\lambda_3=2\\ x_1=\begin{bmatrix}1\\1\\1\end{bmatrix},x_2=\begin{bmatrix}1\\-1\\0\end{bmatrix},x_3=\begin{bmatrix}1\\1\\-2\end{bmatrix}
    (1)当c满足什么条件时,矩阵可对角化?
    (2)当c为何值时,矩阵对称?
    (3)当c为何值时,矩阵正定?
    (4)矩阵可能是马尔科夫矩阵吗?
    (5)A/2可能是投影矩阵吗?
    答:
    (1)能否对角化只与是否有足够多的特征向量有关,因此c可取任何值;
    (2)实对称矩阵的特征值为实数,且特征向量正交。故c为实数即可;
    (3)不可能,因为已经有特征值0
    (4)不可能,因为马尔科夫矩阵的特征值都小于等于1.
    (5)投影矩阵的特征值为0 和1, P2=PP^2=P, λ2=λ\lambda^2=\lambda。所以当c=2 或0 时满足条件

  3. (奇异值分解)对于如下情况,因为奇异值不等于0,所以这个矩阵肯定是2×2 可逆矩阵。

    A=UΣVT=[u1u2][3002][v1v2]T

    A=U\Sigma V^T=\begin{bmatrix}u_1&u_2\end{bmatrix}\begin{bmatrix}3&0\\0&2\end{bmatrix}\begin{bmatrix}v_1&v_2\end{bmatrix}^T
    如果 Σ\Sigma 对右下角不是2 是0,那么矩阵 AA 是一个奇异矩阵。秩为1,那么零空间呢?0 特征值对应的特征向量是 v2v_2,v2v_2 就在零空间里。从SVD 可以看到四个基本子空间。

  4. AA 对称且正交
    (1) AA 的特征值是1 或-1。
    因为对称阵的特征值是实数,正交矩阵的特征的绝对值是1
    (2) AA 是非奇异矩阵
    (3) (A+I)/2(A+I)/2 是投影矩阵。
    验证 P2=PP^2=P,且特征值为 0 和 1.

线性代数-Gilbert Strang(第三部分)相关推荐

  1. [笔记][总结] MIT线性代数 Gilbert Strang 矩阵分解

    作者水平有限,欢迎大家提出文中错误 矩阵分解 PAn∗n=LUPA_{n*n}=LUPAn∗n​=LU 高斯消元法 消元矩阵 EliminationmatricesElimination\ matri ...

  2. [笔记][总结] MIT线性代数 Gilbert Strang 矩阵的应用

    作者水平有限,欢迎大家提出文中错误 矩阵的应用 电路理论 图的矩阵表示--邻接矩阵 回路 零空间 左零空间 Ohm′slawOhm's\ lawOhm′s law 再议回路 外部电源 电路理论的三个核 ...

  3. 线性代数-Gilbert Strang(第二部分)

    第十四课时:正交向量与子空间 结论: 行空间(r)与零空间(n-r)是正交的 列空间(r)与左零空间(m-r)是正交的 正交向量 在n维空间中,向量之间的夹角为90度. 如果 XTY=0X^TY=0, ...

  4. 线性代数-Gilbert Strang(第一部分)

    第一课时:方程组的几何解释 线性方程组的两种理解方式:行图像(row picture).列图像(column picture) 行图像:试图将每一个完整方程所表示的图像表示出来: 列图像:关注矩阵的列 ...

  5. [笔记][总结] MIT线性代数 Gilbert Strang 对称矩阵

    作者水平有限,欢迎大家提出文中错误 正定性与对称矩阵 对称矩阵 对称矩阵的对角化 正定性 正定矩阵判据 正定矩阵的性质 正定性与最小二乘法 二次型 对称矩阵的LU分解与二次型的配方 连续多元函数在某点 ...

  6. [笔记][总结] MIT线性代数 Gilbert Strang 正交矩阵

    作者水平有限,欢迎大家提出文中错误 正交性与正交矩阵 正交性 标准正交矩阵 投影矩阵 一维情况 最小二乘法 回到投影矩阵 投影矩阵的若干性质 再述最小二乘法 Gram-Schmidt正交化 A=QRA ...

  7. [笔记][总结] MIT线性代数 Gilbert Strang 矩阵运算

    作者水平有限,欢迎大家提出文中错误 矩阵运算 转置 转置的性质 求逆 使用高斯消元法求解逆矩阵 矩阵逆的代数表达式 Cramer′sruleCramer's\ ruleCramer′s rule 方阵 ...

  8. [笔记][总结] MIT线性代数 Gilbert Strang 向量空间

    作者水平有限,欢迎大家提出文中错误 向量空间与四个基本子空间 向量空间 线性子空间 四个基本子空间 C(A):columnspaceofAC(A):column\ space\ of \ AC(A): ...

  9. [笔记][总结] MIT线性代数 Gilbert Strang 线性方程组

    作者水平有限,欢迎大家提出文中错误 矩阵方程.线性方程组 Ax=bAx=bAx=b的行图像 Ax=bAx=bAx=b的列图像 齐次方程Ax=0Ax=0Ax=0 非齐次方程Ax=bAx=bAx=b Ax ...

最新文章

  1. sql定位过程报错_如何得到plsql中执行时报错的SQL的位置行号
  2. mysql建立数据浏览器_一个简单的MySQL数据浏览器
  3. c语言中结构体的用法
  4. .NET引用类型与值类型
  5. mysql 取消主从复制_MySQL:第一次看到有人把MySQL主从复制讲解的这么清楚
  6. java 枚举类型 构造函数及用法
  7. JSR303自定义校验注解
  8. 谈话《百度搜索引擎的网页质量白皮书》
  9. 使用与不使用@RequestBody注解的区别
  10. 对初级软件开发者的建议(1)
  11. Faster R-CNN算法详细流程
  12. 跨域 SameSite secure
  13. n个人围成一圈,顺序编号。从第一个人开始从1到m报数,凡报到m的人退出圈子,编程求解最后留下的人的初始编号。
  14. python打包deb_python开发将项目打包成deb
  15. java websocket ie8_解决WebSocket兼容ie浏览器版本问题
  16. html树状图在线画板,五款在线思维导图工具,总有一款适合你
  17. 再探HEVC——理解不同类型的I帧
  18. win10/win11 + WSL + gui 配置教程
  19. uniapp运行基座到电视机调试
  20. 44.求Sn=a+aa+aaa+aaaa+aaaaa的前5项之和

热门文章

  1. 2022最新彩虹易支付系统二开版本源码/新增推广返利模式+工单系统
  2. 多尺度特征表示在深度学习中的重要意义
  3. 软件测试|最全的Python for循环和while循环使用介绍
  4. 打通apk到hal层
  5. 代码虐我千百遍,我待代码如初恋。
  6. WebClient学习
  7. QComboBox 输入后捕获enter键
  8. 老子《道德经》第十六章
  9. 多语言 cocos 国家列表
  10. Linux SCP跨服务器传输文件