漫步线性代数十五—

满足xTy=0x^Ty=0的向量是正交的，现在我们考虑内积不为零的情况，也就是夹角不是直角。我们想把内积和角度以及转置联系起来，回顾之前讲过的转置，将矩阵翻转一下就是它的转置，有点像摊煎饼。

首先不可否认的是：正交情况是最重要的。假设我们想要找出点bb到向量aa所在直线的距离，那么我们就需要沿着直线找到离点bb最近的点pp，几何上的含义就是：连接b,pb,p的线(图1)与aa垂直。基于这个事实，我们可以找到投影pp，虽然a,ba,b不是正交的，但是碰到距离问题我们自动往正交方向去想。

图1

当我们遇到的是直线(或者任何子空间SS)而不是直线时，同样这样去思考求解，这种问题依然是找出子空间中离bb最近的点pp，这个点pp是bb在子空间上的投影，从bb向SS引垂线，在子空间的交点处就是pp。几何上来说，就是找出点bb到子空间SS的距离，但是这里有两个疑问：

这个投影是来自于实际应用吗？
如果我们知道子空间SS的一个基，那么有没有一个公式来表示投影pp 吗？

回答是肯定的。准确来说这是最小二乘问题，向量bb表示实验或问题的数据，它包含许多误差，所以无法在子空间SS中找出解。如果我们试着用SS的基向量组合表示bb，会发现根本不存在——Ax=bAx=b无解。

最小二乘问题选择选择pp作为bb的最佳替换，毫无疑问这个应用是非常重要的。在经济和统计学中，最小二乘用于回归分析；在地质测量中，美国绘制测量要解决2.5百万个方程，其中未知数有40万个。

当子空间是一条直线时，pp的形式很简单那，我们以几种不同的方法将bb投影到aa上，并且将投影pp和内积与角度联系起来。在高维空间的投影也很重要；它对应于有几个参数的最小二乘问题，具体解法会在下一篇文章给出。我们还会看到的，当SS的基是正交的时候，投影的形式会变得更加简单。

内积和余弦

现在我们开始讨论内积和余弦，随后大家会看到与内积直接相关的不是角度而是它的余弦。我们先回顾一下二维空间中的三角关系，假设向量a,ba,b和xx轴的夹角是α,β\alpha,\beta(图2)，长∥a∥\parallel a\parallel是三角形OaQOaQ的斜边，所以α\alpha的正弦和余弦分别是：

sinα=a2∥a∥,cosα=a1∥a∥

\sin\alpha=\frac{a_2}{\parallel a\parallel},\quad \cos\alpha=\frac{a_1}{\parallel a\parallel}

对于角β\beta，正弦是b2/∥b∥b_2/\parallel b\parallel，余弦是b1/∥b∥b_1/\parallel b\parallel，θ=β−α\theta=\beta-\alpha的余弦如下：

cosθ=cosβcosα+sinβsinα=a1b1+a2b2∥a∥∥b∥(1)

\begin{equation} \cos\theta=\cos\beta\cos\alpha+\sin\beta\sin\alpha=\frac{a_1b_1+a_2b_2}{\parallel a\parallel \parallel b\parallel}\tag1 \end{equation}

公式中的分子就是a,ba,b的内积，它给出了aTba^Tb和cosθ\cos\theta之间的关系：

7、对于任意两个非零向量a,ba,b，他们夹角的余弦值为：

cosθ=aTb∥a∥∥b∥

\begin{equation}\cos\theta=\frac{a^Tb}{\parallel a\parallel\parallel b\parallel}\end{equation}

这个公式满足尺度不变；如果bb的长度加倍，那么分子和分母均加倍，余弦值保持不变。另一方面，改变bb的符号，cosθ\cos\theta的符号也发生变换。

图2

还有一个三角定律可以推出同样的结论，它和三角形边长有关：

∥b−a∥2=∥b∥2+∥a∥2−2∥b∥∥a∥cosθ(2)

\begin{equation} \parallel b-a\parallel^2=\parallel b\parallel^2+\parallel a\parallel^2-2\parallel b\parallel\parallel a\parallel\cos\theta\tag2 \end{equation}

当θ\theta是直角时，就变成了毕达哥拉斯定理：∥b−a∥2=∥b∥2+∥a∥2\parallel b-a\parallel^2=\parallel b\parallel^2+\parallel a\parallel^2。对于任何角度θ\theta，表示式∥b−a∥2\parallel b-a\parallel^2都是(b−a)T(b−a)(b-a)^T(b-a)，方程(3)就变成：

bTb−2aTb+aTa=bTb+aTa−2∥b∥∥a∥cosθ

b^Tb-2a^Tb+a^Ta=b^Tb+a^Ta-2\parallel b\parallel \parallel a\parallel \cos\theta

消去两边的bTb,aTab^Tb,a^Ta后，得到和公式(2)等价的形式：aTb=∥a∥∥b∥cosθa^Tb=\parallel a\parallel \parallel b\parallel \cos\theta。事实上，这个证明了nn维的余弦公式，因为这里的角度不限于二维平面OabOab。

直线上的投影

现在我们想找出投影点pp，这个点必须是给定向量aa的某个倍数p=x^ap=\hat{x}a，问题就变成计算系数a^\hat{a}。我们知道的几何事实是bb到最近点p=x^ap=\hat{x}a的连线垂直于向量aa：

(b−a^)⊥a,aT(b−a^=0,x^=aTbaTa)(3)

\begin{equation} (b-\hat{a})\perp a,\quad a^T(b-\hat{a}=0,\quad \hat{x}=\frac{a^Tb}{a^Ta})\tag3 \end{equation}

据此我们可以得出x^\hat{x}和投影pp的公式：

8、向量bb在直线上(方向和aa一致)的投影p=x^ap=\hat{x}a是：

p=x^a=aTbaTaa(4)

\begin{equation}p=\hat{x}a=\frac{a^Tb}{a^Ta}a\tag4\end{equation}

据此我们将图1重画成精确的图3。

另外这个形式能导出施瓦兹(Schwarz)不等式，这是数学里非常重要的不等式。它有一个特殊情况，就是算术平均12(x+y)\frac{1}{2}(x+y) 大于几何平均xy−−√\sqrt{xy}。施瓦兹不等式似乎来自于这样的命题：图3中的∥e∥2=∥b−p∥2\parallel e\parallel^2=\parallel b-p\parallel^2是非负的。

∥∥b−aTbaTaa∥∥2=bTb−2(aTb)2aTa+(aTbaTa)2aTa=(bTb)(aTab)−(aTb)2(aTa)≥0

\Big\Vert b-\frac{a^Tb}{a^Ta}a\Big\Vert^2=b^Tb-2\frac{(a^Tb)^2}{a^Ta}+\left(\frac{a^Tb}{a^Ta}\right)^2a^Ta=\frac{(b^Tb)(a^Tab)-(a^Tb)^2}{(a^Ta)}\geq 0

这个公式说明(bTb)(aTab)≥(aTb)2(b^Tb)(a^Tab)\geq(a^Tb)^2，接着我们取它的平方根：

9、所有向量a,ba,b满足施瓦兹不等式，其中|cosθ|≤1|\cos\theta|\leq 1:

|aTb|≤∥a∥∥b∥(5)

\begin{equation}|a^Tb|\leq\Vert a\Vert\Vert b\Vert\tag5\end{equation}

根据公式(2)，aTb,∥a∥∥b∥a^Tb,\Vert a\Vert\Vert b\Vert的比值就是|cosθ||\cos\theta|。因为余弦值的范围是−1≤cosθ≤1-1\leq\cos\theta\leq1，这也是方程(6)的另一种证明：施瓦兹不等式和|cosθ|≤1|\cos\theta|\leq1本质上一样。从某种程度上来说，这个证明更容易理解，因为大家都余弦都比较熟悉。另外每个证明在RnR^n中都满足，但是需要注意，我们是从九计算∥b−p∥2\Vert b-p\Vert^2开始的，当我们引入新的长度和内积时依然需要保持非负。对于不等式|aTb|≤∥a∥∥b∥|a^Tb|\leq\Vert a\Vert\Vert b\Vert，它跟柯西(Cauchy)也有联系，俄罗斯人将它称作柯西-施瓦兹-布尼亚科夫斯基(Cauchy-Schwarz-Buniakowsky)不等式！数学是上似乎承认布尼亚克夫斯基的贡献。

观察|aTb|≤∥a∥∥b∥|a^Tb|\leq\Vert a\Vert\Vert b\Vert，当且仅当bb 是aa的倍数时等号成立。也就说角度cosθ=0∘\cos\theta =0^\circ 或者cosθ=180∘\cos\theta =180^\circ时，余弦等于1或者-1。这时候bb和它的映射pp相等，bb到直线的距离是零。

例1：将b=(1,2,3)b=(1,2,3)投影大通过点a=(1,1,1)a=(1,1,1)的直线上，那么x^,p\hat{x},p分别为：

x^=aTbaTa=63=2

\hat{x}=\frac{a^Tb}{a^Ta}=\frac{6}{3}=2

投影是p=x^a=(2,2,2)p=\hat{x}a=(2,2,2)，a,ba,b之间的角度是

cosθ=∥p∥∥b∥=12−−√14−−√cosθ=aTb∥a∥∥b∥=63√14−−√

\cos\theta=\frac{\Vert p\Vert}{\Vert b\Vert}=\frac{\sqrt{12}}{\sqrt{14}}\quad \cos\theta=\frac{a^Tb}{\Vert a\Vert\Vert b\Vert}=\frac{6}{\sqrt{3}\sqrt{14}}

施瓦兹不等式|aTb|≤∥a∥∥b∥|a^Tb|\leq\Vert a\Vert\Vert b\Vert就是b≤3√14−−√b\leq\sqrt{3}\sqrt{14}，如果我们将6写成36−−√\sqrt{36}，那么不等式变成36−−√≤42−−√\sqrt{36}\leq\sqrt{42}。可以看出余弦值小于1，因为bb与aa不是平行关系。

秩为1的投影矩阵

bb在直线上的投影是p=a(aTb/aTa)p=a(a^Tb/a^Ta)，也就是公式p=x^ap=\hat{x}a，但是这个写法有点歧义：向量aa放在数字x^=aTb/aTa\hat{x}=a^Tb/a^Ta的前面，这个小细节背后是有原因的，在一条线上的投影可以用投影矩阵PP实现，用矩阵的形式来表示就能看出端倪了，利用投影矩阵PP乘以bb得到pp的形式我们得到;

p=aaTbaTa,所以投影矩阵是P=aaTaTa(6)

\begin{equation} p=a\frac{a^Tb}{a^Ta},\text{所以投影矩阵是}P=\frac{aa^T}{a^Ta}\tag6 \end{equation}

分子是一列乘以一行——得到一个方阵，然后除以一个数aTaa^Ta 得到投影矩阵。

例2：投影到通过a=(1,1,1)a=(1,1,1)直线的矩阵是

P=aaTaTa=13⎡⎣⎢111⎤⎦⎥[111]=⎡⎣⎢⎢⎢⎢⎢⎢⎢131313131313131313⎤⎦⎥⎥⎥⎥⎥⎥⎥

P=\frac{aa^T}{a^Ta}=\frac{1}{3}\begin{bmatrix}1\\1\\1\end{bmatrix}\begin{bmatrix}1&1&1\end{bmatrix}=\begin{bmatrix} \frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\\frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\\frac{1}{3}&\frac{1}{3}&\frac{1}{3}\end{bmatrix}

我们会看到这个矩阵有两个典型的性质：

PP是一个对称矩阵。
它的平方等于它自身：P2=PP^2=P。

P2bP^2b就是PbPb的投影，因为PbPb已经在直线上了，所以P2b=PbP^2b=Pb。考虑矩阵PP的四个子空间：

列空间由通过a=(1,1,1)a=(1,1,1)的直线组成，零空间由垂直于aa的平面组成，它的秩为1，即r=1r=1。

每列都是aa的倍数，所以Pb=x^aPb=\hat{x}a，投影为p=0p=0的向量非常重要，他们满足aTb=0a^Tb=0，也就是说他们与aa垂直，沿着aa方向上的分量为0，位于零空间=垂直平面。

这个例子太完美了，它的零空间垂直于列空间。之前学到过，零空间应该垂直于行空间，所以这里的结论似乎有点失控了。但是因为PP是对称的，所以它的行和列空间是一样的。

注解：如果aa加倍，投影矩阵aaT/aTaaa^T/a^Ta保持不变：

a=⎡⎣⎢222⎤⎦⎥P=112⎡⎣⎢222⎤⎦⎥[222]=⎡⎣⎢⎢⎢⎢⎢⎢⎢131313131313131313⎤⎦⎥⎥⎥⎥⎥⎥⎥

a=\begin{bmatrix} 2\\2\\2 \end{bmatrix}\quad P=\frac{1}{12}\begin{bmatrix}2\\2\\2\end{bmatrix} \begin{bmatrix}2&2&2\end{bmatrix}=\begin{bmatrix} \frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\ \frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\ \frac{1}{3}&\frac{1}{3}&\frac{1}{3} \end{bmatrix}

通过aa的那条线跟之前一样，这才是投影矩阵真正关心的，如果aa是单位长度，那么分母是aTa=1a^Ta=1，投影矩阵就是P=aaTP=aa^T。

例3：考虑x−yx-y平面上θ\theta方向上的投影。这条线通过a=(cosθ,sinθ)a=(\cos\theta,\sin\theta)，矩阵是对称并且P2=PP^2=P：

P=aaTaTa=[cs][cs][cs][cs]=[c2cscss2]

P=\frac{aa^T}{a^Ta}=\frac{\begin{bmatrix}c\\s\end{bmatrix}\begin{bmatrix}c&s\end{bmatrix}}{\begin{bmatrix}c&s\end{bmatrix}\begin{bmatrix}c\\s\end{bmatrix}}= \begin{bmatrix} c^2&cs\\cs&s^2 \end{bmatrix}

这里的cc表示cosθ\cos\theta，ss表示sinθ\sin\theta，分母中c2+s2=1c^2+s^2=1，我们需要强调一下，是投影矩阵PP 产生了投影pp：

为了将bb投影到aa上，通过乘以投影矩阵PP即可：p=Pbp=Pb

转置

最后我们将内积和ATA^T联系起来，目前为止，ATA^T仅仅是AA关于主对角线的反射；AA的行变成ATA^T的列，反之亦然。AA中ii行jj列的元素变成AA中(j,i)(j,i)元素：

ATij=(A)ji

A_{ij}^T=(A)_{ji}

对于ATA^T而言还有更深层次的意义，和内积的紧密联系给出了一个全新的并且更加抽象的转置定义：

9、转置ATA^T可以根据以下性质来定义：AxAx和yy的内积等于xx和ATyA^Ty的内积，也就说

(Ax)Ty=xTATy=xT(ATy)(7)

\begin{equation}(Ax)^Ty=x^TA^Ty=x^T(A^Ty)\tag7\end{equation}

这个定义给我们提供了另一种方法来验证(AB)T=BTAT(AB)^T=B^TA^T，两次使用方程(8)：

(ABx)Ty=(Bx)T(ATy)=xT(BTATy)

(ABx)^Ty=(Bx)^T(A^Ty)=x^T(B^TA^Ty)

转置使得右边的顺序发生了反转，就像逆中发生的那样(AB)−1=B−1A−1(AB)^{-1}=B^{-1}A^{-1}，我们再次提及这两个公式是为了得出一个非凡的组合(A−1)T=(AT)−1(A^{-1})^T=(A^T)^{-1}。