满足xTy=0x^Ty=0的向量是正交的,现在我们考虑内积不为零的情况,也就是夹角不是直角。我们想把内积和角度以及转置联系起来,回顾之前讲过的转置,将矩阵翻转一下就是它的转置,有点像摊煎饼。

首先不可否认的是:正交情况是最重要的。假设我们想要找出点bb到向量aa所在直线的距离,那么我们就需要沿着直线找到离点bb最近的点pp,几何上的含义就是:连接b,pb,p的线(图1)与aa垂直。基于这个事实,我们可以找到投影pp,虽然a,ba,b不是正交的,但是碰到距离问题我们自动往正交方向去想。


图1

当我们遇到的是直线(或者任何子空间SS)而不是直线时,同样这样去思考求解,这种问题依然是找出子空间中离bb最近的点pp,这个点pp是bb在子空间上的投影,从bb向SS引垂线,在子空间的交点处就是pp。几何上来说,就是找出点bb到子空间SS的距离,但是这里有两个疑问:

  1. 这个投影是来自于实际应用吗?
  2. 如果我们知道子空间SS的一个基,那么有没有一个公式来表示投影pp 吗?

回答是肯定的。准确来说这是最小二乘问题,向量bb表示实验或问题的数据,它包含许多误差,所以无法在子空间SS中找出解。如果我们试着用SS的基向量组合表示bb,会发现根本不存在——Ax=bAx=b无解。

最小二乘问题选择选择pp作为bb的最佳替换,毫无疑问这个应用是非常重要的。在经济和统计学中,最小二乘用于回归分析;在地质测量中,美国绘制测量要解决2.5百万个方程,其中未知数有40万个。

当子空间是一条直线时,pp的形式很简单那,我们以几种不同的方法将bb投影到aa上,并且将投影pp和内积与角度联系起来。在高维空间的投影也很重要;它对应于有几个参数的最小二乘问题,具体解法会在下一篇文章给出。我们还会看到的,当SS的基是正交的时候,投影的形式会变得更加简单。

内积和余弦

现在我们开始讨论内积和余弦,随后大家会看到与内积直接相关的不是角度而是它的余弦。我们先回顾一下二维空间中的三角关系,假设向量a,ba,b和xx轴的夹角是α,β\alpha,\beta(图2),长∥a∥\parallel a\parallel是三角形OaQOaQ的斜边,所以α\alpha的正弦和余弦分别是:

sinα=a2∥a∥,cosα=a1∥a∥

\sin\alpha=\frac{a_2}{\parallel a\parallel},\quad \cos\alpha=\frac{a_1}{\parallel a\parallel}

对于角β\beta,正弦是b2/∥b∥b_2/\parallel b\parallel,余弦是b1/∥b∥b_1/\parallel b\parallel,θ=β−α\theta=\beta-\alpha的余弦如下:

cosθ=cosβcosα+sinβsinα=a1b1+a2b2∥a∥∥b∥(1)

\begin{equation} \cos\theta=\cos\beta\cos\alpha+\sin\beta\sin\alpha=\frac{a_1b_1+a_2b_2}{\parallel a\parallel \parallel b\parallel}\tag1 \end{equation}

公式中的分子就是a,ba,b的内积,它给出了aTba^Tb和cosθ\cos\theta之间的关系:

7、对于任意两个非零向量a,ba,b,他们夹角的余弦值为:

cosθ=aTb∥a∥∥b∥

\begin{equation}\cos\theta=\frac{a^Tb}{\parallel a\parallel\parallel b\parallel}\end{equation}

这个公式满足尺度不变;如果bb的长度加倍,那么分子和分母均加倍,余弦值保持不变。另一方面,改变bb的符号,cosθ\cos\theta的符号也发生变换。


图2

还有一个三角定律可以推出同样的结论,它和三角形边长有关:

∥b−a∥2=∥b∥2+∥a∥2−2∥b∥∥a∥cosθ(2)

\begin{equation} \parallel b-a\parallel^2=\parallel b\parallel^2+\parallel a\parallel^2-2\parallel b\parallel\parallel a\parallel\cos\theta\tag2 \end{equation}

当θ\theta是直角时,就变成了毕达哥拉斯定理:∥b−a∥2=∥b∥2+∥a∥2\parallel b-a\parallel^2=\parallel b\parallel^2+\parallel a\parallel^2。对于任何角度θ\theta,表示式∥b−a∥2\parallel b-a\parallel^2都是(b−a)T(b−a)(b-a)^T(b-a),方程(3)就变成:

bTb−2aTb+aTa=bTb+aTa−2∥b∥∥a∥cosθ

b^Tb-2a^Tb+a^Ta=b^Tb+a^Ta-2\parallel b\parallel \parallel a\parallel \cos\theta

消去两边的bTb,aTab^Tb,a^Ta后,得到和公式(2)等价的形式:aTb=∥a∥∥b∥cosθa^Tb=\parallel a\parallel \parallel b\parallel \cos\theta。事实上,这个证明了nn维的余弦公式,因为这里的角度不限于二维平面OabOab。

直线上的投影

现在我们想找出投影点pp,这个点必须是给定向量aa的某个倍数p=x^ap=\hat{x}a,问题就变成计算系数a^\hat{a}。我们知道的几何事实是bb到最近点p=x^ap=\hat{x}a的连线垂直于向量aa:

(b−a^)⊥a,aT(b−a^=0,x^=aTbaTa)(3)

\begin{equation} (b-\hat{a})\perp a,\quad a^T(b-\hat{a}=0,\quad \hat{x}=\frac{a^Tb}{a^Ta})\tag3 \end{equation}

据此我们可以得出x^\hat{x}和投影pp的公式:

8、向量bb在直线上(方向和aa一致)的投影p=x^ap=\hat{x}a是:

p=x^a=aTbaTaa(4)

\begin{equation}p=\hat{x}a=\frac{a^Tb}{a^Ta}a\tag4\end{equation}

据此我们将图1重画成精确的图3。

另外这个形式能导出施瓦兹(Schwarz)不等式,这是数学里非常重要的不等式。它有一个特殊情况,就是算术平均12(x+y)\frac{1}{2}(x+y) 大于几何平均xy−−√\sqrt{xy}。施瓦兹不等式似乎来自于这样的命题:图3中的∥e∥2=∥b−p∥2\parallel e\parallel^2=\parallel b-p\parallel^2是非负的。

∥∥b−aTbaTaa∥∥2=bTb−2(aTb)2aTa+(aTbaTa)2aTa=(bTb)(aTab)−(aTb)2(aTa)≥0

\Big\Vert b-\frac{a^Tb}{a^Ta}a\Big\Vert^2=b^Tb-2\frac{(a^Tb)^2}{a^Ta}+\left(\frac{a^Tb}{a^Ta}\right)^2a^Ta=\frac{(b^Tb)(a^Tab)-(a^Tb)^2}{(a^Ta)}\geq 0

这个公式说明(bTb)(aTab)≥(aTb)2(b^Tb)(a^Tab)\geq(a^Tb)^2,接着我们取它的平方根:

9、所有向量a,ba,b满足施瓦兹不等式,其中|cosθ|≤1|\cos\theta|\leq 1:

|aTb|≤∥a∥∥b∥(5)

\begin{equation}|a^Tb|\leq\Vert a\Vert\Vert b\Vert\tag5\end{equation}

根据公式(2),aTb,∥a∥∥b∥a^Tb,\Vert a\Vert\Vert b\Vert的比值就是|cosθ||\cos\theta|。因为余弦值的范围是−1≤cosθ≤1-1\leq\cos\theta\leq1,这也是方程(6)的另一种证明:施瓦兹不等式和|cosθ|≤1|\cos\theta|\leq1本质上一样。从某种程度上来说,这个证明更容易理解,因为大家都余弦都比较熟悉。另外每个证明在RnR^n中都满足,但是需要注意,我们是从九计算∥b−p∥2\Vert b-p\Vert^2开始的,当我们引入新的长度和内积时依然需要保持非负。对于不等式|aTb|≤∥a∥∥b∥|a^Tb|\leq\Vert a\Vert\Vert b\Vert,它跟柯西(Cauchy)也有联系,俄罗斯人将它称作柯西-施瓦兹-布尼亚科夫斯基(Cauchy-Schwarz-Buniakowsky)不等式!数学是上似乎承认布尼亚克夫斯基的贡献。

观察|aTb|≤∥a∥∥b∥|a^Tb|\leq\Vert a\Vert\Vert b\Vert,当且仅当bb 是aa的倍数时等号成立。也就说角度cosθ=0∘\cos\theta =0^\circ 或者cosθ=180∘\cos\theta =180^\circ时,余弦等于1或者-1。这时候bb和它的映射pp相等,bb到直线的距离是零。

例1:将b=(1,2,3)b=(1,2,3)投影大通过点a=(1,1,1)a=(1,1,1)的直线上,那么x^,p\hat{x},p分别为:

x^=aTbaTa=63=2

\hat{x}=\frac{a^Tb}{a^Ta}=\frac{6}{3}=2

投影是p=x^a=(2,2,2)p=\hat{x}a=(2,2,2),a,ba,b之间的角度是

cosθ=∥p∥∥b∥=12−−√14−−√cosθ=aTb∥a∥∥b∥=63√14−−√

\cos\theta=\frac{\Vert p\Vert}{\Vert b\Vert}=\frac{\sqrt{12}}{\sqrt{14}}\quad \cos\theta=\frac{a^Tb}{\Vert a\Vert\Vert b\Vert}=\frac{6}{\sqrt{3}\sqrt{14}}

施瓦兹不等式|aTb|≤∥a∥∥b∥|a^Tb|\leq\Vert a\Vert\Vert b\Vert就是b≤3√14−−√b\leq\sqrt{3}\sqrt{14},如果我们将6写成36−−√\sqrt{36},那么不等式变成36−−√≤42−−√\sqrt{36}\leq\sqrt{42}。可以看出余弦值小于1,因为bb与aa不是平行关系。

秩为1的投影矩阵

bb在直线上的投影是p=a(aTb/aTa)p=a(a^Tb/a^Ta),也就是公式p=x^ap=\hat{x}a,但是这个写法有点歧义:向量aa放在数字x^=aTb/aTa\hat{x}=a^Tb/a^Ta的前面,这个小细节背后是有原因的,在一条线上的投影可以用投影矩阵PP实现,用矩阵的形式来表示就能看出端倪了,利用投影矩阵PP乘以bb得到pp的形式我们得到;

p=aaTbaTa,所以投影矩阵是P=aaTaTa(6)

\begin{equation} p=a\frac{a^Tb}{a^Ta},\text{所以投影矩阵是}P=\frac{aa^T}{a^Ta}\tag6 \end{equation}

分子是一列乘以一行——得到一个方阵,然后除以一个数aTaa^Ta 得到投影矩阵。

例2:投影到通过a=(1,1,1)a=(1,1,1)直线的矩阵是

P=aaTaTa=13⎡⎣⎢111⎤⎦⎥[111]=⎡⎣⎢⎢⎢⎢⎢⎢⎢131313131313131313⎤⎦⎥⎥⎥⎥⎥⎥⎥

P=\frac{aa^T}{a^Ta}=\frac{1}{3}\begin{bmatrix}1\\1\\1\end{bmatrix}\begin{bmatrix}1&1&1\end{bmatrix}=\begin{bmatrix} \frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\\frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\\frac{1}{3}&\frac{1}{3}&\frac{1}{3}\end{bmatrix}

我们会看到这个矩阵有两个典型的性质:

  1. PP是一个对称矩阵。
  2. 它的平方等于它自身:P2=PP^2=P。

P2bP^2b就是PbPb的投影,因为PbPb已经在直线上了,所以P2b=PbP^2b=Pb。考虑矩阵PP的四个子空间:

列空间由通过a=(1,1,1)a=(1,1,1)的直线组成,零空间由垂直于aa的平面组成,它的秩为1,即r=1r=1。

每列都是aa的倍数,所以Pb=x^aPb=\hat{x}a,投影为p=0p=0的向量非常重要,他们满足aTb=0a^Tb=0,也就是说他们与aa垂直,沿着aa方向上的分量为0,位于零空间=垂直平面。

这个例子太完美了,它的零空间垂直于列空间。之前学到过,零空间应该垂直于行空间,所以这里的结论似乎有点失控了。但是因为PP是对称的,所以它的行和列空间是一样的。

注解:如果aa加倍,投影矩阵aaT/aTaaa^T/a^Ta保持不变:

a=⎡⎣⎢222⎤⎦⎥P=112⎡⎣⎢222⎤⎦⎥[222]=⎡⎣⎢⎢⎢⎢⎢⎢⎢131313131313131313⎤⎦⎥⎥⎥⎥⎥⎥⎥

a=\begin{bmatrix} 2\\2\\2 \end{bmatrix}\quad P=\frac{1}{12}\begin{bmatrix}2\\2\\2\end{bmatrix} \begin{bmatrix}2&2&2\end{bmatrix}=\begin{bmatrix} \frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\ \frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\ \frac{1}{3}&\frac{1}{3}&\frac{1}{3} \end{bmatrix}

通过aa的那条线跟之前一样,这才是投影矩阵真正关心的,如果aa是单位长度,那么分母是aTa=1a^Ta=1,投影矩阵就是P=aaTP=aa^T。

例3:考虑x−yx-y平面上θ\theta方向上的投影。这条线通过a=(cosθ,sinθ)a=(\cos\theta,\sin\theta),矩阵是对称并且P2=PP^2=P:

P=aaTaTa=[cs][cs][cs][cs]=[c2cscss2]

P=\frac{aa^T}{a^Ta}=\frac{\begin{bmatrix}c\\s\end{bmatrix}\begin{bmatrix}c&s\end{bmatrix}}{\begin{bmatrix}c&s\end{bmatrix}\begin{bmatrix}c\\s\end{bmatrix}}= \begin{bmatrix} c^2&cs\\cs&s^2 \end{bmatrix}

这里的cc表示cosθ\cos\theta,ss表示sinθ\sin\theta,分母中c2+s2=1c^2+s^2=1,我们需要强调一下,是投影矩阵PP 产生了投影pp:

为了将bb投影到aa上,通过乘以投影矩阵PP即可:p=Pbp=Pb

转置

最后我们将内积和ATA^T联系起来,目前为止,ATA^T仅仅是AA关于主对角线的反射;AA的行变成ATA^T的列,反之亦然。AA中ii行jj列的元素变成AA中(j,i)(j,i)元素:

ATij=(A)ji

A_{ij}^T=(A)_{ji}

对于ATA^T而言还有更深层次的意义,和内积的紧密联系给出了一个全新的并且更加抽象的转置定义:

9、转置ATA^T可以根据以下性质来定义:AxAx和yy的内积等于xx和ATyA^Ty的内积,也就说

(Ax)Ty=xTATy=xT(ATy)(7)

\begin{equation}(Ax)^Ty=x^TA^Ty=x^T(A^Ty)\tag7\end{equation}

这个定义给我们提供了另一种方法来验证(AB)T=BTAT(AB)^T=B^TA^T,两次使用方程(8):

(ABx)Ty=(Bx)T(ATy)=xT(BTATy)

(ABx)^Ty=(Bx)^T(A^Ty)=x^T(B^TA^Ty)

转置使得右边的顺序发生了反转,就像逆中发生的那样(AB)−1=B−1A−1(AB)^{-1}=B^{-1}A^{-1},我们再次提及这两个公式是为了得出一个非凡的组合(A−1)T=(AT)−1(A^{-1})^T=(A^T)^{-1}。

漫步线性代数十五——余弦和投影相关推荐

  1. 漫步线性代数十六——投影和最小二乘

    目前为止,我们已经知道Ax=bAx=b要么有解要么无解,如果bb 不在列空间C(A)C(A) 里,那么这个系统就是矛盾的,高斯消元法就会失败.当有几个方程和一个未知量时失败完全可以确定: 2x3x4x ...

  2. 漫步线性代数十九——快速傅里叶变换(上)

    傅里叶级数是无限维度上的线性代数,它里面的向量实际上是函数f(x)f(x):他们分别投影到正弦和余弦上:然后乘以傅里叶系数ak,bka_k,b_k.用ak,bka_k,b_k乘以无限的正弦和余弦序列就 ...

  3. 漫步线性代数十八——正交基和格拉姆-施密特正交化(下)

    格拉姆-施密特 声明:以后博主会把文章的pdf版本陆续发布到的网上,免费供大家下载 正交基和格拉姆-施密特正交化 假设我们有是是三个无关向量a,b,ca,b,c,如果他们是正交的,那么会多问题都变得容 ...

  4. 漫步线性代数十——线性无关,基和维数

    m,nm,n没有给出线性系统实际大小的真实信息,在我们上文的例子中有三行和四列,但是第三行仅仅是前两行的组合,在消元后得到了零行,它对奇次问题Ax=0Ax=0 没有影响.第四列同样是相关的,列空间减到 ...

  5. [python opencv 计算机视觉零基础到实战] 十五 直方图反向投影

    一.学习目标 了解了直方图反向投影的一般流程 了解2D直方图的使用 如有错误欢迎指出~ 二.了解直方图反向投影 2.1 了解2D直方图 需要对直方图进行反向投影,需要使用2D直方图.2D直方图需要使用 ...

  6. 漫步线性代数十二——网络

    上篇文章举的例子是3×43\times 4矩阵,从理论角度来说它解决了我们要求的问题:计算四个子空间以及他们的维数r,n−r,r,m−rr,n-r,r,m-r都是非零的.但是这个例子并是不是由实际应用 ...

  7. 漫步最优化十五——凸函数优化

    你在穿山越岭的另一边,\textbf{你在穿山越岭的另一边,} 而我也在没有尽头的孤独路上前行.\textbf{而我也在没有尽头的孤独路上前行.} 试着体会错误,试着忍住眼泪,\textbf{试着体会 ...

  8. 漫步数理统计十五——两个随机变量的分布

    接下里我们讨论两个随机变量的例子.连续掷三次硬币并考虑有序数对(前两次HH的个数,三次中HH的个数),其中H,TH,T 分别表示正面与反面,那么样本空间是C={c:c=ci,i=1,2,-,8}\te ...

  9. 漫步数学分析十五——连续

    连续函数有一个重要的性质,那就是当xx靠近x0x_0时,f(x)f(x)靠近f(x0)f(x_0)(如图???\ref{fig:4-1}所示).另一方面,在图2中,即使xx非常靠近x0x_0,但是f( ...

最新文章

  1. Hadoop集群上使用JNI,调用资源文件
  2. Win32 调用netapi32实现用户枚举
  3. NYOJ_5743Distribution(第八届河南省程序设计大赛)
  4. bzoj2049 [Sdoi2008]Cave 洞穴勘测
  5. jpanel网格布局添加滚动条_啥是前端开发工程师必会的5种网页布局方式?
  6. 群体智能,多个机器人协同搬运!
  7. HBase数据迁移到Kafka实战
  8. Hibernate3 r的SLF4J问题
  9. 智能机器人建房子后房价走势_深圳建二手房价引导制度,学习长沙意图明显,距离稳准狠差点意思...
  10. [电工] 比较电路、反向滞回电路,正向滞回电路预习题
  11. (转)Struts2快速入门
  12. Zookeeper ZAB 协议分析
  13. 程序员:时间就是最好的创意
  14. ESP8285调试 IOT_Demo
  15. 记录一下百度网盘双击无法正常启动以及解决办法
  16. JS调用google DEMO朗读
  17. leetcode 没有php,Leetcode PHP题解--D99 860. Lemonade Change
  18. 【历史上的今天】7 月 18 日:英特尔成立;万维网上传了第一张照片;eBay 分拆 PayPal
  19. 睿智的目标检测28——YoloV4当中的Mosaic数据增强方法
  20. Electron使用sqlite3 出现install aws-sdk和_handle的解决方案!

热门文章

  1. XBMC不能看搜狐电视剧
  2. JDDroppableView
  3. 使用CSS控制段落首行缩进
  4. 【4K HDR】2020年东京圣诞灯会/
  5. typora+picgo+gitee搭建免费图床纵享丝滑
  6. C# Replace字符替换函数
  7. leetcode 删除链表的倒数第N个节点
  8. JS、javascript计算两个时间差
  9. 【Day08】请简述虚拟 DOM 中 Key 的作用和好处
  10. 【服务端渲染】NuxtJs 综合案例