漫步线性代数十五——余弦和投影
满足xTy=0x^Ty=0的向量是正交的,现在我们考虑内积不为零的情况,也就是夹角不是直角。我们想把内积和角度以及转置联系起来,回顾之前讲过的转置,将矩阵翻转一下就是它的转置,有点像摊煎饼。
首先不可否认的是:正交情况是最重要的。假设我们想要找出点bb到向量aa所在直线的距离,那么我们就需要沿着直线找到离点bb最近的点pp,几何上的含义就是:连接b,pb,p的线(图1)与aa垂直。基于这个事实,我们可以找到投影pp,虽然a,ba,b不是正交的,但是碰到距离问题我们自动往正交方向去想。
图1
当我们遇到的是直线(或者任何子空间SS)而不是直线时,同样这样去思考求解,这种问题依然是找出子空间中离bb最近的点pp,这个点pp是bb在子空间上的投影,从bb向SS引垂线,在子空间的交点处就是pp。几何上来说,就是找出点bb到子空间SS的距离,但是这里有两个疑问:
- 这个投影是来自于实际应用吗?
- 如果我们知道子空间SS的一个基,那么有没有一个公式来表示投影pp 吗?
回答是肯定的。准确来说这是最小二乘问题,向量bb表示实验或问题的数据,它包含许多误差,所以无法在子空间SS中找出解。如果我们试着用SS的基向量组合表示bb,会发现根本不存在——Ax=bAx=b无解。
最小二乘问题选择选择pp作为bb的最佳替换,毫无疑问这个应用是非常重要的。在经济和统计学中,最小二乘用于回归分析;在地质测量中,美国绘制测量要解决2.5百万个方程,其中未知数有40万个。
当子空间是一条直线时,pp的形式很简单那,我们以几种不同的方法将bb投影到aa上,并且将投影pp和内积与角度联系起来。在高维空间的投影也很重要;它对应于有几个参数的最小二乘问题,具体解法会在下一篇文章给出。我们还会看到的,当SS的基是正交的时候,投影的形式会变得更加简单。
内积和余弦
现在我们开始讨论内积和余弦,随后大家会看到与内积直接相关的不是角度而是它的余弦。我们先回顾一下二维空间中的三角关系,假设向量a,ba,b和xx轴的夹角是α,β\alpha,\beta(图2),长∥a∥\parallel a\parallel是三角形OaQOaQ的斜边,所以α\alpha的正弦和余弦分别是:
\sin\alpha=\frac{a_2}{\parallel a\parallel},\quad \cos\alpha=\frac{a_1}{\parallel a\parallel}
对于角β\beta,正弦是b2/∥b∥b_2/\parallel b\parallel,余弦是b1/∥b∥b_1/\parallel b\parallel,θ=β−α\theta=\beta-\alpha的余弦如下:
\begin{equation} \cos\theta=\cos\beta\cos\alpha+\sin\beta\sin\alpha=\frac{a_1b_1+a_2b_2}{\parallel a\parallel \parallel b\parallel}\tag1 \end{equation}
公式中的分子就是a,ba,b的内积,它给出了aTba^Tb和cosθ\cos\theta之间的关系:
7、对于任意两个非零向量a,ba,b,他们夹角的余弦值为:
\begin{equation}\cos\theta=\frac{a^Tb}{\parallel a\parallel\parallel b\parallel}\end{equation}
这个公式满足尺度不变;如果bb的长度加倍,那么分子和分母均加倍,余弦值保持不变。另一方面,改变bb的符号,cosθ\cos\theta的符号也发生变换。
图2
还有一个三角定律可以推出同样的结论,它和三角形边长有关:
\begin{equation} \parallel b-a\parallel^2=\parallel b\parallel^2+\parallel a\parallel^2-2\parallel b\parallel\parallel a\parallel\cos\theta\tag2 \end{equation}
当θ\theta是直角时,就变成了毕达哥拉斯定理:∥b−a∥2=∥b∥2+∥a∥2\parallel b-a\parallel^2=\parallel b\parallel^2+\parallel a\parallel^2。对于任何角度θ\theta,表示式∥b−a∥2\parallel b-a\parallel^2都是(b−a)T(b−a)(b-a)^T(b-a),方程(3)就变成:
b^Tb-2a^Tb+a^Ta=b^Tb+a^Ta-2\parallel b\parallel \parallel a\parallel \cos\theta
消去两边的bTb,aTab^Tb,a^Ta后,得到和公式(2)等价的形式:aTb=∥a∥∥b∥cosθa^Tb=\parallel a\parallel \parallel b\parallel \cos\theta。事实上,这个证明了nn维的余弦公式,因为这里的角度不限于二维平面OabOab。
直线上的投影
现在我们想找出投影点pp,这个点必须是给定向量aa的某个倍数p=x^ap=\hat{x}a,问题就变成计算系数a^\hat{a}。我们知道的几何事实是bb到最近点p=x^ap=\hat{x}a的连线垂直于向量aa:
\begin{equation} (b-\hat{a})\perp a,\quad a^T(b-\hat{a}=0,\quad \hat{x}=\frac{a^Tb}{a^Ta})\tag3 \end{equation}
据此我们可以得出x^\hat{x}和投影pp的公式:
8、向量bb在直线上(方向和aa一致)的投影p=x^ap=\hat{x}a是:
\begin{equation}p=\hat{x}a=\frac{a^Tb}{a^Ta}a\tag4\end{equation}
据此我们将图1重画成精确的图3。
另外这个形式能导出施瓦兹(Schwarz)不等式,这是数学里非常重要的不等式。它有一个特殊情况,就是算术平均12(x+y)\frac{1}{2}(x+y) 大于几何平均xy−−√\sqrt{xy}。施瓦兹不等式似乎来自于这样的命题:图3中的∥e∥2=∥b−p∥2\parallel e\parallel^2=\parallel b-p\parallel^2是非负的。
\Big\Vert b-\frac{a^Tb}{a^Ta}a\Big\Vert^2=b^Tb-2\frac{(a^Tb)^2}{a^Ta}+\left(\frac{a^Tb}{a^Ta}\right)^2a^Ta=\frac{(b^Tb)(a^Tab)-(a^Tb)^2}{(a^Ta)}\geq 0
这个公式说明(bTb)(aTab)≥(aTb)2(b^Tb)(a^Tab)\geq(a^Tb)^2,接着我们取它的平方根:
9、所有向量a,ba,b满足施瓦兹不等式,其中|cosθ|≤1|\cos\theta|\leq 1:
\begin{equation}|a^Tb|\leq\Vert a\Vert\Vert b\Vert\tag5\end{equation}
根据公式(2),aTb,∥a∥∥b∥a^Tb,\Vert a\Vert\Vert b\Vert的比值就是|cosθ||\cos\theta|。因为余弦值的范围是−1≤cosθ≤1-1\leq\cos\theta\leq1,这也是方程(6)的另一种证明:施瓦兹不等式和|cosθ|≤1|\cos\theta|\leq1本质上一样。从某种程度上来说,这个证明更容易理解,因为大家都余弦都比较熟悉。另外每个证明在RnR^n中都满足,但是需要注意,我们是从九计算∥b−p∥2\Vert b-p\Vert^2开始的,当我们引入新的长度和内积时依然需要保持非负。对于不等式|aTb|≤∥a∥∥b∥|a^Tb|\leq\Vert a\Vert\Vert b\Vert,它跟柯西(Cauchy)也有联系,俄罗斯人将它称作柯西-施瓦兹-布尼亚科夫斯基(Cauchy-Schwarz-Buniakowsky)不等式!数学是上似乎承认布尼亚克夫斯基的贡献。
观察|aTb|≤∥a∥∥b∥|a^Tb|\leq\Vert a\Vert\Vert b\Vert,当且仅当bb 是aa的倍数时等号成立。也就说角度cosθ=0∘\cos\theta =0^\circ 或者cosθ=180∘\cos\theta =180^\circ时,余弦等于1或者-1。这时候bb和它的映射pp相等,bb到直线的距离是零。
例1:将b=(1,2,3)b=(1,2,3)投影大通过点a=(1,1,1)a=(1,1,1)的直线上,那么x^,p\hat{x},p分别为:
\hat{x}=\frac{a^Tb}{a^Ta}=\frac{6}{3}=2
投影是p=x^a=(2,2,2)p=\hat{x}a=(2,2,2),a,ba,b之间的角度是
\cos\theta=\frac{\Vert p\Vert}{\Vert b\Vert}=\frac{\sqrt{12}}{\sqrt{14}}\quad \cos\theta=\frac{a^Tb}{\Vert a\Vert\Vert b\Vert}=\frac{6}{\sqrt{3}\sqrt{14}}
施瓦兹不等式|aTb|≤∥a∥∥b∥|a^Tb|\leq\Vert a\Vert\Vert b\Vert就是b≤3√14−−√b\leq\sqrt{3}\sqrt{14},如果我们将6写成36−−√\sqrt{36},那么不等式变成36−−√≤42−−√\sqrt{36}\leq\sqrt{42}。可以看出余弦值小于1,因为bb与aa不是平行关系。
秩为1的投影矩阵
bb在直线上的投影是p=a(aTb/aTa)p=a(a^Tb/a^Ta),也就是公式p=x^ap=\hat{x}a,但是这个写法有点歧义:向量aa放在数字x^=aTb/aTa\hat{x}=a^Tb/a^Ta的前面,这个小细节背后是有原因的,在一条线上的投影可以用投影矩阵PP实现,用矩阵的形式来表示就能看出端倪了,利用投影矩阵PP乘以bb得到pp的形式我们得到;
\begin{equation} p=a\frac{a^Tb}{a^Ta},\text{所以投影矩阵是}P=\frac{aa^T}{a^Ta}\tag6 \end{equation}
分子是一列乘以一行——得到一个方阵,然后除以一个数aTaa^Ta 得到投影矩阵。
例2:投影到通过a=(1,1,1)a=(1,1,1)直线的矩阵是
P=\frac{aa^T}{a^Ta}=\frac{1}{3}\begin{bmatrix}1\\1\\1\end{bmatrix}\begin{bmatrix}1&1&1\end{bmatrix}=\begin{bmatrix} \frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\\frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\\frac{1}{3}&\frac{1}{3}&\frac{1}{3}\end{bmatrix}
我们会看到这个矩阵有两个典型的性质:
- PP是一个对称矩阵。
- 它的平方等于它自身:P2=PP^2=P。
P2bP^2b就是PbPb的投影,因为PbPb已经在直线上了,所以P2b=PbP^2b=Pb。考虑矩阵PP的四个子空间:
列空间由通过a=(1,1,1)a=(1,1,1)的直线组成,零空间由垂直于aa的平面组成,它的秩为1,即r=1r=1。
每列都是aa的倍数,所以Pb=x^aPb=\hat{x}a,投影为p=0p=0的向量非常重要,他们满足aTb=0a^Tb=0,也就是说他们与aa垂直,沿着aa方向上的分量为0,位于零空间=垂直平面。
这个例子太完美了,它的零空间垂直于列空间。之前学到过,零空间应该垂直于行空间,所以这里的结论似乎有点失控了。但是因为PP是对称的,所以它的行和列空间是一样的。
注解:如果aa加倍,投影矩阵aaT/aTaaa^T/a^Ta保持不变:
a=\begin{bmatrix} 2\\2\\2 \end{bmatrix}\quad P=\frac{1}{12}\begin{bmatrix}2\\2\\2\end{bmatrix} \begin{bmatrix}2&2&2\end{bmatrix}=\begin{bmatrix} \frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\ \frac{1}{3}&\frac{1}{3}&\frac{1}{3}\\ \frac{1}{3}&\frac{1}{3}&\frac{1}{3} \end{bmatrix}
通过aa的那条线跟之前一样,这才是投影矩阵真正关心的,如果aa是单位长度,那么分母是aTa=1a^Ta=1,投影矩阵就是P=aaTP=aa^T。
例3:考虑x−yx-y平面上θ\theta方向上的投影。这条线通过a=(cosθ,sinθ)a=(\cos\theta,\sin\theta),矩阵是对称并且P2=PP^2=P:
P=\frac{aa^T}{a^Ta}=\frac{\begin{bmatrix}c\\s\end{bmatrix}\begin{bmatrix}c&s\end{bmatrix}}{\begin{bmatrix}c&s\end{bmatrix}\begin{bmatrix}c\\s\end{bmatrix}}= \begin{bmatrix} c^2&cs\\cs&s^2 \end{bmatrix}
这里的cc表示cosθ\cos\theta,ss表示sinθ\sin\theta,分母中c2+s2=1c^2+s^2=1,我们需要强调一下,是投影矩阵PP 产生了投影pp:
为了将bb投影到aa上,通过乘以投影矩阵PP即可:p=Pbp=Pb
转置
最后我们将内积和ATA^T联系起来,目前为止,ATA^T仅仅是AA关于主对角线的反射;AA的行变成ATA^T的列,反之亦然。AA中ii行jj列的元素变成AA中(j,i)(j,i)元素:
A_{ij}^T=(A)_{ji}
对于ATA^T而言还有更深层次的意义,和内积的紧密联系给出了一个全新的并且更加抽象的转置定义:
9、转置ATA^T可以根据以下性质来定义:AxAx和yy的内积等于xx和ATyA^Ty的内积,也就说
\begin{equation}(Ax)^Ty=x^TA^Ty=x^T(A^Ty)\tag7\end{equation}
这个定义给我们提供了另一种方法来验证(AB)T=BTAT(AB)^T=B^TA^T,两次使用方程(8):
(ABx)^Ty=(Bx)^T(A^Ty)=x^T(B^TA^Ty)
转置使得右边的顺序发生了反转,就像逆中发生的那样(AB)−1=B−1A−1(AB)^{-1}=B^{-1}A^{-1},我们再次提及这两个公式是为了得出一个非凡的组合(A−1)T=(AT)−1(A^{-1})^T=(A^T)^{-1}。
漫步线性代数十五——余弦和投影相关推荐
- 漫步线性代数十六——投影和最小二乘
目前为止,我们已经知道Ax=bAx=b要么有解要么无解,如果bb 不在列空间C(A)C(A) 里,那么这个系统就是矛盾的,高斯消元法就会失败.当有几个方程和一个未知量时失败完全可以确定: 2x3x4x ...
- 漫步线性代数十九——快速傅里叶变换(上)
傅里叶级数是无限维度上的线性代数,它里面的向量实际上是函数f(x)f(x):他们分别投影到正弦和余弦上:然后乘以傅里叶系数ak,bka_k,b_k.用ak,bka_k,b_k乘以无限的正弦和余弦序列就 ...
- 漫步线性代数十八——正交基和格拉姆-施密特正交化(下)
格拉姆-施密特 声明:以后博主会把文章的pdf版本陆续发布到的网上,免费供大家下载 正交基和格拉姆-施密特正交化 假设我们有是是三个无关向量a,b,ca,b,c,如果他们是正交的,那么会多问题都变得容 ...
- 漫步线性代数十——线性无关,基和维数
m,nm,n没有给出线性系统实际大小的真实信息,在我们上文的例子中有三行和四列,但是第三行仅仅是前两行的组合,在消元后得到了零行,它对奇次问题Ax=0Ax=0 没有影响.第四列同样是相关的,列空间减到 ...
- [python opencv 计算机视觉零基础到实战] 十五 直方图反向投影
一.学习目标 了解了直方图反向投影的一般流程 了解2D直方图的使用 如有错误欢迎指出~ 二.了解直方图反向投影 2.1 了解2D直方图 需要对直方图进行反向投影,需要使用2D直方图.2D直方图需要使用 ...
- 漫步线性代数十二——网络
上篇文章举的例子是3×43\times 4矩阵,从理论角度来说它解决了我们要求的问题:计算四个子空间以及他们的维数r,n−r,r,m−rr,n-r,r,m-r都是非零的.但是这个例子并是不是由实际应用 ...
- 漫步最优化十五——凸函数优化
你在穿山越岭的另一边,\textbf{你在穿山越岭的另一边,} 而我也在没有尽头的孤独路上前行.\textbf{而我也在没有尽头的孤独路上前行.} 试着体会错误,试着忍住眼泪,\textbf{试着体会 ...
- 漫步数理统计十五——两个随机变量的分布
接下里我们讨论两个随机变量的例子.连续掷三次硬币并考虑有序数对(前两次HH的个数,三次中HH的个数),其中H,TH,T 分别表示正面与反面,那么样本空间是C={c:c=ci,i=1,2,-,8}\te ...
- 漫步数学分析十五——连续
连续函数有一个重要的性质,那就是当xx靠近x0x_0时,f(x)f(x)靠近f(x0)f(x_0)(如图???\ref{fig:4-1}所示).另一方面,在图2中,即使xx非常靠近x0x_0,但是f( ...
最新文章
- Hadoop集群上使用JNI,调用资源文件
- Win32 调用netapi32实现用户枚举
- NYOJ_5743Distribution(第八届河南省程序设计大赛)
- bzoj2049 [Sdoi2008]Cave 洞穴勘测
- jpanel网格布局添加滚动条_啥是前端开发工程师必会的5种网页布局方式?
- 群体智能,多个机器人协同搬运!
- HBase数据迁移到Kafka实战
- Hibernate3 r的SLF4J问题
- 智能机器人建房子后房价走势_深圳建二手房价引导制度,学习长沙意图明显,距离稳准狠差点意思...
- [电工] 比较电路、反向滞回电路,正向滞回电路预习题
- (转)Struts2快速入门
- Zookeeper ZAB 协议分析
- 程序员:时间就是最好的创意
- ESP8285调试 IOT_Demo
- 记录一下百度网盘双击无法正常启动以及解决办法
- JS调用google DEMO朗读
- leetcode 没有php,Leetcode PHP题解--D99 860. Lemonade Change
- 【历史上的今天】7 月 18 日:英特尔成立;万维网上传了第一张照片;eBay 分拆 PayPal
- 睿智的目标检测28——YoloV4当中的Mosaic数据增强方法
- Electron使用sqlite3 出现install aws-sdk和_handle的解决方案!