协方差

协方差矩阵的解释:A geometric interpretation of the covariance matrix

这里通过探索线性变换与所得数据协方差之间的关系,提供协方差矩阵的直观几何解释。大多数教科书基于协方差矩阵的概念来解释数据的形状。相反,这里采用向后的方法,并根据数据的形状解释协方差矩阵的概念。

使用下图来显示标准差,作为方差的平方根,提供了数据在特征空间中分布的量度。

图1 高斯密度函数。对于正态分布的数据,68% 的样本落在均值加减标准差所定义的区间内。

我们表明,可以通过以下方式获得样本方差的无偏估计:

然而,方差只能用来解释数据在平行于特征空间轴的方向上的分布。考虑图 2 所示的二维特征空间:

图2 二维数据分布

对于这些数据,我们可以计算x 方向的方差和y方向的方差。然而,数据的水平分布和垂直分布并不能解释明显的对角相关性。上图清楚地表明,平均而言,如果数据点的 x 值增加,则y值也会增加,从而产生正相关。这种相关性可以通过将方差的概念扩展到所谓的数据“协方差”来捕捉:

对于二维数据,我们因此获得为一个矩阵,称为协方差矩阵:

如果 x 与 y 正相关,则 y 也与 x 正相关。换句话说,我们可以说

因此,协方差矩阵始终是一个对称矩阵,其方差在对角线上,协方差在对角线外。

下图说明了数据的整体形状如何定义协方差矩阵:

图3.协方差矩阵定义了数据的形状。对角分布由协方差捕获,而轴对齐分布由方差捕获。

协方差矩阵的特征分解

在下一节中,我们将讨论如何将协方差矩阵解释为将白色数据转换为我们观察到的数据的线性算子。然而,在深入研究技术细节之前,重要的是要直观地理解特征向量和特征值如何唯一地定义协方差矩阵,从而定义我们数据的形状。

协方差矩阵定义了数据的散布(方差)和方向(协方差)。所以,如果我们想用一个向量及其大小来表示协方差矩阵,我们应该简单地尝试找到指向数据最大传播方向的向量,并且其大小等于这个传播(方差)方向。

如果我们把这个向量定义为,那么我们的数据D在这个向量上的投影就是,那么这个数据的方差就是,由于我们正在寻找指向最大方差方向的向量,因此我们应该选择它的分量,使得投影数据的协方差矩阵尽可能大。可以表示为所谓的瑞利商,这种瑞利商的最大值是通过设置等于矩阵的最大特征向量来获得的。

也就是说,协方差矩阵的最大特征向量总是指向数据方差最大的方向,这个向量的大小等于对应的特征值。第二大特征向量始终与最大特征向量正交,并指向数据的第二大传播方向。

为特征向量,为对应的特征值。如果我们数据的协方差矩阵是对角矩阵,协方差为零,那么这意味着方差必须等于特征值。 下图说明了这一点,其中特征向量以绿色和洋红色显示并且特征值明显等于协方差矩阵的方差分量。

图4.协方差矩阵

但是,如果协方差矩阵不是对角矩阵,使得协方差不为零,那么情况就稍微复杂一些。特征值仍然代表数据最大散布方向的方差幅度,协方差矩阵的方差分量仍然代表x轴和y轴方向的方差幅度。但由于数据不是轴对齐的,这些值不再相同,如图 5 所示。

图5.协方差矩阵

通过将上述的两张图进行比较,可以清楚地看出,特征值表示数据沿特征向量方向的方差,而协方差矩阵的方差分量表示沿轴的分布。如果没有协方差,则两个值相等。箭头的长度表示特征值大小,也表示该方向的方差。

协方差矩阵作为线性变换

图 .具有单位协方差矩阵的数据称为白色数据

设图 6 所示的数据为 ,则图3所示的每一个例子都可以通过线性变换得到,其中,分别表示旋转矩阵和缩放矩阵。

分别表示x,y方向的比例因子。在接下来的段落中,我们将讨论协方差矩阵和线性变换矩阵之间的关系。

让我们从未缩放(比例等于 1)和未旋转的数据开始。在统计学中,这通常被称为“白色数据”,因为它的样本来自标准正态分布,因此对应于白色(不相关)噪声:

图 7.白色数据是具有单位协方差矩阵的数据

这个“白色”数据的协方差矩阵等于单位矩阵,使得方差和标准差等于 1,协方差等于 0:

现在让我们在 x 方向上将数据缩放 4 倍:

数据现在如下所示:

图 8. x 方向的变化导致水平缩放

现在新的协方差矩阵为

正如我们之前看到的,我们可以用它的特征向量和特征值来表示协方差矩阵:

的特征向量组成的矩阵,其列向量为对应的特征向量,为对角阵,非0元素对应的特征值。这意味着我们可以将协方差矩阵表示为其特征向量和特征值的函数:

上式称为协方差矩阵的特征分解。可以使用奇异值分解算法获得。特征向量表示数据最大方差的方向,而特征值表示这些方向上的方差大小。也就是说, 表示旋转矩阵,而表示缩放矩阵。因此,协方差矩阵可以进一步分解为:

其中表示旋转矩阵,为缩放矩阵。在上式中,我们定义了一个线性变换

S为对角缩放矩阵,,此外,因为R为正交阵,,因此

,协方差矩阵可以写为

​​​​​​​        

换句话说,如果我们将 定义的线性变换应用于图 7 所示的原始白色数据,即有

图 10.协方差矩阵表示原始数据的线性变换

图 10 中的彩色箭头表示特征向量。最大特征向量,即对应特征值最大的特征向量,总是指向数据方差最大的方向,从而定义了它的方向。由于旋转矩阵的正交性,后续特征向量总是与最大特征向量正交。

此外,由于 R 是正交矩阵,R^{-1} = R^T。

事实上,数据 D 不需要是高斯的理论可以成立。然而,谈论协方差矩阵在高度非高斯的数据中通常没有多大意义。

矩阵相关知识回顾--协方差的意义相关推荐

  1. Nginx+Keepalived+LVS高可用集群----相关知识回顾

    1.原理回顾 1.1.集群知识回顾 集群特点: 1)高性能performance. 一些需要很强的运算处理能力比如天气预报,核试验等.这需要上千台计算器协同来完成这个工作的,共同分担计算任务. 2)价 ...

  2. TASSEL的MLM模型构建的kinship矩阵相关知识

    今天,看一下TASSEL的MLM模型构建的kinship矩阵是如何计算的? 1. 导入基因型数据 数据及代码下载,请关注公众号:育种数据分析之放飞自我,进入知识星球进行相关下载和学习 这里导入vcf格 ...

  3. 软测基础相关知识回顾

    做软件测试也有一段时间了,把自己的学习知识总结一下吧. 1.首先软件测试吧,听名字就知道 关于各个软件的测试 ,为发现错误而执行程序的过程,工作人员也可以说是QA. 2.软件测试的目的:发现软件中的缺 ...

  4. 概率论知识回顾(十八):协方差和相关系数

    概率论知识回顾(十八) 重点:协方差和相关系数 知识回顾用于巩固知识和查漏补缺.知识回顾步骤: 查看知识回顾中的问题,尝试自己解答 自己解答不出来的可以查看下面的知识解答巩固知识. 对知识解答有疑问的 ...

  5. 3D图形:矩阵的相关知识

    矩阵的基本概念 矩阵其实就是向量的数组.向量算的上是特殊的一维矩阵.下面说一下几种特殊的方阵(行数和列数都相同的矩阵). 对角矩阵 如果所有的飞对角线元素都为0,那么这样的矩阵称之为***对角矩阵** ...

  6. 软工导第一节课 计算机软件工程学作一个简短的概述,回顾计算机系统发展简史 软件工程的基本原理和方法有概括的本质的认识,详细讲解生命周期相关知识讲解8种典型的软件过程模型

    文章目录 软件危机 软件的定义 软件危机典型表现 产生软件危机的原因 消除软件危机的方法 软件工程 什么是软件工程 软件工程的本质特征 软件工程的基本原理 软件工程方法学 传统方法学 面向对象方法学 ...

  7. java知识回顾_Java7 –回顾

    java知识回顾 我开始写博客文章,介绍即将发布的Java8版本中的新增功能 ,并认为我将从快速回顾一下Java7带给我们的内容开始. Java7于2011年7月发布,被描述为"更具进化性而 ...

  8. java的JVM虚拟机相关知识,简单易懂。

    一.    Java class执行方式 1)  概要 Java的class只在需要的时候才内转载入内存,并由java虚拟机的执行引擎来执行,而执行引擎从总的来说主要的执行方式分为四种, 第一种,一次 ...

  9. 数据库及相关知识详解大全

    友情提示以下内容是对数据库以及相关知识所做的一个阐述,内容较多需多花费些各位看官宝贵时间,不过全是干货以及一些小的实例,我相信各位点进来的看官都会有所收获. 数据库介绍 什么是数据库? 数据库(Dat ...

最新文章

  1. 成功解决slave无datanode问题
  2. Linux必知必会的基本命令和部署项目流程
  3. python资源库——socket网络编程
  4. zookeeper客户端下载与使用
  5. Linux中的 【 find 】 命令
  6. OLTP在线事务处理
  7. QQ音乐生成下载链接
  8. C++A类继承B C类_长期投资指数基金到底选择A类收费还是C类收费
  9. 互联网产品经理必备文档介绍
  10. 最后1天,购票渠道即将关闭!Unite 2018开发者大会全日程公布
  11. [M1]Daily Scum 10.11
  12. 小学计算机知识点总结怎么写,小学信息技术教学期末总结范文
  13. 单元格等于计算机日期,Excel相邻单元格快速填入相同日期的几种方法
  14. iOS10下视频播放黑屏,又是苹果的坑!
  15. 2022第十三届蓝桥杯JAVAB组省赛总结
  16. 艾美捷曲妥珠单抗Trastuzumab参数和相关研究
  17. win10打开视频显示服务器运行失败,windows10系统无法播放GoPro视频的解决方法
  18. AVR单片机模数转换的ADC实验 ATmega16
  19. 2022全国职业技能大赛-网络安全赛题解析总结⑤(超详细)
  20. 【毕业N年系列】 毕业第四年

热门文章

  1. html div图片拉伸,使图像完全填充div而无需拉伸
  2. Matlab散点图进阶——矩阵气泡图
  3. 用Java实现递归与分治系列(二)
  4. Dubbo 入门教程与实战(一)上
  5. 正则环视(零宽度断言)
  6. C语言写mempocy
  7. phpStudy环境变量
  8. [转]嵌入式Web服务器
  9. SQL存储过程根据,循环取出数据
  10. #千锋逆战班,王富胜# 学如逆水行舟,不进则退。在千锋学习的第14天 笔记整理