协方差矩阵在统计学和机器学习中随处可见,一般而言,可视作方差协方差两部分组成,即方差构成了对角线上的元素,协方差构成了非对角线上的元素。本文旨在从几何角度介绍我们所熟知的协方差矩阵。

文章结构

  1. 方差和协方差的定义
  2. 从方差/协方差到协方差矩阵
  3. 多元正态分布与线性变换
  4. 协方差矩阵的特征值分解

1. 方差和协方差的定义

在统计学中,方差是用来度量单个随机变量离散程度,而协方差则一般用来刻画两个随机变量相似程度,其中,方差的计算公式为

其中, 表示样本量,符号 表示观测样本的均值,这个定义在初中阶段就已经开始接触了。

在此基础上,协方差的计算公式被定义为

在公式中,符号 分别表示两个随机变量所对应的观测样本均值,据此,我们发现:方差 可视作随机变量 关于其自身的协方差 .

2. 从方差/协方差到协方差矩阵

根据方差的定义,给定 个随机变量 ,则这些随机变量的方差

其中,为方便书写, 表示随机变量 中的第 个观测样本, 表示样本量,每个随机变量所对应的观测样本数量均为

对于这些随机变量,我们还可以根据协方差的定义,求出两两之间的协方差,即

因此,协方差矩阵

其中,对角线上的元素为各个随机变量的方差,非对角线上的元素为两两随机变量之间的协方差,根据协方差的定义,我们可以认定:矩阵 对称矩阵(symmetric matrix),其大小为

3. 多元正态分布与线性变换

假设一个向量 服从均值向量为 、协方差矩阵为 的多元正态分布(multi-variate Gaussian distribution),则

令该分布的均值向量为 ,由于指数项外面的系数 通常作为常数,故可将多元正态分布简化为

再令 ,包含两个随机变量 ,则协方差矩阵可写成如下形式:

单位矩阵(identity matrix) 作为协方差矩阵,随机变量 方差均为1,则生成如干个随机数如图1所示。

图1 标准的二元正态分布

在生成的若干个随机数中,每个点的似然为

对图1中的所有点考虑一个线性变换(linear transformation): ,我们能够得到图2.

图2 经过线性变换的二元正态分布,先将图1的纵坐标压缩0.5倍,再将所有点逆时针旋转30°得到。

在线性变换中,矩阵 被称为变换矩阵(transformation matrix),为了将图1中的点经过线性变换得到我们想要的图2,其实我们需要构造两个矩阵:

  • 尺度矩阵(scaling matrix):

  • 旋转矩阵(rotation matrix)

其中, 顺时针旋转的度数

变换矩阵、尺度矩阵和旋转矩阵三者的关系式:

在这个例子中,尺度矩阵为 ,旋转矩阵为 ,故变换矩阵为

.

另外,需要考虑的是,经过了线性变换, 的分布是什么样子呢

带入前面给出的似然 ,有

由此可以得到,多元正态分布的协方差矩阵为

.

4. 协方差矩阵的特征值分解

回到我们已经学过的线性代数内容,对于任意对称矩阵 ,存在一个特征值分解(eigenvalue decomposition, EVD)

其中,的每一列都是相互正交的特征向量,且是单位向量,满足 对角线上的元素是从大到小排列的特征值,非对角线上的元素均为0。

当然,这条公式在这里也可以很容易地写成如下形式:

其中, ,因此,通俗地说,任意一个协方差矩阵都可以视为线性变换的结果

在上面的例子中,特征向量构成的矩阵

.

特征值构成的矩阵

.

到这里,我们发现:多元正态分布的概率密度是由协方差矩阵的特征向量控制旋转(rotation)特征值控制尺度(scale),除了协方差矩阵,均值向量会控制概率密度的位置,在图1和图2中,均值向量为 ,因此,概率密度的中心位于坐标原点。

相关参考:

Understanding the Covariance Matrix​janakiev.comWhat is the Covariance Matrix?​fouryears.eu

方差协方差以及协方差矩阵相关推荐

  1. 如何直观地理解「协方差矩阵」?

    如何直观地理解「协方差矩阵」? Xinyu Chen Urban Traffic Data Analytics 372 人赞同了该文章 协方差矩阵在统计学和机器学习中随处可见,一般而言,可视作方差和协 ...

  2. 解释为什么用梯度下降而不是直接求导数为0的解

    问题: 在计算线性回归最大似然估计的解的时候,最后的推导结果是 为什么不直接求出θ?而是一步步迭代求出θ? 原因 因此,梯度下降可以节省大量的计算时间.此外,它的完成方式允许一个简单的并行化,即在多个 ...

  3. 带你彻彻底底搞懂朴素贝叶斯公式

    https://zhuanlan.zhihu.com/p/54287889 本文参考了该博客的实例,但该博客中的朴素贝叶斯公式计算错误,评论中的也不对,所以,重新写一篇. 一. 朴素贝叶斯 朴素贝叶斯 ...

  4. 深度学习优化函数详解(5)-- Nesterov accelerated gradient (NAG) 优化算法

    深度学习优化函数详解系列目录 深度学习优化函数详解(0)– 线性回归问题 深度学习优化函数详解(1)– Gradient Descent 梯度下降法 深度学习优化函数详解(2)– SGD 随机梯度下降 ...

  5. 什么是高/低方差、高/低偏差、(推荐阅读)

    2021071 https://www.pianshen.com/article/71161696005/ 方差是对多个样本集的比较而言? 摘要:在现实任务中,我们往往有多种学习算法可供选择,甚至对同 ...

  6. RPC远程调用通俗理解

    先从一个案例来讲RPC(文章来自程序人生微信号) 查看全文 http://www.taodudu.cc/news/show-64152.html 相关文章: linux下yum错误:[Errno 14 ...

  7. 协方差矩阵有什么意义?

    Yining ​ 交易员 740 人赞同了该回答 协方差矩阵实在是太重要了,无论是在计量,金融工程还是随机分析中,我们都会到用到协方差矩阵.其实,这三者都利用了协方差矩阵本身的含义,即随机变量之间的线 ...

  8. 机器学习:协方差矩阵

    一.统计学的基本概念 统计学里最基本的概念就是样本的均值.方差.标准差.首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告 ...

  9. 协方差矩阵介绍及C++/OpenCV/Eigen的三种实现

    函数f(x)关于某分布P(x)的期望(expectation)或者期望值(expected value)是指,当x由P产生,f作用于x时,f(x)的平均值.对于离散型随机变量,这可以通过求和得到: 对 ...

最新文章

  1. 贝塞尔曲线开发的艺术
  2. CTF-Web-基础知识点汇总
  3. 计算机科学软件工程专业大学排名,2020软件工程专业大学排名及录取分数汇总(2021理科生参考)...
  4. CS294-112 深度强化学习 秋季学期(伯克利)NO.17 Meta-learning and parallelism
  5. 导出EXCEL中的文件到资源管理器
  6. Markdown简明使用
  7. 2021年网生代线上社交行为洞察报告
  8. 《从缺陷中学习C/C++》——6.3 数组传参时的sizeof
  9. 原型模式(Prototype)以及深浅复制
  10. NYOJ-01串(dp)
  11. WCF开发实战系列四:使用Windows服务发布WCF服务
  12. linux 内核块设备驱动,linux之块设备驱动
  13. whey some page need header when your fetch that page and some don't need
  14. SQL Server2016的彻底删除
  15. erp故障处理流程图_(完整版)最新鼎捷易助ERP常见问题故障及解决方案方法FAQ
  16. Censored! POJ - 1625(AC自动机 + dp +高精度模板)
  17. Arduino小白的学习历程
  18. c语言remainder函数,remainder
  19. 本科计算机专业是机试,华东师大计算机专业复试上机复习攻略+机试技巧
  20. 三次样条插值(附完整代码)

热门文章

  1. Github配置(git+vscode+python+jupyter)
  2. 2022-2028年中国房车旅游行业深度调研及投资前景预测报告
  3. Linux shell 学习笔记(12)— linux 信号、后台运行脚本、作业控制、定时运行任务
  4. linux高效办公环境配置(vim、tmux、bash_profile)
  5. 提高班第三周周记(中秋第三天)
  6. 三层交换机原理:01路由器如何隔离广播域?
  7. 命名实体识别学习笔记——使用Ltp
  8. IP 公司与GPU IP
  9. 深度学习编译与优化Deep Learning Compiler and Optimizer
  10. 激光雷达Lidar Architecture and Lidar Design(下)