协方差和协方差矩阵详解
理解协方差矩阵的关键就在于牢记它计算的是不同维度之间的协方差,而不是不同样本之间,拿到一个样本矩阵,我们最先要明确的就是一行是一个样本还是一个维度,心中明确这个整个计算过程就会顺流而下,这么一来就不会迷茫了。
统计学的基本概念:
学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集X={X1,X2,...,Xn}X=\{X_1,X_2,...,X_n\},依次给出均值(期望)、标准差和方差的公式描述:
均值:
\overline{X} = \frac{\sum_{i=1}^n Xi}{n}
标准差:
\sqrt{ \frac{\sum_{i=1}^n (X_i- \overline{X})^2}{n-1}}
方差:
\frac{\sum_{i=1}^n (X_i- \overline{X})^2}{n-1}
很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为 例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是 1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的 逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。
为什么需要协方差?:
上面几个统计量看似已经描述的差不多了,但我们应该注意到,标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的 大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的 猥琐程度跟他受女孩子欢迎程度是否存在一些联系啊,嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量。
我们可以仿照方差的定义:
var(X)=\frac{\sum_{i=1}^n(X_i- \overline{X})(X_i- \overline{X})}{n-1}
来度量各个维度偏离其均值的程度,标准差可以这么来定义:
cov(X,Y)=\frac{\sum_{i=1}^n(X_i- \overline{X})(Y_i- \overline{Y})}{n-1}
协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐就越受女孩子欢迎,嘿嘿,那必须的~结果为负值就说明负相关的,越猥琐女孩子越讨厌,可能吗?如果为0,也是就是统计上说的“相互独立”。
从协方差的定义上我们也可以看出一些显而易见的性质,如:
cov(X,X)=var(X)cov(X,X)=var(X)
cov(X,Y)=cov(Y,X)cov(X,Y)=cov(Y,X)
协方差多了就是协方差矩阵
上一节提到的猥琐和受欢迎的问题是典型二维问题,而协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算C2nC_n^2 个协方差,那自然而然的我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:
C_{n*n}=\begin{pmatrix}C_{11} & C_{12} & \cdots & C_{1n} \\C_{21} & C_{22} & \cdots & C_{2n} \\\vdots & \vdots & \cdots & \vdots \\C_{n1} & C_{n2} & \cdots & C_{nn} \\\end{pmatrix} 其中C_{ij}=cov(Dim_i,Dim_j)
DimiDim_i 是指第i维向量。
这个定义还是很容易理解的,我们可以举一个简单的三维的例子,假设数据集有{x,y,z}\{x,y,z\} 三个维度,则协方差矩阵为:
C=\begin{pmatrix}cov(x,x) & cov(x,y) & cov(x,z) \\cov(y,x) & cov(y,y) & cov(y,z) \\cov(z,x) & cov(z,y) & cov(z,z) \\\end{pmatrix}
可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。
协方差矩阵还可以这样计算,先让样本矩阵中心化,即每一维度减去该维度的均值,使每一维度上的均值为0,然后直接用新的到的样本矩阵乘 上它的转置,然后除以(N-1)即可。其实这种方法也是由前面的公式通道而来,只不过理解起来不是很直观,但在抽象的公式推导时还是很常用的!
协方差和协方差矩阵详解相关推荐
- 均值、方差、标准差及协方差、协方差矩阵详解
一.统计学基本概念:均值.方差.标准差 统计学里最基本的概念就是样本的均值.方差.标准差.首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 方差: 标准差: 均值描述的是样本 ...
- 深入理解协方差(图文详解)
先从方差开始,我们有一组样本x1.x2.x3····xn,这组样本的均值为EX,每一个样本都与EX之间存在误差,那么这组样本的方差被定义为:所有误差的和的均值,也即[Σ(xi-EX)^2]/(n-1) ...
- 协方差矩阵数学原理,numpy计算协方差矩阵(np.cov)函数详解与源码剖析
协方差矩阵详解以及numpy计算协方差矩阵(np.cov) 协方差矩阵详解 均值,标准差与方差 由简单的统计学基础知识,我们有如下公式: X ˉ = ∑ i = 1 n X i n \bar X{\r ...
- lda 协方差矩阵_线性判别分析LDA详解
1 Linear Discriminant Analysis 相较于FLD(Fisher Linear Decriminant),LDA假设:1.样本数据服从正态分布,2.各类得协方差相等.虽然这些在 ...
- 协方差、协方差矩阵的解释意义
此文章转载自别人的博客,可是他的博客关闭了,缅怀一下吧: 统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合 依次给出这些概念的公式描述,这些高中学过数学的孩 ...
- 【人脸识别】人脸验证算法Joint Bayesian详解及实现(Python版)
人脸验证算法Joint Bayesian详解及实现(Python版) Tags: JointBayesian DeepLearning Python 本博客仅为作者记录笔记之用,不免有很多细节不对之处 ...
- [Python从零到壹] 十一.数据分析之Numpy、Pandas、Matplotlib和Sklearn入门知识万字详解(1)
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- 主成分分析(PCA)原理详解 2016/12/17 · IT技术 · 主成分分析, 数学 分享到: 21 原文出处: 中科春哥 一、PCA简介 1. 相关背景 主成分分析(Principa
主成分分析(PCA)原理详解 2016/12/17 · IT技术 · 主成分分析, 数学 分享到:21 原文出处: 中科春哥 一.PCA简介 1. 相关背景 主成分分析(Principal Co ...
- 主成份分析(PCA)详解
主成分分析法(Principal Component Analysis)大多在数据维度比较高的时候,用来减少数据维度,因而加快模型训练速度.另外也有些用途,比如图片压缩(主要是用SVD,也可以用PCA ...
最新文章
- php发卡_发卡网代码审计
- BETA:由清华大学等多家研究机构联合提出的面向SSVEP-BCI应用程序的大型基准测试数据库...
- 一个HTTP请求,把网站打裂开了!
- Windows临界区简单实现
- 有关字符串的算法(KMP,Manacher,BM)陆续补充
- paip.php调试不能显示局部变量内容with xdebug
- 分子动力学模拟软件_实惠的分子动力学模拟个人台式机装机和测试
- 手机怎样刷机解锁android,安卓手机解锁是什么意思 安卓手机刷机知识介绍【图文】...
- position的属性(sticky属性)
- html页面栅格系统,超好用的网页栅格化工具: GridGuide
- 算法与数据结构之带头结点和不带头结点单链表存在的问题
- 如何做好用户故事地图?
- 对uni-app开发的某app安全分析
- android 自动背光闪烁,Android 背光流程小结
- 线性(时不变)系统 非线性系统
- 直立车想节能——2020全国大学生智能车车竞赛经验记录之梦的开始
- 聚类,k-mean方法,基于密度的方法:DBSCAN,孤立点检测——数据分析与R语言 Lecture 10
- 计算机考研初试经验分享
- ABB机器人虚拟软件RobotStudio和开发环境的安装包
- html怪异模式是什么,浅谈CSS编程中的怪异模式