一、几个基本概念:均值、方差、标准差

统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:

均值:,(在概率论和统计学中,数学期望(mean)(或均值,亦简称期望),一个意思,可用E(X)来表示,是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。)

标准差(Standard Deviation), 又叫均方差。

方差(variance):

标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

方差(variance) 是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。

以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8。显然后面这个集合里的元素分布较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

二、协方差有什么用?

标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集。

协方差就是这样一种用来度量两个随机变量关系的统计量(即二维数据),我们可以仿照方差的定义:

来度量各个维度偏离其均值的程度,协方差可以这样来定义:

  1. 当cov(X,Y)>0时,X与Y正相关
  2. 当cov(X,Y)=0时,X与Y不相关
  3. 当cov(X,Y)<0时,X与Y负相关

当X=Y时,表示为方差

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

[注] 知乎上有个高票回答:如何通俗易懂地解释「协方差」与「相关系数」的概念?

从协方差的定义上我们也可以看出一些显而易见的性质,如:

三、协方差矩阵

协方差也只能处理二维问题(用于比较两两之间的关系),那么维数多了自然就需要计算多个协方差。则n维的数据有个数据对(两两之间成对配对),那么也就需要计算个协方差,所以自然而然会想到使用n×n的矩阵来组织这些数据。给出协方差矩阵的定义:

这个定义还是很容易理解的,我们可以举一个三维的例子,假设数据集有三个维度,则协方差矩阵为:

可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。

四、Matlab协方差实战

必须要明确一点,协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。以下的演示将使用Matlab,为了说明计算原理,不直接调用Matlab的cov函数:

首先,随机生成一个10*3维的整数矩阵作为样本集,10为样本的个数,3为样本的维数。

图 1 使用Matlab生成样本集

根据公式,计算协方差需要计算均值,前面特别强调了,协方差矩阵是计算不同维度之间的协方差,要时刻牢记这一点。样本矩阵的每行是一个样本,每列是一个维度,因此我们要按列计算均值。为了描述方便,我们先将三个维度的数据分别赋值:

图 2 将三个维度的数据分别赋值

计算dim1与dim2,dim1与dim3,dim2与dim3的协方差:

图 3 计算三个协方差

协方差矩阵的对角线上的元素就是各个维度的方差,下面我们依次计算这些方差:

图 4 计算对角线上的方差

这样,我们就得到了计算协方差矩阵所需要的所有数据,可以调用Matlab的cov函数直接得到协方差矩阵:

图 5 使用Matlab的cov函数直接计算样本的协方差矩阵

计算的结果,和之前的数据填入矩阵后的结果完全相同。

五、相关系数

相关系数的公式为:

就是用X、Y的协方差除以X的标准差和Y的标准差,。即,先对X和Y做归一化操作,然后计算均值。所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

  1. 当ρ=1时,说明X与Y完全线性正相关
  2. 当ρ=-1时,说明X与Y完全线性负相关
  3. 当ρ=0时,说明X与Y线性无关
  4. 当0<|ρ|<1时,X与Y存在一定的线性关系

部分内容转自:http://www.cnblogs.com/chaosimple/p/3182157.html,又作了修改和补充。

统计学习方法——均值、方差、标准差及协方差、协方差矩阵、相关系数相关推荐

  1. 方差 标准差_方差、标准差、协方差、相关系数

    一.定义.公式 二.方差.标准差 vs 协方差.相关系数 区别 一.定义.公式 1.方差 定义:用于衡量一组数据的离散程度.在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异. 公式: ...

  2. MATLAB的var与std函数 与 均值,方差,标准差,均方差,均分误差

    从定义上来讲,(样本)均值,方差,标准差,均方差,均分误差分别为: 均值: 方差: 标准差: 均方差=标准差 均方误差: matlab中的var函数和std函数用来计算方差 var函数计算使用的公式为 ...

  3. 【问题记录】均值-方差-标准差 计算器(已解决)

    问题记录 在Freecodecamp上做[均值-方差-标准差 计算器]这个项目时,测试时出现如下报错:unsupported operand type(s) for -: 'dict' and 'di ...

  4. 方差 标准差_均值、方差、标准差、协方差、相关系数的概念及意义

    一.均值(期望).方差.标准差 下面给出这些概念的公式描述: 均值(期望): 方差: 标准差: 均值(期望)描述的是样本集合的中间点(平均值),但是它告诉我们的信息是有限的,而标准差给我们描述的是样本 ...

  5. echarts3.0 markline 最大值 最小值 均值 方差 标准差 包络 正态分布

    if (pie == "最大值" || pie == "最小值" || pie == "均值" || pie == "标准差&qu ...

  6. 标准差,协方差与相关系数

    学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过. 很显 ...

  7. 数学统计:均值、标准差、方差、协方差

    均值:均值描述的是样本集合的中间点,它告诉我们的信息是很有限的. 标准差:标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均.以这两个集合为例,[0,8,12,20]和[8,9,11,12] ...

  8. 期望、方差、标准差、协方差、相关系数、协方差矩阵、残差、残差平方和(SSE)、标准化残差,残差分析

    通过学习,结合网络上搜索, 把相关概念整理了一下. 1.期望(均值.数学期望) 期望是 度量数据的集中趋势的一个重要指标,是研究随机变量的一个重要数字特征 离散型 随机变量Xi,其对因的概率P(Xi) ...

  9. 回归标准差和残差平方和的关系_期望、方差、标准差、协方差、相关系数、协方差矩阵、残差、残差平方和(SSE)、标准化残差,残差分析...

    通过学习,结合网络上搜索, 把相关概念整理了一下. 1.期望(均值.数学期望) 期望是 度量数据的集中趋势的一个重要指标,是研究随机变量的一个重要数字特征 离散型 随机变量Xi,其对因的概率P(Xi) ...

最新文章

  1. 被前公司辞退后,前领导打电话命令你给前同事解释代码,该怎么办?
  2. tar -P参数含义
  3. DNS服务器的默认区域文件名,DNS服务器全攻略之三 :创建与管理DNS区域.doc
  4. ios保存gif到相册_iOS相册中的GIF图片的读取与保存
  5. EL表达式的作用与限制条件
  6. apache camel_探索Apache Camel Core –文件组件
  7. linux 权限 mask,【自学Linux】Linux用户、组、权限(一)
  8. 解决RMI 客户端异常no security manager: RMI class loader disabled
  9. 深入理解Spring Redis的使用 (九)、通过Redis 实现 分布式锁 的 BUG,以及和数据库加锁的性能测试...
  10. gpu超算算法_英伟达推GPU加速Arm服务器参考设计!微软Azure启动GPU超算实例
  11. 高通平台开机LOGO的修改与兼容
  12. 西门子1200PLC的OB块用法讲解
  13. 与计算机学男生谈恋爱,和什么专业男生谈恋爱比较惨?
  14. 1w存银行一年多少利息_100万存银行1年能有多少钱利息?
  15. P6225 [eJOI2019] 异或橙子
  16. amc 美国数学竞赛能用计算机吗,美国数学竞赛AMC的三种级别
  17. android强制全屏_如何强制任何Android应用进入全屏浸入模式(无生根)
  18. 为什么Vertu没有成为诺基亚的iPhone?
  19. 4月10日第七次CCF
  20. 微软公司等数据结构+算法面试100题

热门文章

  1. Shell之计算命令、流程控制、函数
  2. 200 万年薪!西交大 2 位计算机博士入选华为天才少年
  3. vscode快速设置console.log快捷键
  4. 遭灰熊做空,蔚来汽车在股价跳水后选择了回应
  5. 清除缓存-Clearing Cache
  6. Anaconda使用总结
  7. 编程猫创作工具:新版Kitten新体验
  8. sw中的转换实体引用工具的使用
  9. Linux系统下搭建常用服务器
  10. Unity3d 帧率设置 及在游戏运行时显示帧率