概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关
方差和标准差:
一个随机变量,的值的变化程度可以用方差计算:
;其中 是期望。
另外一种等价表达式:
其中为均值,N为总体例数
我们举个例子:
服从均一分布,取值为0.1,0.2,0.3,0.4,0.5 ,每种值的概率是20%,可算出期望是0.3,那么方差就是:
标准差是方差的平方根,随机变量的标准差是
此处为了方便,计算方差和标准差时,分母是N,计算的是总体方差和总体标准差。(在实际应用中,因为样本是抽样样本,计算方差和标准差时,分母应是N-1,也就是说计算的是样本方差和样本标准差。)
协方差:
协方差可以用来衡量两个变量的线性相关性,并且可以化简到容易计算的形式(化简过程有问题可以找下证明或者举个例子亲自算一下):
我们举第一个例子:
服从均一分布,取值为0.1,0.2,0.3,0.4,0.5 ,每种值的概率是20%,可算出期望是0.3,标准差是;
服从均一分布,取值为10000,20000,30000,40000,50000 ,每种值的概率是20%,可算出期望是30000,标准差是;
假设 和 线性相关,此时 ,那么取0.1取10000的概率为0.2,取0.1取20000、30000、40000、50000的概率都为0,以此类推。
和的协方差就是:
我们再举第二个例子:
把上个例子中的随机变量改变,随机变量不改变。
服从均一分布,取值为1,2,3,4,5 ,每种值的概率是20%,可算出期望是3,标准差是;
假设 和 线性相关,此时 ,那么取0.1取1的概率为0.2,取0.1取2、3、4、5的概率都为0,以此类推。
和的协方差就是:
两个例子对比一下,两个例子中的两个随机变量都是线性相关的,求出来的协方差都大于0,但是两个协方差的数值有较大差异,相差了10000倍。
皮尔逊相关系数:
皮尔逊相关系数是两个随机变量 和 的协方差与标准差之商:
我们可以计算上述两个例子里的皮尔逊相关系数:
第一个例子:
第二个例子:
皮尔逊相关系数都为1。
协方差、皮尔逊相关系数与线性相关
完全线性相关、线性相关、线性独立、完全独立:
如果变量可以用表示成 ,那么两个随机变量完全线性相关,否则不是完全线性相关。不是完全线性相关的两个变量有可能线性相关,有可能线性独立。如果两个变量有一定的线性关系,那么两个变量线性相关;如果和没有任何关系(完全独立)或者左右对称的线性关系可以抵消掉,那么两个变量线性独立。我们举一些例子。
完全线性相关的例子:
如果,点集如散点图所示,那么概率矩阵和计算协方差如下,协方差为4大于0(绿色部分值的加和),皮尔逊系数为1:
线性相关的例子:
如果,点集如散点图所示,那么概率矩阵和计算协方差如下,协方差为12大于0,皮尔逊系数为0.98:
线性独立的例子:
仍然是,取不同的数值再算一下,点集如散点图所示,协方差为0,皮尔逊系数为0,此时左右对称的线性关系可以抵消掉:
线性独立的另外一个例子,点集如散点图所示,此时和 完全独立,协方差为0,皮尔逊系数为0:
通过上述例子可以看出,当两变量线性独立时,协方差一定等于0;当协方差等于0时,两变量也一定线性独立,但是并不代表两变量完全独立(完全独立的例子)。
下图是皮尔逊相关系数的一个图示便于理解:
总结
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
协方差和皮尔逊相关系数都可以衡量两个随机变量的线性相关性(注意只是线性相关性),协方差受随机变量数值大小的影响,而皮尔逊相关系数不受随机变量数值大小的影响。所以两随机变量的协方差越大并不代表这两个变量越线性相关,而两随机变量的皮尔逊相关系数绝对值越大这两个变量越线性相关。
协方差的范围是;协方差<0时,线性负相关;协方差>0时,线性正相关;协方差=0时,线性独立。皮尔逊相关系数的范围是;当为-1时,完全线性负相关;当为1时,完全线性正相关;当>-1且<0时,线性负相关,绝对值越大越线性负相关;当>0且<1时,线性正相关,绝对值越大越线性正相关;当=0时,线性独立。
概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关相关推荐
- Hive Sql中均值、方差、标准差、皮尔逊相关系数、偏度、峰度统计字段
SELECT mean(age) AS '均值', variance(age) AS '方差', stddev(age) AS '标准差', corr(age,yearsmarried) AS '两个 ...
- 数理统计-方差标准差协方差相关系数
Q1. 方差.标准差.协方差.有什么区别 方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数,描述样本偏离均值的平均程度或者说是样本的分散程度: 标准差是总体各单位标准值与其平均数离 ...
- 用皮尔逊相关系数检查特征间的线性相关关系
1.1 皮尔逊相关系数 1.1.1 简介 是一种度量两个变量间线性相关程度的方法.协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表 ...
- 利用协方差,皮尔逊相关系数和斯皮尔曼相关系数确定变量间的关系
利用协方差,皮尔逊相关系数和斯皮尔曼相关系数确定变量间的关系 https://www.toutiao.com/i6550915552490029576/ 数据集中的变量之间可能存在复杂且未知的关系.重 ...
- 期望, 方差, 协方差,标准差
#期望, 方差, 协方差,标准差 期望 概率论中描述一个随机事件中的随机变量的平均值的大小可以用数学期望这个概念,数学期望的定义是实验中可能的结果的概率乘以其结果的总和. 定义 设P(x) 是一个离散 ...
- 标准差、方差、协方差的区别
公式: 标准差: 方差: 协方差: 意义: 方差(Variance):度量随机变量和其数学期望(即均值)之间的偏离程度.针对一维数据. 标准差:方差开根号.标准差和方差一般是用来描述一维数据的. 协方 ...
- 数学常识--标准差、方差、协方差三者的表示意义
三者都是统计学中,对于样本的集合描述. 一.定义公式 1.标准差: 2.方差: 3.协方差: 4.协方差相关系数: 二.数学实际含义 1.方差(Variance):用来度量随机变量和其数 ...
- 方差、协方差、标准差、均方差、均方根值、均方误差、均方根
转载自https://blog.csdn.net/cqfdcw/article/details/78173839 方差(Variance) 方差用于衡量随机变量或一组数据的离散程度,方差在在统计描述和 ...
- 标准差、方差、协方差三者的表示意义
三者都是统计学中,对于样本的集合描述. 定义公式 标准差: 方差: 协方差: 协方差相关系数: 数学实际含义 方差(Variance):用来度量随机变量和其数学期望(即均值)之间的偏离程度. 标准差: ...
最新文章
- cba篮球暂停次数和时间_中国篮球即将来袭!202021赛季CBA赛程时间表
- sqlite3源码编译到Android,实现SQLite跨全平台使用
- jquery 实现 点击把数据移动右侧 点击再次移回到左侧
- 利用HttpSessionListener实现网站在线人数统计功能
- 【万里征程——Windows App开发】使用华丽丽的字体
- Macaca自动化测试Android和IOS应用
- C语言编程题目(精心准备,特别适合C语言小白)
- 纠正口呼吸,信医生别信“神器”
- 一次性补助20万,博士买房比市价低1.5万/平!26城硕博引进政策哪家强?
- 不熟悉 excel,使用 python 将数据按要求转置
- 游戏模型与影视模型在制作上的区别,以及分别都用什么三维软件最多
- C语言OJ1116,9度OJ 题目1116:加减乘除
- 甲骨文牵手腾讯抢占社交云入口
- 配置opencv,丢失 opencv_world300d.dll
- app显示服务器图片不显示,如何将存在本地服务器的图片,在APP前台显示
- IIS通过共享文件夹发布aspx程序站点(部分为原创)
- Debian系统源码安装usb网卡驱动
- 002:Django 模板系统介绍
- 诗歌(11)—东栏梨花
- 计算机毕业设计php的大学生社交交友网站