本文始发于个人公众号:TechFlow,原创不易,求个关注

今天是概率统计专题的第六篇,我们来看看方差相关的概念。

方差的定义

方差在我们的日常生活当中非常常见,它主要是为了提供样本离群程度的描述。举个简单的例子,我们去买一包薯片,一般来说一袋薯片当中的数量是固定的。我们假设平均每袋当中都有50片薯片好了,即使是机器灌装,也不可能做到每一袋都刚好是50片,或多或少都会有些误差。而均值则无法衡量这种误差。

如果现在有两个薯片品牌,它们的口味都差不多,平均每袋也都是50片。但是其中A品牌的薯片有一半是80片,还有一半是20片。B品牌呢,99%都在45-55之间。你说你会买哪一个牌子呢?(在不考虑通过称重的情况下)。

在现代社会,凡是工厂出厂的产品,基本上都离不开方差这个概念。方差越低,说明工厂的生产能力越强,能够做到每一个产品都很精细,相反如果方差越大,则说明瑕疵很多,不够精细。也就是说,方差衡量的是样本距离均值的期望。

它本来应该写成:

但是由于式子当中存在绝对值,我们通常会对它平方,从而将绝对值消掉。写成:

这里的E表示期望,这是统计学当中的写法,如果看不明白,我们也可以把式子展开写成:

这里的N表示的是样本数量,

是样本的均值。Var是英文variance的缩写,我们也可以写成D(X)。

由于方差是通过平方计算得到的,我们也可以将它进行开方,得到标准差

,也可以写成

方差的性质

关于方差有几个著名的性质,如果X是变量,而C是常数。那么:

也就是对于每一个变量都乘上一个常数,那么整体的方差扩大C的平方倍。这个很好理解,因为样本值扩大了C倍,由于我们在计算方差的时候用到了平方,那么自然就是扩大了C的平方倍。我们利用上面展开的公式代入可以很容易得到证明。

下一个性质是:

也就是全体样本加上一个常数,整体的方差不变。如果我们的样本不是一个值,而是一个向量的话,那么这个公式可以拓展成样本加上一个常数向量,样本的方差保持不变。这个也很好理解,样本加上一个常数向量,相当于整体朝着向量的方向移动了一个距离,对于整体的分布并不会影响

如果某个样本X的方差为0,那么说明样本内只有一个值。

下面一个性质稍微复杂一点:

也就是说方差等于样本平方的期望减去样本期望的平方,我们光从定义上很难得出这个结论,需要通过严谨的推导:

在有些时候,我们直接求解样本的方差不太方便,而求解平方的期望很容易,这个时候我们可以考虑使用这个公式进行代换。

方差与协方差

方差我们一般不直接在机器学习当中进行使用,更多的时候是用在特征分析当中,查看特征的方差来感知它的离散情况,决定要不要对特征进行一些处理。因为对于一些模型来说,如果特征的方差过大,那么模型可能很难收敛,或者是收敛的效果可能会受到影响。这个时候往往需要考虑使用一些方法对特征值进行标准化处理。

除了方差之外,还有一个类似的概念也经常被用到,就是用来衡量两个变量之间相关性的协方差。

协方差的公式其实和方差也有脱不开的关系,我们先来简单推导一下。

首先,我们来看一下D(X+Y),这里X和Y是两个变量,D(X+Y)就表示X+Y的方差,我们来看下D(X+Y)和D(X)和D(Y)之间的关系。

我们可以来推导一下,根据方差的定义:

这里的N是一个常量,我们可以忽略,只用来看分子即可。我们把式子展开:

我们看下上面化简之后的结果:

在这个式子当中

都是固定的,并不会随XY是否相关而发生变化。但是后面一项不是,它和XY的相关性有关。

我们可以用这一项来反应X和Y之间的相关性,这就是协方差的公式:

所以协方差反应的不是变量的离散和分布情况,而是两个变量之间的相关性。到这里,我们可能还不太看得清楚,没有关系,我们再对它做一个简单的变形,将它除以两者的标准差:

这个形式已经非常像是两个向量夹角的余弦值,它就是大名鼎鼎的皮尔逊值。皮尔逊值和余弦值类似,可以反映两个分布之间的相关性,如果p值大于0,说明两组变量成正相关,否则则成负相关。我们可以通过计算证明p值是一个位于-1到1之间的数。

如果p值等于0,说明X和Y完全独立,没有任何相关性。如果p值等于1,说明可以找到相应的系数W和b使得Y = WX+b。

结尾

在机器学习领域当中,计算两组变量之间的相关性非常重要。因为本质上来机器学习的模型做的就是通过挖掘特征和预测值之间的相关性来完成预测,如果某一组特征和预测值之间是完全独立的,那么它对于模型来说就是无用的,无论我们选择什么样的模型都是如此。

所以,我们经常会通过分析特征和label之间的皮尔逊值来衡量特征的重要程度,从而对特征进行取舍和再加工。如果单纯只看皮尔逊值和它的公式,很难完全理解和记住,而我们从方差入手,将整个链路梳理了一遍,则要容易得多,即使以后忘记了,也可以根据它们之间的关系重新推导。

看官大人,请关注我吧~

几何分布的期望和方差公式推导_机器学习常用的方差、协方差与皮尔逊值相关推荐

  1. 机器学习偏差方差_机器学习101 —偏差方差难题

    机器学习偏差方差 Determining the performance of our model is one of the most crucial steps in the machine le ...

  2. python方差齐性检验_方差分析中的方差齐性检验_方差齐性检验结果分析

    方差分析中的方差齐性检验_方差齐性检验结果分析_方差分析 齐性检验 方差分析时的方差齐性检验是方差分析的前提条件,还是只是后面进行均值的多重比较时选择分析方法的依据?看过几本书,这两种观点都有.我看方 ...

  3. 几何分布的期望和方差公式推导_数学期望、方差、协方差

    概论: 一维随机变量期望与方差 二维随机变量期望与方差 协方差 1.一维随机变量期望与方差: 公式: 离散型: E(X)=∑i=1->nXiPi Y=g(x) E(Y)=∑i=1->ng( ...

  4. 几何分布的期望和方差公式推导_超几何分布的数学期望与方差推导

    考虑 个外表相同的物品,其中有 个同类物品与另一类的 个物品:抽取 个物品,每个物品的抽取等概率随机. 上述便是一个超几何分布(Hypergeometric Distribution)的基本模型. 抽 ...

  5. 几何分布的期望和方差公式推导_算法数学基础-统计学最基础之均值、方差、协方差、矩...

    我们天天都可以接触很多随机现象,比如每天的天气不一样气温是我们最直接的感受,我们很难预测明天的精确问题,但是这些随机现象又体现出了一定的规律性.比如上海7月份平均35度左右,冬天的平均温度在5度左右. ...

  6. 几何分布的期望和方差公式推导_平方差公式证明推导过程及运用详解(数学简便计算方法之一)...

    ​平方差公式是小学奥数计算中的常用公式. 通常写为:a²-b²=(a+b)x(a-b) 它的几何方法推导过程是这样的: 如下图所示,四边形ABCD和四边形DEFG为正方形,边长分别为a和b,求阴影部分 ...

  7. python计算期望值_机器学习:计算方差时为何除以n-1

    小弟准备了数据结构.Java.大数据.AI.面试题.python等各种资料 需要领取等朋友麻烦 转发此文,然后私信[学习]即可获取 设样本均值为 ​,样本方差为 ​,总体均值为 ​,总体方差为 ​,那 ...

  8. 皮尔逊相关性_皮尔逊的相关性及其在机器学习中的意义

    皮尔逊相关性 Today we would be using a statistical concept i.e. Pearson's correlation to help us understan ...

  9. python 数学符号读法大全_机器学习常用数学符号及读法大全

    转自:http://blog.csdn.net/u012965373/article/details/52936875 数学符号及读法大全 常用数学输入符号: ≈ ≡≠= ≤≥ < > ≮ ...

  10. 皮尔逊相关系数_用皮尔逊系数探究事物之间的相关性

    我从本地mysql数据库中取出了曾经存下的书籍信息,试图找出价格和评论人数之间的关系.书籍的销售数据是从亚马逊网站上抓取下来的,如果你对这个过程感兴趣,可以阅读文章Find The Book Want ...

最新文章

  1. 『创建型』简单工厂SimpleFactory、工厂方法FactoryMethod、抽象工厂AbstractFactory
  2. linux怎么进去vi编辑器,red hat enterprise linux开机怎么进入vi编辑器界面?
  3. springboot 别名不起作用_springboot之mybatis别名的设置
  4. JDDroppableView
  5. IT职场人生系列之三:第一份工作
  6. Bailian4095 打字员【文本】
  7. OrzFAng系列–树 解题报告
  8. Android TelephonyManager获取LET信息及手机基本信息
  9. mysql替换占位符_【占位符替换】替换String中的占位符标志位{placeholder}
  10. 施努卡:锂电池模组生产线(锂电池模组是什么)
  11. 立足于软硬“解耦”的软件定义网络
  12. MySQL 创库 查库 等基本操作
  13. 预训练(pre-training/trained)与微调(fine tuning)
  14. PX30 Android8.1 红外遥控实现
  15. OSI七层模型——数据链路层
  16. 【转】systemd环境变量的小坑
  17. 密码学系列 - 多种签名方式
  18. 华硕主板win10 使用固态硬盘,机械硬盘不显示解决
  19. 如何在Win7中查看安装软件的文件夹位置
  20. Android活动–从一个屏幕切换到另一个屏幕

热门文章

  1. SPSS25 软件安装教程(附带网盘资源)
  2. 2021年南京市高考成绩查询,2021年南京高考各高中成绩及本科升学率数据排名及分析...
  3. 企业移动办公小助手——华为云桌面
  4. KinectV2 Face Basic
  5. Win10安装Ubuntu20.04双系统
  6. 美团2022届秋招内推二维码
  7. 云队友丨疯子李书福和狂人王传福
  8. js 实现当有省略号时,显示title,无省略号不显示title
  9. 记录--前端路由 hash 与 history 差异
  10. 阿里云相关——VPC阿里云专有网络