一文看不懂方差和标准差

flyfish

以例子说明什么是均值(Mean),方差(Variance)和标准偏差((Standard Deviation)

测量狗的高度(毫米)

高度(在肩部)为:600mm,470mm,170mm,430mm和300mm。

找出均值(Mean),方差(Variance)和标准偏差((Standard Deviation)。

mean在就是average的意思表示平均水平
第一步是找到均值:

Mean =600+470+170+430+3005=19705=394\begin{aligned} \text { Mean } &=\frac{600+470+170+430+300}{5} \\ &=\frac{1970}{5} \\ &=394 \end{aligned} Mean ​=5600+470+170+430+300​=51970​=394​
平均高度是394毫米。 看绿色的线段,我们把它画在图表上。

现在我们计算每只狗与平均值的差(difference)

要计算方差,需要对每个差进行平方,然后对结果进行平均.

方差(Variance)
σ2=2062+762+(−224)2+362+(−94)25=42436+5776+50176+1296+88365=1085205=21704\begin{aligned} \sigma^{2} &=\frac{206^{2}+76^{2}+(-224)^{2}+36^{2}+(-94)^{2}}{5} \\ &=\frac{42436+5776+50176+1296+8836}{5} \\ &=\frac{108520}{5} \\ &=21704 \end{aligned}σ2​=52062+762+(−224)2+362+(−94)2​=542436+5776+50176+1296+8836​=5108520​=21704​
方差是21704

标准偏差=标准差
标准差就是方差的平方根
标准偏差(Standard Deviation)

σ=21704=147.32…\begin{aligned} \sigma &=\sqrt{21704} \\ &=147.32 \ldots \end{aligned}σ​=21704​=147.32…​
约等于147

我们在一个标准偏差(147毫米)范围内显示高度

因此,使用标准差,我们可以通过“标准”方式了解什么是正常的,什么是特大或超小。
结论是罗特韦尔犬是高大的狗,腊肠有点短。

标准差是衡量数字分布的一种方法
所以把上面的计算方法变成公式是

问题一:为什么是差的平方?

把差之后的数,直接加起来,行不行?
把差之后的数,算绝对值,再加起来,行不行?

假设有这样的两组4个数
第一组是9、9、1、19、9、1、19、9、1、1
第二组是12、6、−1、312、6、-1、312、6、−1、3

计算第一组
均值=(9+9+1+1)/4=5均值 =( 9+9+1+1)/4=5均值=(9+9+1+1)/4=5
计算各个数与均值差多少
9−5=49−5=41−5=(−4)1−5=(−4)\begin{array}{l} 9-5=4 \\ 9-5=4 \\ 1-5=(-4) \\ 1-5=(-4) \end{array}9−5=49−5=41−5=(−4)1−5=(−4)​
可视化看一下

直接加起来0
4+4−4−44=0\frac{4+4-4-4}{4}=044+4−4−4​=0
用绝对值的方法算是4
∣4∣+∣4∣+∣−4∣+∣−4∣4=4+4+4+44=4\frac{|4|+|4|+|-4|+|-4|}{4}=\frac{4+4+4+4}{4}=44∣4∣+∣4∣+∣−4∣+∣−4∣​=44+4+4+4​=4
用平方的方法算是4

计算第二组
(12+6+(−1)+3)/4=5(12+6+(-1)+3)/4=5(12+6+(−1)+3)/4=5
计算各个数与均值差多少
12−5=76−5=1−1−5=(−6)3−5=(−2)\begin{array}{l} 12-5=7 \\ 6-5=1 \\ -1-5=(-6) \\ 3-5=(-2) \end{array}12−5=76−5=1−1−5=(−6)3−5=(−2)​

可视化看一下

直接加起来是0
用绝对值的方法算是4
∣7∣+∣1∣+∣−6∣+∣−2∣4=7+1+6+24=4\frac{|7|+|1|+|-6|+|-2|}{4}=\frac{7+1+6+2}{4}=44∣7∣+∣1∣+∣−6∣+∣−2∣​=47+1+6+2​=4
用平方的方法算是4.74

我们希望的是当差异分布得越广,标准差就越大。用平方算,这是其中一个理由。

教科书《概率论与数理统计》浙江大学第四版的答案是
E{∣X−E(X)∣}E\{|X-E(X)|\}E{∣X−E(X)∣}能度量随机变量与其均值E(X)E(X)E(X)的偏离程度。但由于上式带有绝对值,运算不方便,通常用量E{[X−E(X)]2}E\left\{[X-E(X)]^{2}\right\}E{[X−E(X)]2}来度量随机变量XXX与其均值E(X)E(X)E(X)的偏离程度。

方差的定义

这样定义就有了
设XXX是一个随机变量,若E{[X−E(X)]2}E\left\{[X-E(X)]^{2}\right\}E{[X−E(X)]2}存在,则称E{[X−E(X)]2}E\left\{[X-E(X)]^{2}\right\}E{[X−E(X)]2}为XXX的方差,记为D(X)D(X)D(X)或Var(X)。
即D(X)=Var⁡(X)=E{[X−E(X)]2}D(X)=\operatorname{Var}(X)=E\left\{[X-E(X)]^{2}\right\}D(X)=Var(X)=E{[X−E(X)]2},而σ(X)=D(X)=E{[X−E(X)]2}\sigma(X)=\sqrt{D(X)}=\sqrt{E\left\{[X-E(X)]^{2}\right\}}σ(X)=D(X)​=E{[X−E(X)]2}​称为标准差或均方差。
他说的运算不方便是怎么回事呢?
人手工算还是计算机算,在什么情况下运算不方便?

看看其他人相关的回答真的很精彩
why-is-it-so-cool-to-square-numbers-in-terms-of-finding-the-standard-deviation

why-square-the-difference-instead-of-taking-the-absolute-value-in-standard-devia

Revisiting a 90-year-old debate: the advantages of the mean deviation

方差这个词是怎么来的呢?

罗纳德·费雪(Ronald Fisher 1890-1962)
现代统计学与现代演化论的奠基者之一,最大似然估计就是他发明的。
第一次世界大战时期他也发表了许多与生物统计相关的论文,包括《孟德尔遗传假定下的亲戚之间的相关性》(The Correlation Between Relatives on the Supposition of Mendelian Inheritance)。这篇论文在1916年完成,并在1918年发表,它同时建立了以生物统计为基础的遗传学,以及著名的统计学分法变异数分析(analysis of variance,简写为ANOVA,也称方差分析)。方差一词就是从他的论文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance》 提出的。
标准差的公式有两个
总体标准差(Population Standard Deviation)和样本标准差(Sample Standard Deviation)

不一样的方差

如果这些数据只是样本呢,就是我们有20只狗,我们只测量了5只
公式就放生了变化
原来的公式叫总体标准差
现在公式要变了叫样本标准差 公式如下

看分母一个是N,一个是N-1,为什么是这样呢?

这可是高手云集要回答的问题
为什么样本方差(sample variance)的分母是 n-1?
如何理解统计学中自由度这个概念?

证明请参考

另一种证明

参考
https://www.mathsisfun.com/data/standard-deviation.html

一文看不懂方差和标准差相关推荐

  1. 身为程序员还看不懂UML类图? 一文带你零基础学会看UML类图!

    身为程序员还看不懂UML类图? 一文带你零基础学会看UML类图! 一,UML类图示例图 二,UML类图图例 三,分步解析说明 3.1 类图: 3.2 接口: 3.3 实现继承 3.4 实现接口: 3. ...

  2. 你真的懂面形误差PV和RMS的计算方法吗?均方根(RMS)与方差、标准差有什么区别?Zemax中的波前RMS是什么?(光学测量、光学设计必看)

    本文讲述了光学加工和检测过程中,元件面形误差PV和RMS的计算方法,RMS与方差.标准差有什么区别,以及Zemax中的波前RMS是怎么计算的.与上述RMS有什么差异等.属于光学检测必看的知识点. 1. ...

  3. 一文了解均方根误差与方差、标准差的异同

    学数学模型时,盯着这两个定义看了半天,形式相似又较为不同,定义和传递出的信息也是不一样,觉得有意思,写写笔记.话不多说,先上形式: 标准差: 其中, 为一组数据的真值, 为这组数据的平均值,也就是 , ...

  4. python 相关性检验怎么计算p值_收藏 | 大神教你用Python预测未来:一文看懂时间序列...

    (由Python大本营付费下载自视觉中国) 作者 |  Leandro Rabelo 译者 | 李洁 整理 | Lemonbit 出品 | Python数据之道 本文内容较长,较为详细的阐述了进行时间 ...

  5. bool查询原理 es_吐血整理:一文看懂ES的R,查询与聚合

    对es查询的索引的company,其有如下字段,下面是一个示例数据 "id": "1", //id "name": "张三&quo ...

  6. 决策树 随机森林 xgboost_从决策树到随机森林理论篇从人话到鬼话:看不懂来找我麻烦...

    从决策树产生的一些列的问题,过度到随机森林: 全文大概要阅读10分钟: 随机森林算法范畴 监督学习分类算法,基模型是由决策树组成 决策树 决策树模型与学习 特征选择 决策树生成 决策树剪枝 CART算 ...

  7. 方差、标准差和协方差三者之间的定义与计算

    理解三者之间的区别与联系,要从定义入手,一步步来计算,同时也要互相比较理解,这样才够深刻. 方差 方差是各个数据与平均数之差的平方的平均数.在概率论和数理统计中,方差(英文Variance)用来度量随 ...

  8. 【目标检测】32、让你一文看懂且看全 NMS 及其变体

    文章目录 一.NMS 1.1 背景 1.2 方法 1.3 代码 1.4 不足 二.Soft NMS 2.1 背景 2.2 方法 2.3 效果 2.4 代码 2.5 不足 三.Softer NMS 3. ...

  9. 协方差的计算公式例子_方差、标准差和协方差三者之间的定义与计算

    理解三者之间的区别与联系,要从定义入手,一步步来计算,同时也要互相比较理解,这样才够深刻. 方差 方差是各个数据与平均数之差的平方的平均数.在概率论和数理统计中,方差(英文Variance)用来度量随 ...

  10. python算法专项(五)——numpy基础、数据保存,方差、标准差、协方差、协方差矩阵

    目录 1.numpy基础 2.数据保存与加载 2.1使用numpy方法保存和加载数据 2.2.使用pickle方法保存与加载数据 2.2.1保存加载一般的数据类型 2.2.2保存加载类及调用类方法 3 ...

最新文章

  1. python3 元组 tuple 操作
  2. python入门基础教程02 Python简介
  3. Python学习笔记:类
  4. SAP Spartacus UnitDetailsComponent的路由跟踪
  5. mysql分表规则(转)
  6. 腾讯Node.js基础设施TSW正式开源
  7. 一个优秀的程序员应该如何提高工作效率?
  8. linux默认权限二进制与,Linux系统文件的默认权限和特殊权限
  9. 数组 -- 13.2 Maximum Subarray --图解
  10. Windws Server 2012 Server Backup(备份与还原)
  11. SqlServer 存贮过程操作类
  12. IOUtils工具类的依赖maven
  13. svn代码量统计工具StatSVN的使用
  14. 通过Docker部署的ffmpeg进行视频分割与合并
  15. 修复IOS上滑动HTML界面光标乱跳
  16. MMDetection亲测安装教程
  17. SAP 小币种金额的转换函数和处理
  18. 18个配色(色彩搭配)资源网站——设计师福利
  19. win7系统设备管理器打开后一片空白怎么办
  20. AXI_Lite 总线详解

热门文章

  1. 有管网气体消防系统小知识来啦
  2. Java使用PDFBox API实现对PDF文档进行关键字检索
  3. 天下会 - Google系列之谷歌搜索引擎高级用法:使用搜索语法精确搜索
  4. java 计算中位数方法
  5. 【LeetCode】求中位数(数据流、滑动窗口、两个正序数组)
  6. 想自学编程?这么多编程自学网站,总有一个适合你吧!
  7. 极客时间MySQL实战45讲笔记
  8. SphereEx张亮:“开源和商业化不能形成对立”
  9. springboot集成es实现搜索功能
  10. linux 改成utc时间_linux – 如何将时区设置为UTC-8