选自 Fahd Alhazmi's Blog

作者:Fahd Alhazmi

机器之心编译

参与:魔王、杜伟

本文将对标准差这一概念提供直观的视觉解释。

本文作者为纽约市立大学在读博士生 Fahd Alhazmi,专注于神经科学、人工智能和人类行为研究。

统计学中最核心的概念之一是:标准差及其与其他统计量(如方差和均值)之间的关系。入门课程中老师常告诉学生「记住公式就行」,但这并非解释概念的最佳方式。本文将对标准差这一概念提供直观的视觉解释。

假设你有一个成绩单,在本案例中这即是现实测量(real-world measurements)。我们想将这些测量中的信息「压缩」为一组量,以便后续对比不同班级的成绩或不同年份的成绩等。鉴于认知能力有限,我们不想挨个查看分数,来找出平均分更高的班级。这时就需要总结数字,描述统计学就派上用场了。

总结数字的方式有两种:量化其相似性或差异(difference)。

  • 量化数字的相似性即「集中趋势量数」(measures of central tendency),包括平均数、中位数和众数;
  • 量化数字的差异即「差异量数」(measures of variability),包括方差和标准差。

标准差揭示一组数字中彼此之间的差异,以及数字与平均值之间的差异。

举例而言,假设你收集了一些学生分数(出于简洁性考虑,我们假设这些分数是总体)。

我们首先在简单的散点图中绘制这些数字:

绘制完成后,计算差异的第一步是找出这些数字的中心,即平均值。

视觉上,我们可以绘制一条线来表示平均分数。

接下来我们要计算每个点和平均值之间的距离,并对得到的数值求平方。记住,我们的目标是计算数字之间的差异,以及数字与平均值之间的差异。我们可以用数学或视图的方式完成该操作:

从上图中我们可以看到,「求平方」只不过是画了一个方框而已。这里有两点需要注意:我们无法计算所有差异的总和。因为一些差异是正值,一些是负值,求和会使正负抵消得到 0。为此,我们对差异取平方(稍后我会解释为什么取平方而不是其他运算,如取绝对值)。

现在,我们来计算差异平方的总和(即平方和):

通过计算平方和,我们高效计算出这些分数的总变异(即差异)。理解变异(variability)与差异(difference)之间的关系是理解多个统计估计和推断检验的关键。上图中平方和 67.5 表示,如果我们将所有方框堆在一个巨大的正方形中,则大正方形的面积等于 67.5 points^2,points 指分数的单位。任意测量集的总变异都是正方形的面积。

方差

现在我们得到了总变异(即大正方形的面积),但我们真正想要的是平均变异(mean variability)。要想求得平均变异,我们只需要用总面积除以方框的数量:

出于实用目的考虑,你或许想除以 N−1,而不是 N,这样你就可以尝试基于一个样本而不是总体来估计平均变异。但是,这里假设我们已经具备总体(total population)。重点在于,你想计算所有小方框的均方值。这就是「方差」,即平均变异,或者差异平方的平均值(mean squared difference)。

标准差

我们为什么不用方差来表示分数的差异呢?唯一的问题是,我们无法对比方差和原始分数,因为方差是「平方」值,即它是面积而非长度。其单位是 points^2,与原始分数的单位 points 不同。那么如何甩掉平方呢?开平方根啊!

最后,我们终于得到了标准差:变异的平方根,即 2.91points。

这就是标准差的核心理念。本文对标准差概念的基础直观解释可以帮助大家更容易地理解,为什么在处理 z 分数(z-score)、正态分布、标准误差和方差分析时要使用标准差的单位。

此外,如果你用标准差公式中的拟合线 Y 替代平均值,则你在处理的是基础回归项,如均方误差(不开根号的话)、均方根误差(开根号,但是和拟合线相关)。相关和回归公式均可使用不同量的平方和(或总变异区域)来写。分割平方和是理解机器学习中的泛化线性模型和偏差-方差权衡的关键概念。

简而言之:标准差无处不在。

绝对值的问题

你可能会疑惑,为什么对差异求平方而不是取绝对值呢。没有什么能够真正阻止你使用差异的平均绝对值。平均绝对值给所有差异提供的是相同的权重,而差异平方为距离平均值较远的数字提供更多权重。这或许是你想要的。但是,大部分数学理论利用差异平方(其原因不在本文讨论范围内,如可微分)。

不过,我会用一个容易理解的反例来回答这个问题。假设有两个均值相同的分数集合:x_1 和 x_2:

从这些数字中,你可以轻松观察到 x_1 的变异和数值分散性比 x_2 低。我们来计算两个集合差异的平均绝对值(二者的平均值都为 6):

哦,结果并不好!两个集合的变异值相同,尽管我们能够看到 x_1 的数字差异要比 x_2 低。现在,我们使用差异平方计算,得到:

在差异平方的作用下,我们得到了想要的结果:当数字越分散时,标准差越大。

原文链接:http://falhazmi.com/blog/a-visual-interpretation-of-the-standard-deviation/

方差 标准差_直观、形象、动态,一文了解无处不在的标准差相关推荐

  1. 直观、形象、动态,一文了解无处不在的标准差

    选自 Fahd Alhazmi's Blog 作者:Fahd Alhazmi 机器之心编译 参与:魔王.杜伟 本文将对标准差这一概念提供直观的视觉解释. 本文作者为纽约市立大学在读博士生 Fahd A ...

  2. c4d如何把文字贴在物体表面_如何使用C4D制作动态滚动文字条

    本教学为翻译教学,转载请注明来自aboutcg.net,以及注明翻译者 原文教学出自Corey Dawson Hall的个人网站,原始链接如下: 作者: Corey Dawson Hall 翻译:SO ...

  3. project 模板_不会绘制横道图?18个施工进度计划横道图模板,可一键自动生成,方便快捷易操作,直观形象,相当好用...

    横道图是通过条状图来显示项目,进度,和其他时间相关的系统进展的内在关系随着时间进展的情况,相当形象直观,在建筑广泛应用. 这18个施工进度计划横道图模板包括7个Excel模板和11个project模板 ...

  4. excel求方差和标准差的函数_Excel标准差_计算函数Stdev和StdevP的使用方法

    Excel标准差_计算函数Stdev和StdevP的使用方法 Excel标准差核算共有六个函数,它们分别用于核算样本标准差和整体标准差,其间一些函数只能核算数值,另一些函数除能核算数值外还能核算文本和 ...

  5. halcon中如何生成椭圆_教你动态生成椭圆,还教你怎么用海龟作图——GeoGebra制作教程...

    先看下面的动画演示,你能给出答案吗?海龟-文末有制作教程 这就涉及到椭圆是怎么来的! 什么是椭圆--将圆拉伸 / 压扁? 椭圆的定义是什么? 椭圆的定义平面内与两个定点F1,F2的距离的和等于常数(大 ...

  6. poi动态创建文档_POI创建的文档具有不同条件的灵活样式

    poi动态创建文档 介绍 这篇文章解释了基于各种标准将样式应用于文档的困难并提供了解决方案. Java编程中的常见任务之一是根据存储在数据库中的数据创建Excel报告. 在这些情况下,Java程序员使 ...

  7. python历史波动率_历史波动率计算(旧文)

    按照豆粕期权的说明,挂盘基准价使用的波动率是按照波动率取期货合约90天的历史波动率 那么问题来了,如何计算波动率呢? 学过金融的朋友可能会觉得很容易,当然的确很容易.但是如果是从计算机等学科过来的朋友 ...

  8. layui图片上传按钮按着没反应_关于layui动态生成文件上传按钮后点击无效的解决办法...

    首先,这是一个坑,大坑,网上一大堆写的云里雾里,不知所以,转了一圈,除了copy就是copy,Jesus God,花了一晚上,走通了这个坑,话不多说,直接解决 layui版本: layui-v2.5. ...

  9. python方差齐性检验_方差分析中的方差齐性检验_方差齐性检验结果分析

    方差分析中的方差齐性检验_方差齐性检验结果分析_方差分析 齐性检验 方差分析时的方差齐性检验是方差分析的前提条件,还是只是后面进行均值的多重比较时选择分析方法的依据?看过几本书,这两种观点都有.我看方 ...

最新文章

  1. Boost::asio io_service 实现分析
  2. 线性回归实例-鸢尾花数据集
  3. Navicat for MySQL v8.0.27 的注册码
  4. IE本地网页弹出黄条“限制网页脚本”
  5. Java2精要_java知识精要(一)
  6. 为Editplus安装smali代码语法高亮插件
  7. 水很深的深度学习-Task03前馈神经网络
  8. FFmpeg mp4转yuv播放/截取帧(八)
  9. TypeScript简明教程
  10. python adb 实现对支付宝登录及后台监控
  11. 第四章 DirectX 渲染流水线(上)
  12. 中小型软件开发项目管理
  13. 人大金仓再次荣获“国家鼓励的重点软件企业”认定
  14. webStrom 和 eclipse项目已经重启报端口冲突解决
  15. 【安全软件教程※当心无线WEP被破解※】
  16. 二进制原码和补码的转换
  17. 「2022」字节-前端(互娱)笔试题
  18. java语言案例设计猜数游戏
  19. TPM分析笔记(十一)TPM 密钥组织架构(TPM Key Hierarchy)
  20. 仿天天动听5应用项目源码

热门文章

  1. 基于EasyNVR二次开发实现自己的摄像机IPC/NVR无插件化直播解决方案
  2. 智能优化算法--灰狼算法
  3. 前端点滴(JS进阶)(三)---- JavaScript 两链一包
  4. ubuntu 更换国内源各大站点速度排名(江苏地区)
  5. 1737 满足三条件之一需改变的最少字符数
  6. [poj 1737] Connected Graph {高精度+动态规划}
  7. 认识UWB的四个误区
  8. 使用windows自带diskpart转换磁盘格式
  9. 39岁阿里P9失业了,总资产1.5亿...
  10. matlab气管分割,一种基于区域生长法与水平集相融合的肺部CT图像的分割