为什么要对差值求平方而不是取标准偏差的绝对值?

我们将x与平均值的差平方为平方,这是因为与自由度的平方根成正比的欧几里德距离(以人口度量,x的数量)是分散的最佳度量。

计算距离

0点到5点的距离是多少?

5−0=55−0=5,

|0−5|=5|0−5|=5和

52−−√=552=5

好的,这很简单,因为它是一个单一维度。

点0、0到点3、4的距离如何?

如果我们一次只能输入一维数据(例如在城市街区​​中),那么我们只需将数字相加即可。(有时称为曼哈顿距离)。

但是一下子进入二维呢?然后(通过我们在高中都学过的毕达哥拉斯定理),我们对每个维度的距离求平方,对平方求和,然后取平方根求出从原点到点的距离。

32+42−−−−−−√=25−−√=532+42=25=5

从0、0、0点到1、2、2的距离如何?

这只是

12+22+22−−−−−−−−−−√=9–√=312+22+22=9=3

因为前两个x的距离构成了计算最终x的总距离的支路。

x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√x12+x222+x32=x12+x22+x32

对于超维空间中的正交测量,我们可以继续扩展对每个维度的距离进行平方的规则,将其推广到所谓的欧几里得距离,如下所示:

distance=∑i=1nx2i−−−−−√distance=∑i=1nxi2

因此正交平方和就是距离的平方:

distance2=∑i=1nx2idistance2=∑i=1nxi2

是什么使测量与另一个正交(或成直角)?条件是两次测量之间没有关系。我们希望这些度量是独立且独立分布的(iid)。

方差

现在回想一下总体方差的公式(从中我们可以得到标准差):

σ2=∑i=1n(xi−μ)2nσ2=∑i=1n(xi−μ)2n

如果我们已经通过减去平均值将数据居中于0,则可以得到:

σ2=∑i=1n(xi)2nσ2=∑i=1n(xi)2n

因此,我们看到方差仅是平方距离除以自由度数(变量可以自由变化的维度数)。这也是每次测量对的平均贡献。“均方差”也将是一个适当的术语。distance2distance2

标准偏差

然后我们有了标准偏差,它只是方差的平方根:

σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷σ=∑i=1n(xi−μ)2n

等效地,距离,除以自由度的平方根:

σ=∑i=1n(xi)2−−−−−−−√n−−√σ=∑i=1n(xi)2n

平均绝对偏差

平均绝对偏差(MAD)是使用曼哈顿距离或与均值之差的绝对值之和得出的色散度量。

MAD=∑i=1n|xi−μ|nMAD=∑i=1n|xi−μ|n

同样,假设数据居中(减去均值),则用曼哈顿距离除以测量次数:

MAD=∑i=1n|xi|nMAD=∑i=1n|xi|n

讨论区

平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍(实际上是2/π−−−√2/π)。

无论分布如何,平均绝对偏差都小于或等于标准偏差。MAD低估了相对于标准偏差的极值数据集的离散度。

平均绝对偏差对异常值的鲁棒性更高(即,异常值对统计的影响不如对标准差的影响大。

从几何学上讲,如果测量值彼此不正交(例如,id),例如,如果它们是正相关的,则平均绝对偏差将比标准偏差更好地描述统计量,标准偏差取决于欧几里得距离(尽管通常认为这很好) )。

该表以更简洁的方式反映了上述信息:

sizesize,∼Noutliersnoti.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedokMADσsize≤σ≥MADsize,∼N.8×σ1.25×MADoutliersrobustinfluencednoti.i.d.robustok

评论:

您是否具有“平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍”的参考?我正在运行的模拟表明这是不正确的。

这是标准正态分布中100万个样本的10个模拟:

>>>fromnumpy.randomimportstandard_normal>>>fromnumpyimportmean,absolute>>>for_inrange(10):...array=standard_normal(1_000_000)...print(numpy.std(array),mean(absolute(array-mean(array))))...0.99993032268079940.79806342692730351.0011264618080810.79858329777989810.99942472755338930.79801716498026130.99941421053354780.79723671363208481.00011882118177260.7980215643159371.0004426544812970.79818452369108421.00015375187282320.79755549937424031.00028383691919820.7981431082500630.99990601144553840.7978952841095231.00048710656801650.798726062813422

结论

在计算色散度量时,我们更喜欢平方差,因为我们可以利用欧几里得距离,从而为色散提供了更好的描述统计。当存在更多相对极值时,欧几里得距离占统计数据中的极值,而曼哈顿距离为每个度量值赋予相等的权重。

方差为什么用平方不用绝对值,为什么要对差值求平方而不是取标准偏差的绝对值?...相关推荐

  1. python计算平方面积_python中求平方

    python学习(2)--变量与表达式 python学习(2)--变量与表达式 1.与java和c语言相通,python中也分为四种运算符: (1)算数运算符(如:+.-.*./); 学过java或者 ...

  2. 高斯函数半高宽FWHM、拐点差值绝对值一半以及标准差σ的关系

    半高宽(Full-width at the half of the maximum, FWHM)是指回波波峰一半所对应的时间全宽,是时间概念,单位一般为ns等. FWHM=22ln2σFWHM =2\ ...

  3. [react] react中遍历时为什么不用索引作为唯一的key值?

    [react] react中遍历时为什么不用索引作为唯一的key值? key值的目的在Diff DOM的时候根据render前后的唯一key值快速的对树进行比较,保证key值得唯一性,如在进行中间插入 ...

  4. 字母绝对值python怎么表示_【怎样求用字母表示的数的绝对值?】作业帮

    用绝对值的代数定义求一个数的绝对值,必须先判断这个数是正数.零,还是负数,再由定义确定去掉绝对值符号"| |"后的结果是它本身,还是它的相反数及零,从而求得这个数的绝对值.当这个数 ...

  5. 实验2-3-7 求平方与倒数序列的部分和 (C语言)

    实验2-3-7 求平方与倒数序列的部分和 (C语言) 本题要求对两个正整数m和n(m≤n)编写程序,计算序列和m2+1/m+(m+1)2+1/(m+1)+⋯+n2+1/n. 输入格式: 输入在一行中给 ...

  6. java:编写一个求平方的窗体

    编译平台选择是eclipse. 打开eclipse,file->new->class,输入名称后,点finish. 总代码: import java.awt.*; import java. ...

  7. java怎么求平方怎么求指数?

    1.直接将同一个数相乘: int a = 6; int b = a * a;//两个数相乘达到平方的效果,其他指数同理 2.使用Math的pow方法求平方 Math.pow(double a,doub ...

  8. matlab计算绝对值的导数,如何用matlab求带绝对值函数的导数? 你值得一看的技巧...

    用matlab求函数的导数:如果一个函数表达式中有绝对值,那对该函数求导就需要注意啦!该函数可能在他的零点处导数不存在,所以我们不能用传统的方法求导,应该在零点处分别求左导数和右导数,如果左导数和右导 ...

  9. [算法][面试题]疯狂队列-排列使得序列两两间“差值的绝对值“之和最大

    题目 给定一个数列A,数列中相邻两项的差值的绝对值定义为"疯狂值".任意排序这个数列,使得整个数列的"疯狂值"最大,输出这个最大值. 样例 输入 5 10 25 ...

  10. 数位 dp 相邻位数字差值的绝对值不能超过 2_XMZD-102 数字温度仪

    XMZD-102 数字温度仪 单回路数显仪表是采用微处理器进行数字运算,可对各种非线性信号进行高精度的线性矫正的仪器. 概述 单回路数显仪表显示控制仪适用于各种温度.压力.液位.长度等的测量控制.采用 ...

最新文章

  1. JAVA 中BIO,NIO,AIO的理解
  2. 【函数】02、函数进阶
  3. RabbitMq--1
  4. 使用FizzBu​​zz和Mockito进行单元测试
  5. DevExpress使用技巧总结
  6. layui 可以商用吗_layui框架的优缺点是什么
  7. electron实践(2)
  8. 汇编 一星题目字符串合集:输入字符,操作,在屏幕上显示
  9. 五步使用法——搞定XMLHttpRequest
  10. IIS7下访问ashx页面,显示404
  11. DOC命令小问题~~+理解
  12. JQuery 实现表格数据行上移与下移效果
  13. ***NSFileManager
  14. nodejs后台系列--第二篇--使用Navicat来创建数据库
  15. 解决谷歌导入Vue开发工具没反应的问题
  16. 计算机信函 教案模板,一年级信息技术课教案模板三篇
  17. Linux入门(14)——系统启动修复
  18. 超全,整理了18种常用数据分析模型和方法
  19. leshan基于OMALightweight M2M(LwM2M)协议的Java实现(入门)
  20. 零经验产品经理,思维导图带你从入门到精通成为

热门文章

  1. 微软Kinect:谁还要控制器?
  2. JAVA 仿XP画图板的总结
  3. 公共基础知识中计算机知识,公共基础知识之计算机知识总结
  4. 电脑宝马,大量宝马车电脑通病故障检修方法
  5. 广东省计算机一级技巧,广东省计算机一级
  6. power BI爬取网页数据方法
  7. python中文分词器(jieba类库)
  8. 内置单片机的433无线模块高速连传典型运用
  9. ARM9开发板Qt环境的搭建
  10. 判断div是否在可视区内