1、均值mean()

2、方差:

表示数据集中数据点的离散程度

3、标准差

表示的也是数据点的离散程度,

与方差相比,使用标准差来表示数据点的离散程度有3个好处:

  1. 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
  2. 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。
  3. 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。

贝赛尔修正

在上面的方差公式和标准差公式中,存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1: 
经过贝塞尔修正后的方差公式: 

经过贝塞尔修正后的标准差公式:

公式的选择

是否使用贝塞尔修正,是由数据集的性质来决定的:如果只想计算数据集本身的离散程度(population),那么就使用未经修正的公式;如果数据集是一个样本(sample),而想要计算的则是样本所表达对象的离散程度,那么就使用贝塞尔修正后的公式。在特殊情况下,如果该数据集相较总体而言是一个极大的样本 (比如一分钟内采集了十万次的IO数据) — 在这种情况下,该样本数据集不可能错过任何的异常值(outlier),此时可以使用未经修正的公式来计算总体数据的离散程度。

平均值与标准差的适用范围及误用

大多数统计学指标都有其适用范围,平均值、方差和标准差也不例外,其适用的数据集必须满足以下条件:

中部单峰:

  1. 数据集只存在一个峰值。很简单,以假想的CPU使用率数据为例,如果50%的数据点位于20附近,另外50%的数据点位于80附近(两个峰),那么计算得到的平均值约为50,而标准差约为31;这两个计算结果完全无法描述数据点的特征,反而具有误导性。

  2. 这个峰值必须大致位于数据集中部。还是以假想的CPU数据为例,如果80%的数据点位于20附近,剩下的20%数据随机分布于30~90之间,那么计算得到的平均值约为35,而标准差约为25;与之前一样,这两个计算结果不仅无法描述数据特征,反而会造成误导。

遗憾的是,在现实生活中,很多数据分布并不满足上述两个条件;因此,在使用平均值、方差和标准差的时候,必须谨慎小心。


如果数据集仅仅满足一个条件:单峰。那么,峰值在哪里?峰的宽带是多少?峰两边的数据对称性如何?有没有异常值(outlier)?为了回答这些问题,除了平均值、方差和标准差,需要更合适的工具和分析指标,而这,就是中位数、均方根、百分位数和四分差的意义所在。

from zxca368

R中常用统计指标含义相关推荐

  1. r 语言c函数,R语言常用函数详解

    R语言对于我们生信人员来讲,再熟悉不过,然而任何一门语言想要学好,必须经过常年的日积月累才可以做到,在这里,我列举R中常用的函数的用法, 供大家学习. 1.序列函数seq 用法: seq(form,t ...

  2. 管道仪表流程图中常用的字母及其含义

    管道仪表流程图中常用的字母及其含义 字母代号 首位字母 后继字母 A 分析 报警 B 燃烧 C 电导率 控制 D 密度.差 E 电压 检测元件 F 流量.比(分数) H 手动 高 I 电流 指示 J ...

  3. 在R、Python和Julia中常用的数据可视化技术

    俗话说"一图胜千言".通过各种图片和图形化展示,我们可以更清晰地表达很多抽象概念.理论.数据模式或某些想法.在本章中,我们首先解释为什么应该关心数据可视化.然后,我们将讨论几种在R ...

  4. 简单介绍一下R中的几种统计分布及常用模型

    统计学上分布有很多,在R中基本都有描述.因能力有限,我们就挑选几个常用的.比较重要的简单介绍一下每种分布的定义,公式,以及在R中的展示. 统计分布每一种分布有四个函数:d――density(密度函数) ...

  5. VC/MFC中常用宏的含义

    VC/MFC中常用宏的含义 Visual C++ MFC 中常用宏的含义(转载)     AND_CATCHAND_CATCH AND_CATCH(exception_class,exception ...

  6. ⅰcp经济模型_简单介绍一下R中的几种统计分布及常用模型

    统计学上分布有很多,在R中基本都有描述.因能力有限,我们就挑选几个常用的.比较重要的简单介绍一下每种分布的定义,公式,以及在R中的展示. 统计分布每一种分布有四个函数:d――density(密度函数) ...

  7. R中两种常用并行方法——2. snowfall

    上一篇博客(R中两种常用并行方法--1. parallel)中已经介绍了R中常见的一种并行包:parallel,其有着简单便捷等优势,其实缺点也是非常明显,就是很不稳定.很多时候我们将大量的计算任务挂 ...

  8. C++ 编程中常用的英文单词(首字母是O、P、R开头)

    学习编程不一定需要英语水平很高,能记住认识一些常用的英文单词也可以,有看不明白的文档资料也可以使用翻译工具,编写代码时大部分好用的IDE都是有代码提示的.本文主要介绍C++语言编程中常用的英语单词. ...

  9. 统计计量 | 统计学中常用的数据分析方法汇总

    来源:数据Seminar本文约10500字,建议阅读15+分钟 统计学中常用的数据分析方法汇总. Part1描述统计 描述统计是通过图表或数学方法,对数据资料进行整理.分析,并对数据的分布状态.数字特 ...

最新文章

  1. Python 字符串的所有方法详解
  2. 使用Keil MDK以及标准外设库创建STM32工程
  3. apt-get install php 指定版本号,如何使用apt-get升级单个软件包?
  4. php+include+引入html文件,include引入文件
  5. 没想到单位的bt下载的速度可以到这么快,满意了
  6. asp.net 动态添加JavaScript方法
  7. [js] 请使用 js 实现一个双向链表
  8. 小白学docker(1)---docker安装
  9. 单向队列、双端队列、栈的模型实现
  10. 电脑怎么换自己的壁纸_怎么才能给自己的爱机一个合理的价格—想把自己电脑回收的...
  11. halcon识别ocr汉字_手写汉字识别——手写文本快速电子化的好方法
  12. Win10文件管理器那些你不知道的秘密
  13. 测试tf卡读写速度软件,【图】测试工具,看看你的导航使用的TF卡速度有多快?...
  14. java怎么用unicode写程序_简单的讲解Java是使用Unicode字符集
  15. SRP Batcher:提升您的渲染性能
  16. redis之AOF和RDB持久化
  17. Nodejs xlsx导出导出
  18. 在HTML网页中怎样写大于号和小于号
  19. excel与云mysql连接数据库_小程序读取excel表格数据,并存储到云数据库
  20. canfd收不到数据_CAN-FD协议浅析

热门文章

  1. AVFoundation 框架小结
  2. 整合百度AI实现手机拍照识别车牌号
  3. 专访|十年程序员董一凡:生命不息,学习不止
  4. Python英文单词大小写转换及所有首字母大写
  5. vite postcss
  6. 求职秘籍-如何准备面试?
  7. ubuntu上的图片编辑工具-Pinta(品他病)
  8. JdbcTemplate空指针异常
  9. 《福布斯》2011 年评腾讯创新能力全球第四,超越苹果和谷歌,如何理解?
  10. 武汉计算机大学排名2018,2018年中国地质大学(武汉)世界排名、中国排名、专业排名...