上次小编给大家介绍了跟误差线有关的几个概念以及相关的柱状图,散点图,和小提琴图(试验数据统计中常用的 量,图,和线--再也不担心文章的统计用图了!)。这些图和线都属于“比较统计学”的范畴。今天给大家总结介绍另一大类:“描述统计学”,主要用到的是直方图和箱线图。


总论:

直方图和箱线图是了解连续变量分布的最常用的图形工具。在这两种图中可以找到数据中的下列信息:中位数,分位数,上限,下限,总体数据的变异性和异常值等。另外,这两种图在数据比较方面(比较统计学)也可以发挥很大的作用。下图(Wang et al. 2018)就是一个DH群体中五种不同单倍型在结实小穗数方面的表现差异,虽然少了平均值和SD或SEM,但箱线图配合表示显著性差异的字母在此例中还是非常直观的。

直方图:

直方图想必大家非常熟悉了,尤其是在表示群体对某一表型的分布中应用的非常广泛。值得注意的是,在我们小麦研究中,大部分性状都是多基因控制,所以如果能对直方图做一个normal fitting,然后配上正态性检测,就显得我们的图更加高大上了。即使是单基因控制的抗病性状,我们也可以根据明显不符合正态分布来支持目标性状是由单(或少数)基因控制。

箱线图:

箱线图顾名思义最重要的两个成分就是箱和线。那么箱和线分别代表什么呢?我们首先来看中间这个箱子以及中间那条粗线:

中间粗线代表中位数(如果是标准正态分布,中位数和平均值是一样的,位置在小箱子的中间位置)。箱子大小代表的是四分位数间距(IQR),也称为中间50%间距,是统计离散度的度量,等于第75和第25百分位数之间的差异,或者说是在上下四分位数之间,即:IQR = Q3-Q1。(这一句话中出现的分位数,四分位数,和百分位数在英语中对应了三个单词quantile,quartile,和percentile,三者的联系和区别搞的小编头都大了,想了解更多的请看文末补充内容)。

接下来谈一下小箱子伸出去的两根线,在“标准正态分布”的箱线图中,这两根线是等长的,代表的是1.5倍的IQR区间,所以箱线图的下限就是Q1-1.5IQR,上限是Q3+1.5IQR。

最后是如果有超出上下限的值(大概是2.7个标准差之外),就被叫做异常值了。

下图非常好的展现了一个箱线图中小箱子,上下限,以及异常值跟正态分布图中方差分布之间相互对应的关系。

箱线图的不同表达方式:

上面介绍了最标准的箱线图,但在实际应用过程中,由于数据的分布会稍微偏离或者不符合正态分布,这也就造成了箱线图的不同表达方式:主要是两根线的千变万化以及中位线在小箱子中位置的变化。

Outlier Box Plot (异常值类型,也是Excel 中的默认类型)

这种类型多用于符合正态分布的数据中,借用这种图可以很快的鉴定出异常值。

在这种类型中,一般上下限值等于我们上边说的Q1-1.5IQR和Q3+1.5IQR,但是当数据中没有达到上下限的数值,那就用最大值和最小值来替换,这也是造成两个线经常不等长的原因之一。比如在下图中,由于数据中最小值要大于下限值,所以下限值那条线就用此数据中的最小值来代替,而不是Q1-1.5IQR。而对于上限来说,由于数据中包含等于上限值的数,所以就用Q3+1.5IQR来表示。而对于大于上限值的一个数据,属于2.7个方差之外的数值,被视为异常值。

分位数类型

这种类型多用于不符合正态分布的数据,借用这种图可以快速的鉴定数据中各种分位数,最大值,最小值等等,从而快速知道某个数值在整个数据中所占的位置(百分位位置)。

在这种类型中,“上下限值”就是数据中的最大值和最小值,然后中间几条小线代表自定义的分位数。如下图中左边的箱线图就是分位数类型,大家也可以比较这个图和直方图以及异常值箱线图的区别。另外,下面两个箱线图箱子里的菱形代表平均值以及上下95%的置信区间。此类型箱线图完美的结合了描述统计学和比较统计学两大功能,属于小编的最爱!


补充内容:

    以下两段话和一个英文的链接比较详细的讲述了quantile,quartile,和percentile之间的关系和区别。有兴趣的小伙伴可以看一下。按照小编的理解,以下这个在Stack Exchange上点赞量非高的解释其实是不对的:

https://stats.stackexchange.com/questions/156778/percentile-vs-quantile-vs-quartile

正确的用法:

The 2 quantiles = the 50th percentile

the 4 quantiles = the upper quartile = the 75th percentile

N Quantiles 的本意就是把正态分布分成N等份,所以我们可以说the 1000 quantiles,但percentile 只能是从 the 0th 到 the 100th。不过不管怎么说,我发现现在的统计学软件中的quantile都是以percentile形式来计算和展示的(比如正文最后一个图,以及下图中在R中计算quantile)。

“分位数(英语:Quantile),亦称分位点,是指用分割点(cut point)将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。分割点的数量比划分出的区间少1,例如3个分割点能分出4个区间。常用的有中位数(即二分位数)、四分位数(quartile)、十分位数(decile )、百分位数等。q-quantile是指将有限值集分为q个接近相同尺寸的子集。”

“百分位数统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。”

Understanding Quantiles: Definitions and Uses

https://www.thoughtco.com/what-is-a-quantile-3126239

欢迎大神在这个话题上继续补充。

中累计直方图_试验研究中的利器强大的直方图和箱线图相关推荐

  1. 箱线图怎么判断异常值_原创【六西格玛工具解读】02——箱线图(Boxplot)

    为方便从事质量工作的小伙伴系统了解相关管理工具,小编整理出六西格玛工具系列的应用解读.旨在相关爱好者交流探讨,也可供报考六西格玛黄带.绿带或黑带的朋友参考.因个人水平有限,难免存在疏忽和错误,还请各位 ...

  2. python箱线图_从零开始学Python-matplotlib系列(III):箱线图

    原标题:从零开始学Python-matplotlib系列(III):箱线图 前言 今天继续我们的python绘图系列,针对离散变量我们可以使用常见的条形图和饼图完成数据的可视化工作,那么,针对数值型变 ...

  3. python画图颜色填充_【Python】Matplotlib画图(十一)——箱线图

    数据描述 参数介绍 plt.boxplot(x, notch=None, sym=None, vert=None, whis=None, positions=None, widths=None, pa ...

  4. jmp怎么做合并的箱线图_如何在JMP中给箱线图(Box Plot)快速着色

    箱线图(Box-plot),是大家耳熟能详的一种显示数据分散情况的统计图.通过箱线图,我们可以很容易地比较几组数据的形状,识别数据中的异常值,锁定那些需要我们关注的异常值信息,发现解决问题的机会. 箱 ...

  5. ggplot2箱式图两两比较_个人向ggplot2箱线图总结

    主要从如何看图.用图与作图三个方面来对箱线图进行理解和总结. 1.看图 箱线图概述图1 箱线图概述图2 如图所示,箱线图是将一组数据按照大小顺序排列后进行绘制的,包含6个数据节点,分别表示出数据的上边 ...

  6. Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding

    Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介.应用之详细攻略--daidingdaiding 目录 箱线图 箱线图 箱线图(box plots):这些图显示 ...

  7. 如何连接成组箱线图中的平均值(seaborn)

    项目场景: 师妹想要如下图的效果 问题描述: 理所应到得想到用箱线图组合折线图就可以,但出来的图发现不对劲: 点并不在箱线图之上,而是按照坐标点成一条竖线 解决方案: 为pointplot函数加入do ...

  8. 在一幅图中为箱线图设置不同颜色

    在一幅图中有多个箱线图,有时需要为分组为其设置不同颜色,下面是代码: import numpy as np import matplotlib.pyplot as plt import pandas ...

  9. 用R中ggplot2包做箱线图、折线图、条形图

    用R中ggplot2包做箱线图.折线图.条形图(横.纵) 使用ggplot2完成画图工作 建议 箱线图 折线图 条形图 (纵)背景白色+柱子颜色一致 (纵)条形按y值降序排列+去掉边框线+红色渐变 ( ...

最新文章

  1. FFT算法8点12位硬件实现 (verilog)
  2. Android 进程保活招式大全
  3. 利用nginx搭建http和rtmp协议的流媒体服务器
  4. Red Hat Enterprise Linux 5.4安装GCC
  5. 实例 18错误输出信息与调试信息
  6. Objective-C学习之解析XML
  7. C/C++语言简介之关键字
  8. 【知识图谱】一、知识表示与知识建模
  9. strlen函数strcpy函数strcat函数的实现
  10. 微信支付携手云闪付APP上线支付立减新优惠
  11. 解决出现“未能加载文件或程序集“System.Net.Http.Formatting, Version=5.2.3.0”的问题
  12. android studio如何重启,从Android Studio重新启动ADB(Restart ADB from Android Studio)
  13. MongoVUE 使用教程
  14. Github Actions 云编译 OpenWRT LEDE 固件
  15. JAVA必备——Struts
  16. 群晖DS918+硬盘选择和阵列选择
  17. 【微积分易错点总结】函数、极限和连续
  18. Linux之Ubuntu20.04安装Java JDK8的两种方式
  19. SQL数据库查询 左连接、右连接、内连接 实例
  20. SAAS 客服云平台市场调研报告

热门文章

  1. 在Spring 框架中如何更有效的使用JDBC?
  2. Java动态代理生成的对象导出方法
  3. 依赖注入_set方法注入_构造器注入
  4. 后台服务系统之dubbo架构
  5. 字符串的构造方法和直接创建
  6. 把数据存入excel文件_Python从原Excel表中抽出数据存入同一文件的新的Sheet(实例53)...
  7. 回调函数自定义传参_10分钟教你手写8个常用的自定义hooks
  8. “==”和“equals”
  9. 【AI芯片格局最全分析】国内AI芯片百家争鸣,何以抗衡全球技术寡头
  10. C# 视频监控系列(14):总结贴——VC++代码转成C#小结