2020年初,整个世界遭受了新冠病毒地袭击,直到今天人类还没有走出阴霾。抗疫前线的医学专家们日以继夜地工作,同时进行着多种药物的临床试验。那么怎么判断哪一种药物效果更好呢?这就要说到一百年前问世的方差分析。

1 费希尔的简介

罗纳德·艾尔默·费希尔爵士(英语:Sir Ronald Aylmer Fisher,1890-1962,),英国统计学家、演化生物学家与遗传学家。现代统计学与现代进化论的奠基者之一。安德斯·哈尔德称他是“一位几乎独自建立现代统计科学的天才”:

本文下面要讲到的方差分析、F分布,都是费希尔的贡献,这些统计方法可以说完全改变了人类进行科学研究的方式方法。

2 耙粪堆

费希尔有着惊人的数学才能,他在1912年获得剑桥大学的数学学位的同时,还斩获了当年剑桥大学的“牧人”头衔,这需要通过一系列难度极高的口头和书面的数学考试,每年都只有一两位学生可以成为“牧人”,有的年份甚至无人可以荣膺。和黎曼类似,在他的一些重要论文,他认为其中很多数学结论非常显而易见,不屑于证明。后来由瑞典数学家哈拉尔德·克拉梅尔等数学家进行了梳理、补充和证明,才逐渐扩充成为了现代统计科学的重要组成部分。

1919年,罗森斯得农业实验站的主任约翰·拉塞尔爵士发出了邀请,希望费希尔来查看下该实验站历年收集的数据中到底藏有什么秘密(下图是罗森斯得农业实验站):

由于种种原因,费希尔的生活并不顺利,看在一年1000英镑的份上,费希尔带着他的三个孩子、老婆和小姨子,来到了这个伦敦以北的农业地区,蹬上靴子,穿过农田,取出巨大库房中、堆积如山的、积累了90年的数据,开始了他所谓的“耙粪堆”的工作。

3 方差分析

罗森斯得农业实验站很重要的一个工作就是,搞清楚施用不同的混合肥料,马铃薯的产量是否会不同。费希尔的做法是在农田中种上马铃薯,不同部分施用不同的混合肥料(下面是一个示意图,在同一块农田的不同排施用不同的肥料,然后插上牌子进行区分):

然后在收获后对数据进行采样,看不同实验组的产量是否不同。

3.1 两个问题

费希尔也知道,马铃薯不是什么工业产品,本身产量就会有波动,肯定不能说某个实验组产量多了就说该组施用的混合肥料有效果,至少需要考虑以下两个问题:

(1)概率。马铃薯的产量本身具有随机性,比如说服从某正态分布:

根据该分布,产量在之间波动可能性较大,因此如果某实验组产量多了,并没有把握说混合肥料产生了效果(因为不可能知道所有马铃薯的产量,所以无法真正算出,也就不可能真正知道该正态分布,因此用虚线画出):

而产量在之上的波动可能性较小,因此如果某实验组产量多了,那么说明混合肥料可能真的产生了效果:

就此,费希尔设计了组间方差这个统计量,当组间方差较大的时候,说明发生了低概率事件,从而说明混合肥料可能真的产生了效果。

(2)原因。马铃薯的产量如果是随机波动,那么应该是有增有减的。比如从某个实验组中采样得到五株马铃薯,记录每株的重量,得到五个点。算出该实验组的平均产量相对于增加了,并且五个点相对于有增有减,分散在的四周,这就说明重量变化是由于随机波动造成的:

如果某个实验组平均产量相对于还是只增加了,但组内所有的马铃薯植株上的产量都是增加,紧密的围绕在的附近,那么说明混合肥料可能真的产生了效果,造成组内所有马铃薯的重量都增加了:

就此,费希尔设计了组内方差这个统计量,当组内方差较小的时,说明该试验组的普遍增产(或减产),也说明混合肥料可能真的产生了效果(组间方差、组内方差这两个统计量接下来会进一步介绍)。

3.2 假设检验

综合上面两个问题,费希尔设计了一个假设检验(关于假设检验,可以参考这里):

  • 假设:混合肥料没有效果,也就是各个实验组的产量的均值相同

  • 检验:设计了这个统计量,当实验组得到的数据使得该统计量足够大时,那么就可以推翻上述假设,得到混合肥料有效果的结论

从抽样到计算完成该假设检验,就称为方差分析。

4 实战

下面用具体的数据进行下实战讲解。假设有三组马铃薯,每组施用不同的肥料。在每组中各选五株,记录每株产出的马铃薯的重量,所得表格如下(下面的重量也是为了本文讲解设计的,不用较真):

根据上面表格,画出来的图像是这样的:

可以看出:

  • 发生了低概率事件,即组的样本均值远离

  • 原因很可能是由于混合肥料导致,因为组内的重量紧密围绕在附近,这说明整体都增产了,而不是随机波动

所以是很有把握认为这三组产量不同,并且是由于混合肥料导致的。当然上面是定性分析,下面看看如何定量分析。

4.1 组间方差

首先需要知道发生了低概率事件,即是否有某组(在本例中是组)的样本均值远离。因为是没有办法真正知道的,实际计算时只能用所有样本的均值来代替(本例中就是15株马铃薯的均值),然后计算各个实验组的样本均值与的距离,累加起来就得到了组间方差:

忽略其中的常数(这些常数设置是一些数学原因,不影响本文的整体思路,感兴趣的可以看下教材和证明),可以看出,组间方差较大时说明发生了低概率事件。

4.2 组内方差

将各个实验组的方差加起来就得到了组内方差(其中也多了些常数,暂时可以不用管):

其中是各组内的某株马铃薯的重量。组内方差越小,说明各个实验组变换越一致,越有可能是由混合肥料导致的。

4.3 统计量构造

费希尔接着构造了这么一个统计量,它综合了“概率”和“原因”这两个角度。为了说明这点,我们又对之前的三组进行了多次实验,得到不同的组间方差、组内方差:

解读下:

  • 第一行,组间方差大,说明可能发生了低概率事件;组内方差小,说明组内变化可能一致。本文的例子算出来就是该行。那么有充分的理由相信,这三组中其中某组(也可能是某两组、某三组)的产量有所不同,并且这种不同很可能是由于混合肥料造成的

  • 第二行,组间方差一般大,组内方差也是一般大,没有充分的理由相信这三组是不同的,保守一点,我们判断这三组是相同的

  • 第三行,组间方差足够小,说明可能没有发生低概率事件;组内方差足够大,说明可能组内的变化不一样。那么还是保守地判断这三组是相同的

可见统计量越大,那么三组不同的可能性越大。那具体要大到什么程度,才有把握说三组是不同的呢?这就需要F分布进行最后的检验(F就是Fisher的首字母,所以你也可以称之为费希尔分布)。

4.4 F分布

可以证明,满足某些条件的情况下(比如总体和样本都是正态分布),统计量是服从F分布的:

此时,当的值足够大,大到落入F分布的右边区域(也称为拒绝域)时,就有把握说三组是不同的:

至此就完成了假设检验,也就是完成了方差分析:

  • 假设:混合肥料没有效果,也就是各个实验组的样本均值相同

  • 检验:计算统计量的值,如果所得值落入F分布的拒绝域,那么就拒绝原假设,否则就接受

5 t检验

之前介绍过t检验,它和方差分析的区别在于,t检验是判断两组数据是否不同,而方差分析可以判断三组或者更多组数据是否存在不同。

从本文介绍可知,方差分析只是知道了这三组是否有差异,具体是到是哪组有差异,还需要别的统计方法。比如对这三组两两进行t检验。

6 写在最后

本文只是简单地介绍了方差分析的思想,很多数学细节没有深入,不过相信还是可以帮助同学们更快地学习相关知识。至于文章开头谈到的药物的临床试验,本质上和马铃薯的农业试验差不多,一样可以套用方差分析。

如何理解方差分析和F分布?相关推荐

  1. f分布表完整图_【教育统计答疑】如何理解正态分布、均值分布、^2分布、t分布和F分布...

    许多教育统计的初学者都表示这几个分布感到学起来非常吃力,结合最近上课的体会以及答疑的情况,觉得很有必要在这里简单地对这部分内容进行澄清和梳理,以助理解. 首先,"为什么要学习这几个分布&qu ...

  2. 结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验

    1 正态分布与Z检验 1.1 理论 Z检验的目的是为了验证:已知一个总体服从均值,方差的正态分布,现在有一些样本,这些样本所代表的总体的均值是否为. 则构建一个统计量Z, (1) 式中,为样本均值,为 ...

  3. 多因素方差分析中预测因素的筛多_用回归来理解方差分析(二):两因素方差分析...

    1 两因素方差分析的形式 多因素方差分析针对的是多因素完全随机设计.包含两个及以上的自变量,为便于讲解,本文以两因素方差分析为例. 在一个两因素完全随机设计中,自变量 包含 ,共 个水平.自变量 包含 ...

  4. t分布, 卡方x分布,F分布

    T分布:温良宽厚 本文由"医学统计分析精粹"小编"Hiu"原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivative ...

  5. 『统计学』第五部分:方差分析和F检验

    第四部分的卡方检验是研究类别变量之间的关系,而这一部分的方差分析则是研究类别型自变量与数值型因变量之间的关系,它在形式上是比较多个总体的均值是否相等. 从形式上看,方差分析与之前的t检验或z检验区别不 ...

  6. 详解三大抽样分布:t分布、卡方分布、F分布

    转载自https://www.cnblogs.com/think-and-do/p/6509239.html T分布:温良宽厚 本文由"医学统计分析精粹"小编"Hiu&q ...

  7. 统计假设测验------(四)方差分析(F测验、多重比较原理与方法)

    一.方差分析基本原理 1.方差分析(analysis of variance):k(k>=3)个样本平均数假设测验方法. 与j无关的变量都看成常数,此时summation代表的是次数 方差分析基 ...

  8. t分布 u分布 卡方分布_重要抽样分布:卡方分布(χ2分布)、t分布和F分布

    冒泡~:最近在回顾一些以前学过的概率论和数理统计的知识 发现这三个抽样分布经常出现,在参数估计和假设检验也会运用到,所以做一下整理. [首先,这三个抽样分布都是来自正态总体的常用的分布 可以根据情况应 ...

  9. 数理统计复习笔记一——统计中常用的抽样分布(卡方分布,t分布,F分布)

    前言:   总结一下数理统计中的基本概念,一些用python的实现在这里.不断持续更新. 1. 几个基本概念  1.1 次序统计量  1.2 样本偏度与样本峰度  1.3 经验分布函数  1.4 抽样 ...

最新文章

  1. 计算机vb选择题题题库,2013计算机二级VB真考选择题题库(4
  2. jmeter所有版本下载地址分享
  3. [Hadoop in China 2011] 邵铮:揭秘FaceBook Puma演变及发展
  4. 数据结构:链表(c语言)
  5. dom contains 包含关系
  6. 计算机英文版个人简历发文,计算机个人简历英文_英文简历.doc
  7. 一些简单的java编程题(3) ————小球落地问题
  8. 奔图打印机显示未连接_打印机无法打印的10种解决方法
  9. C#开启和关闭UAC功能
  10. vs格式化代码快捷键_VisualStudio高效率快捷键设置建议
  11. 随机生成50道加减算术题
  12. 香橙派 One Plus 像单片机一样硬件寄存器 控制GPIO 点灯
  13. pci规划的三个原则_LTE中PCI规划目的和原则
  14. pytorch 状态字典:state_dict
  15. kvm切换器不了linux系统,KVM切换器使用中最常见故障排除处理
  16. appium---第一个脚本--启动一个已存在的app
  17. 凯恩斯与艺术品投资的更大笨蛋理论
  18. 在命令行下,如何使用JAD反编译jar文件
  19. odoo继承过来的模型定义_rec_name不生效解决办法
  20. 1577. 条条大路通罗马 Java题解 (dijkstra综合应用,map)【PAT甲级1087】

热门文章

  1. L2TP的windows客户端连接
  2. idea 2019注册码(亲测可用)
  3. 华为云计算01——虚拟化技术
  4. MFC文件操作之CStdioFile
  5. Python函数的嵌套
  6. Vscode几个有趣的插件
  7. 【golang】golang初始化项目(iris下载与使用)
  8. Base64的编码和解码
  9. Ps4手柄隐藏无法识别,PS4手柄没反应
  10. linux连接ps4手柄,PS4模拟器新视频公布:已可进入安全模式菜单 支持PS4手柄