何为显著性检验?

显著性检验(significance test)作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。在统计学中,显著性检验是“统计假设检验”(Statistical hypothesis testing)的一种,显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。

“无假设,不检验”。用更通俗的话来说就是要先对科研数据做一个假设,然后用检验来检查假设对不对。一般而言,把要检验的假设称之为原假设,记为 H0;把与 H0相对应(相反)的假设称之为备择假设,记为 H1。

如果原假设为真,而检验的结论却劝你放弃原假设。此时,我们把这种错误称之为第一类错误。通常把第一类错误出现的概率记为α;
如果原假设不真,而检验的结论却劝你不放弃原假设。此时,我们把这种错误称之为第二类错误。通常把第二类错误出现的概率记为β。

通常只限定犯第一类错误的最大概率α, 不考虑犯第二类错误的概率β。我们把这样的假设检验称为显著性检验,概率α称为显著性水平。显著性水平是数学界约定俗成的,一般有α =0.05,0.025.0.01这三种情况。代表着显著性检验的结论错误率必须低于5%或2.5%或1%(统计学中,通常把在现实世界中发生几率小于5%的事件称之为“不可能事件”)。

一个通俗简单的例子

黄老板开了两家超市,分别设在不同的地方。现在存在下列数据作为两个超市分部的销售额,集合中的每一个数代表着一年中某一个月的超市销售额。

分店1 = {23,25,26,27,23,24,22,23,25,29,30}
分店2 = {24,25,23,26,27,25,25,28,30,31,29}

现在,黄老板想要知道两家超市的销售额是否有存在明显的差异(是否存在分店1销售额>分店2销售额,抑或反之),以便对接下来超市的战略业务调整做出规划。下属们知道黄老板的难处,纷纷建议“只需要求平均值就知道哪个分部的销售额更大了”。但是作为拥有高学历的黄老板懂得这样一件哲学即“我们生活在概率的世界之中”。那也就意味着,平均值并不能够说明什么问题,即便分店1的销售额平均值大于分店2的销售额平均值仍然不能说明分店1的销售额一定就大于分店2的销售额,因为“这样一种看似存在的大于关系实质上是偶然造成的而并不是一种必然”。

黄老板最终决定,使用方差验检查这两个数据。最后,黄老板发现,方差检验的 p 值= 0.2027,那也就意味着,虽然分部1的年平均销售额26.63大于分部2的销售额25.18,但是实质上,两家超市的销售额并没有明显的差异。

说道这里,可能会有一些疑问,没关系,笔者一一自问自答。

  1. 如上文所述的一样,“无假设,不检验”,黄老板做了什么样的假设(Hypothesis)?
    由于黄老板想要知道两家超市的销售额是否有存在明显的差异 ,所以他的假设就是“样本集1和样本集2不存在显著性差异,换言之这两个集合没有任何区别(销售额间没有区别)!”这就是黄老板的假设。

  2. p值怎么回事?
    这里并不用管p值是怎样得到的,直接给出结论。在显著性水平α =0.05的情况下,p>0.05接受原假设,p值<0.05拒绝原假设。我们的原假设是样本集Z和样本集H间不存在显著性差异,但是由于p=0.2027>0.05,所以接受原假设,即样本集1和样本集2间不存在显著性差异。当然有接受就有拒接,如果这里的p值小于0.05,那么就要拒绝原假设,即集合1和集合2间存在显著性差异。

怎么做显著性检验?

前面所述都是显著性检验的理论知识,现在开始实践操作(基于MATLAB,主要讲解单因素方差分析)。

假定现在有三组数据:
组一(group1):82 86 79 83 84 85 86 87
组二(group2):74 82 78 75 76 77
组三(group3):79 79 77 78 82 79
现在需要对这三组数据做方差检验,使用anova1函数的方法如下
1.首先将所有的数据放在同一个数组strength中:

>> strength = [82 86 79 83 84 85 86 87 74 82 78 75 76 77 79 79 77 78 82 79];

2.设置对应与strength对应位置的标签为alloy:

>> alloy = {'group1','group1','group1','group1','group1','group1','group1','group1','group2','group2','group2','group2','group2','group2','group3','group3','group3','group3','group3','group3'};

3.调用anova1函数

>> p = anova1(strength,alloy)

最终得到的结果会是一个数值和两幅图。p 值为1.5267e-004,显然,从 p 值看,三组之间存在显著性差异。有一点必须提一下:这里p存在显著性差异并不意味着三组之间两两都存在显著性差异,而只是说明显著性差异在这三组之间存在。

第一幅图是一张表,这张表被称之为 ANOVA 表。如下图所示:

对ANOVA表做详细解析:
Source 表示方差来源(谁的方差),这里的方差来源包括 Groups(组间),Error(组内),Total(总计);
SS(Sum of squares)表示平方和;
df(Degree of freedom)表示自由度;
MS(Mean squares)表示均方差;
F表示F值(F统计量),F值等于组间均方和组内均方的比值,它反映的是随机误差作用的大小;
Prob>F表示p值。

率先普及一下p值和F值之间的关系:
F实际值> F查表值,则 p<=0.05;
F实际值< F查表值,则 p>0.05;
不难看出F值在本例中等于15.4,它正是组间方差92.4和组内方差6的比值。(F分布表可自行查阅,这里不展示了)

根据 n=19( Total 的df),m=2(Groups的df)
可得F0.05( m, n-m-1) = F_0.05( 2, 16) = 3.634。F实际值15.4>F查表值3.634,所以可以判定显著性差异存在,且p值小于0.05。

以上讲述了如何仅仅使用F值判断显著性差异的方法并讲述了F值同p值之间的关系。下面这张表格是箱型图,它的看法如下图所表注:

这里有必要提一下 anova1 函数中的参数displayopt 的作用。在大规模的 anova1 调用中(例如把 anova1 放在 for 循环中反复调用),需要把 displayopt 设置为’off’,否则 anova1 每调用一次就会绘制两幅图,这样会迅速的耗费计算机的内存,容易造成程序崩溃。

在上文中,我们提到过。方差分析必须满足两条假设,分别是正态性假定和方差齐性假定。因此,在一个完整的统计工程中,必须首先检测数据的正态性假定和方差齐性假定,这就涉及到另外两个函数 lillietest 正态检验函数(这正是我们上文提到的分布假设检验而不是参数检验,它检验的目标是数据集服从何种分布)和 vartestn 方差齐性检验(这正是我们上文提到的参数检验而不是分布假设检验 ,它检测的目标是数据集的分布服从什么样的参数,这里就是方差)。

函数 lillietest(X)

>> [h,p] = lillietest (strength(1:8))
h =0
p =0.5000

解释:h = 0可以认为数据服从正态分布,h=1则认为不服从正态分布
p >0.05可以认为接受原假设h = 0,则数据服从正态分布

>> [h,p] = lillietest (strength(9:14))
h =0
p =0.5000
>> [h,p] = lillietest (strength(15:20))
h =0
p =0.5000

可以得出结论,strength中三组数都服从正态分布。

函数:vartestn(X, Group)

>> p = vartestn(strength',alloy','off')p =0.5142

p>0.05则说明X中的不同Group是齐次的,也就是方差性齐。

注意:X和Group必须是列向量,否则会报错!!

本文主要讲了单因素方差分析,更多的还有多因素方差分析以及非参数检验等相关知识会在后续博文中介绍。

关于显著性检验,有你想要的!相关推荐

  1. 转载: 关于显著性检验,你想要的都在这儿了!!(基础篇)

    关于显著性检验,你想要的都在这儿了!!(基础篇) 无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域.笔者作为科研界一名新人也 ...

  2. 关于显著性检验,你想要的都在这儿了!!(基础篇)

    无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域.笔者作为科研界一名新人也曾经在显著性检验方面吃过许多苦头.后来醉心于统计理 ...

  3. 【转】 关于显著性检验,你想要的都在这儿了!!(基础篇)

      无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域.笔者作为科研界一名新人也曾经在显著性检验方面吃过许多苦头.后来醉心于统 ...

  4. 显著性检验的“前世与今生”

    关于显著性检验,你想要的都在这儿了!!(基础篇) 无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域.笔者作为科研界一名新人也 ...

  5. 【医学信息学】研究和统计——显著性检验

    本文仅为笔者学习过程中的总结笔记,如有错误敬请指正. 什么是显著性检验 显著性检验(significance test)是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法. 要先对 ...

  6. 显著性假设(基础篇)

    一:显著性检验前传:什么是显著性检验?它与统计假设检验有什么关系?为什么要做显著性检验? "显著性检验"实际上是英文significance test的汉语译名.在统计学中,显著性 ...

  7. 【PSO】熟悉PSO算法

    问:怎样才算是真正熟悉一个PSO算法? 答:下载CEC2013或者2010的标准测试函数集,然后让你的PSO算法在基本的函数集上调通了,这样才算正确地实现了一个PSO算法. 下载地址:http://g ...

  8. 轮式机器人算法仿真的一些杂七杂八03

    把以前的一些零乱的随手笔记搬到csdn来,仅做记录. SendingSimpleGoals 写C++代码,用actionlib给move_base动作目标来控制机器人向前行走: gazebo+ros单 ...

  9. 测试算法有效性:显著性分析

    目录 前言 显著性分析 delta method Delta Method的结果 一些其他有趣的讨论和优化 总结 前言 今天偶尔刷到一篇博客如下,里面涉及到了很多数学小知识点,基本都是很实用的数学常识 ...

  10. 毕设论文数据分析记录-part1:长时间序列的趋势分析

    20220210-MK非参数检验 (刘烁楠. 变化环境下月水量平衡模型参数时变特征研究[D]. 2019.) MK检验_哔哩哔哩_bilibili 通过UP主视频里的详细EXCEL过程,理解了MK具体 ...

最新文章

  1. mysql半连接_mysql表的半连接,反连接导致的mysql性能优化剖析
  2. linux禁止客户端上传文件_实战 FastDFS Java 客户端上传文件
  3. ihtml2document能不能根据id获取dom_回到基础:什么是DOM及DOM操作?
  4. 利用kinect检测任意平面
  5. 初识Mysql(part7)--我需要知道的5个关于正则的小知识
  6. linux- root管理员权限
  7. python ssl socket_Python使用Socket(Https)Post登录百度的实现代码
  8. jfinal 任务调度与jsoup 爬虫
  9. Linux 到 Windows scp 复制速度慢
  10. Educational Round 26 C. Two Seals
  11. spark稀疏向量与稠密向量
  12. 边相关扫描线填充算法
  13. 用DISM为Windows 7 SP1 2019官方英文版添加中文语言包及XHCI驱动
  14. simulink仿真之阶梯步长
  15. 外汇短线交易者的规则
  16. 全球与中国相机模组胶黏剂市场运营现状及投资可行性评估报告2022-2028年
  17. 指向性麦克风----8字形麦克风设计(四)
  18. 纯Asp实现微信支付
  19. tplink控制上网设备_tplink路由器如何控制小孩的使用上网时间
  20. 我xp电脑桌面没有计算机图标不见了,XP电脑开机后桌面图标打开方式全部不见的恢复方法...

热门文章

  1. wordexpansion包 | 新增词向量法构建领域词典
  2. 计算机组成原理~计算机系统简介①
  3. 有哪些好用的思维导图软件?这个办法值得一试
  4. ResNet 残差网络、残差块
  5. 一分钟弄懂什么是分布式和微服务
  6. Fabric单机多节点网络部署方案
  7. Thingsboard Build踩坑(一)
  8. matlab 画梯形,转向梯形优化设计matlab程序
  9. 2022年登高架设操作证考试题及在线模拟考试
  10. (原创文章)羊毛党何去何从