假设检验

假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。
假设检验的特点就是采用逻辑上的反证法和依据统计上 的小概率原理。小概率事件在单独一次的试验中基本上不会发生,可以不予考虑。在假设检验中,做出判断时所依据的逻辑是:如果在原假设正确的前提下,检验统计量的样本观测值的出现属于小概率事件,那么可以认为原假设不可信,从而否定它,转而接受备择假设。
常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。

假设检验的假设

需要先对结果进行假设,然后拿样本数据去验证这个假设。
所以做假设检验时会设置两个假设:
一种叫原假设,也叫零假设,用H0表示。原假设一般是统计者想要拒绝的假设。原假设的设置一般为:等于=、大于等于>=、小于等于<=。
另外一种叫备择假设,用H1表示。备则假设是统计者想要接受的假设。备择假设的设置一般为:不等于、大于>、小于<。
例如在进行假设检验时,希望接受版本2的假设,想拒绝接受版本1的假设。所以我们的假设设置为:H0 :μ版本1 >= μ版本2 ,H1 : μ版本1 < μ版本2。

假设检验的常见的两类错误

我们通过样本数据来判断总体参数的假设是否成立,但样本时随机的,因而有可能出现小概率的错误。这种错误分两种,一种是弃真错误,另一种是取伪错误。

第 I 类错误(弃真错误)也叫α错误:它是指 原假设实际上是真的,但通过样本估计总体后,拒绝了原假设。明显这是错误的,我们拒绝了真实的原假设,所以叫弃真错误,这个错误的概率我们记为α。这个值也是显著性水平,在假设检验之前我们会规定这个概率的大小。

第 II 类错误(取伪错误)也叫β错误:它是指 原假设实际上假的,但通过样本估计总体后,接受了原假设。明显者是错误的,我们接受的原假设实际上是假的,所以叫取伪错误,这个错误的概率我们记为β。

在假设检验中,可能在决策上犯这两类错误。一般来说,在样本量确定的情况下,任何决策无法同时避免这两类错误的发生,即在减少一类错误发生的同时,会增大另外一类错误发生的几率。​
在大多数情况下,人们会控制第一类错误发生的概率。在进行假设检验时,人们通过事先给定显著性水平α的值来控制第一类错误发生的概率,常用的 α 值有 0.01,0.05,0.1。如果犯第一类错误的成本不高,那么可以选择较大的α值;如果犯第一类错误的成本很高,则选择较小的α值。
注:人们将只控制第一类错误的假设检验称为显著性检验,许多假设检验的应用都属于这一类型。

假设检验的术语

双侧检验:如果备择假设没有特定的方向性,并含有符号“≠”,这样的检验称为双尾检验。
零假设是测试版本的指标均值等于原始版本的指标均值,备择假设是测试版本的指标均值不等于原始版本的指标均值。
单侧检验:如果备择假设具有特定的方向性,并含有符号 “>” 或 “<” ,这样的检验称为单侧检验。单侧检验分为左侧检验和右侧检验。
零假设是测试版本的指标均值小于等于原始版本的指标均值,备择假设是测试版本的指标均值大于原始版本的指标均值。
检验统计量:据以对原假设和备择假设作出决策的某个样本统计量,称为检验统计量。
主要是:Z值、t值、F值、卡方值。
显著性水平:显著性水平是指当原假设实际上正确时,检验统计量落在拒绝域的概率,简单理解就是犯弃真错误的概率。这个值是我们做假设检验之前统计者根据业务情况定好的。当零假设为真时,错误拒绝零假设的临界概率,即犯第一类错误的最大概率,用α表示。
显著性水平α越小,犯第I类错误的概率自然越小,一般取值:0.01、0.05、0.1等
当给定了检验的显著水平a=0.05时,进行双侧检验的Z值为1.96,t值为 。
当给定了检验的显著水平a=0.01时,进行双侧检验的Z值为2.58 。
当给定了检验的显著水平a=0.05时,进行单侧检验的Z值为1.645 。
当给定了检验的显著水平a=0.01时,进行单侧检验的Z值为2.33
置信度:置信区间包含总体参数的确信程度,即1-α。例如:95%的置信度表明有95%的确信度相信置信区间包含总体参数(假设进行100次抽样,有95次计算出的置信区间包含总体参数)。
置信区间:包含总体参数的随机区间。
功效:正确拒绝零假设的概率,即1-β。当检验结果是不能拒绝零假设,人们又需要进行决策时,需要关注功效。功效越大,犯第二类错误的可能性越小。
临界值:与检验统计量的具体值进行比较的值。是在概率密度分布图上的分位数。这个分位数在实际计算中比较麻烦,它需要对数据分布的密度函数积分来获得。
临界区域:拒绝原假设的检验统计量的取值范围,也称为拒绝域,是由一组临界值组成的区域。如果检验统计量在拒绝域内,那么我们拒绝原假设。

p值:在零假设为真时所得到的样本观察结果或获得更极端结果的概率。也可以说,p值是当原假设为真时,错误拒绝原假设的实际概率。
左侧检验的P值为检验统计量x小于样本统计值C的概率,即:p = P( x < C)
右侧检验的P值为检验统计量x大于样本统计值C的概率,即:p = P( x > C)
双侧检验的P值为检验统计量x落在样本统计值C为端点的尾部区域内的概率的2倍,即:p = 2P( x > C) (当C位于分布曲线的右端时) 或p = 2P( X< C) (当C 位于分布曲线的左端时) 。
效应量:样本间差异或相关程度的量化指标。效应量越大,两组平均数离得越远,差异越大。如果结果具有统计显著性,那么有必要报告效应量的大小。效应量太小,意味着即使结果有统计显著性,也缺乏实用价值。

假设检验的基本步骤​

1、提出检验假设又称无效假设,符号是H0;备择假设的符号是H1 。
H0:样本与总体或样本与样本间的差异是由抽样误差引起的 ;
H1:样本与总体或样本与样本间存在本质差异;
2、选择显著性水平,预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01 。
3、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。根据资料的类型和特点,可分别选用Z检验,T检验和卡方检验等 。
4、根据样本数据计算检验统计量的具体值。
5、依据所构造的检验统计量的抽样分布和显著性水平,确定临界值和拒绝域。
6、比较检验统计量的值与临界值,如果检验统计量的值在拒绝域内,则拒绝原假设。根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到 。

假设检验的种类

主要包括:Z检验,t检验,卡方检验,F检验。

Z检验(Z test)

Z检验需要事先知道总体方差,另外,如果总体不服从正态分布,那么样本量要大于等于30,如果总体服从正态分布,那么对样本量没有要求。
Z检验用于比较样本和总体的均值是否不同或者两个样本的均值是否不同。检验统计量z值的分布服从正态分布。
由于总体方差一般都是未知的,并且Z检验只适合大样本的情况,而t检验同时适用于大样本和小样本的情况。

Z检验计算公式:

:样本均值
:待检验的总体均值(假设的总体均值)
:样本均值分布的标准差(标准误差)
:总体的标准差
n:样本容量

根据查询z值表(Z Score Table),即可查出z值,进行比对,即可做出检验。z值表如下:

如果=0.05,对于双侧检验,那么/2=0.025,1-/2=0.975,到表中找0.975,对应表的行值是1.9和列值是0.06,合计1.96即为Z在0.05显著性水平上的临界值。如果根据公式计算出来的Z值>1.96,则拒绝H0。反之接受H0。

例如:某工厂用一台机制作袋装食品,每袋的净重是一个随机变量,服从正态分布。机器运行正常时,其均值为0.5kg,标准差为0.015kg。某日工作后,检验机器是否正常,随机抽取9袋食品,称得净重为(kg):0.497、0.506、0.518、0.524、0.498、0.511、0.520、0.515、0.512,请问机器是否正常?

1.设置原假设与备择假设:
原假设H0:μ = = 0.5kg(机器正常)
备择假设H1:μ ≠ ≠ 0.5kg(机器不正常)

2.选择显著性水平:α=0.05

3.选择假设检验的方式:已知袋装食品重量服从正态分布且总体标准差已知,故选择Z检验。

4.根据样本数据计算检验统计量Z

总体均值 = 0.5kg;标准差为=0.015kg

样本均值= 0.511kg

标准差 =  0.015/3 = 0.005

计算假设检验统计量 Z = (0.511-0.5)/0.005 = 2.244

α=0.05,双侧检验故 α/2=0.025,1-α=0.975 查z值表,在表中间找到0.975,可以看到这个值对应的行值是1.9和列值是0.06,确认临界值为1.96。

2.244(z值) > 1.96(临界值),比临界值大,拒绝H0,接受H1,可以认为机器不正常。

5.确定p值,做出推断结论

Z=2.24,查z值表,在右侧找到行值2.2,在上方找到列值0.04,那么在表中间可以找到对应的数值0.9875,所以p=(1-0.9875)=0.0125。对于双侧检验,p/2=0.00625<α/2=0.025,所以落在了拒绝域中。所以拒绝H0,接受H1,可以认为机器不正常。

t 检验(t test)

t 检验是用于两个样本(或样本与群体)平均值差异程度的检验方法。它是用 t 分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。
t 检验适应于:

  • 整体呈正态分布;
  • 总体方差未知;
  • 当样本例数较小时(<30);
  • 做两样本均数比较时,还要求两样本的总体方差相等。

随着样本容量的增大(样本数量≥30),t分布逐渐接近于正态分布。此时,t检验也就近似于Z检验。下图显示了z检验和t检验适用的情况。

t 检验的用途:(1)样本均数与群体均数的比较;(2)两样本均数的比较。

单样本t检验(One Sample T-Test)

用样本均值和总体均值进行比较,来检验样本与总体之间的差异性。

t 统计量计算公式:

  • :样本均值
  • :待检验的总体均值(假设的总体均值)
  • :样本均值的标准差(标准误差)
  • S:样本的标准差(使用样本标准差代替总体标准差)
  • n:样本容量
  • n-1:自由度

配对t检验(Paired Sample T-Test)

用两个配对样本中各对观测值的差值均数和假设的差值进行比较,来检验以下几种情形: 1,同一受试对象或两个同质受试对象接受两种不同处理后的差异;2,同一受试对象接受处理前后的差异。
配对t检验的本质是先计算成对观测值之间的差异的均值,之后执行单样本t检验。

t 统计量计算公式:

  • d:每对数据的差值
  • :每对数据的差值的均值
  • :d的样本标准差

独立样本t检验(Independent Samples T-Test)

用从两个不同总体抽取出的样本的均值进行比较,来检验两个总体之间的差异性。其又分为方差相等和方差不相等这两种情况。

方差相等(Equal Variance or pooled T-Test):每组数据的样本数量相同,或者两组数据的方差相差不大。

, 

  • :两个样本的样本容量
  • 自由度:

方差不相等(Unequal Variance T-Test):每组数据的样本数量不同,并且两组数据的方差相差较大。此假设检验亦称为Welch's t-test

, 

t 假设检验的步骤:

  • 建立检验假设和确定检验水准;
  • 选定检验方法和计算检验统计量;
  • 确定P值和做出推断结论。

根据通过 t 值表(t Table , t-Distribution Table),根据左侧行值(自由度(n-1))和上方检验水准α,即可查出标准t 值,与计算出来的 t 值进行比较。

例如:一所初中女生考试成绩服从正态分布,女孩考试分数的方差(或标准差)未知。抽取10名女生的成绩:587,602,627,610,619,622,605,608,596,592。想确定女生平均考试成绩是否超过600分。

1.建立检验假设,零假设 H0:能超过600分。备择假设 H1:不能超过600分

2.确定检验水准,α=0.05

3.选定检验方法,总体标准差未知,样本数量为10,所以选择 t 检验

4.计算检验统计量

  • 平均分 :606.8
  • 待检验的总体均值:600
  • 样本的标准差S: :13.14
  • 样本容量 n:10
  • 根据通过 t 值表(t Table),第九行(自由度9),第6列(,即单侧检验α=0.05),查出标准 t = 1.833。=1.64 < =1.833,可推知 p > α=0.05。

  • 计算p值,根据(t-Distribution Table)中的计算器,输入计算的 t 值1.64,自由度9,单侧检验,显著水平0.05,可计算出p值为0.0677 > α=0.05

  • 做出判断,因为p值大于0.05,因此无法拒绝零假设,也没有足够的证据来支持这样的假设:平均来说,女孩在考试中的得分超过600分。

卡方检验

卡方检验属于非参数检验,不存在具体参数,且不需要有总体服从正态分布的假设。

假设O代表某个样本中某个类别的观察频数,E代表基于零假设计算出的期望频数,O与E之差称为残差。残差可以表示某一个类别变量观察值和期望值的偏离程度。将残差进行平方然后求和,放大残差。残差的大小是一个相对的概念。将残差平方除以期望频数使得残差太大或太小。
若k个相互独立的随机变量服从标准正态分布N(0,1)(也称独立同分布于标准正态分布),则这k个服从标准正态分布的随机变量的平方和构成一个新的随机变量,其分布称为卡方分布(chi-square distribution),自由度为k。
卡方检验分为拟合优度检验和独立性检验。

卡方分布主要用于卡方检验。主要有两种检验目的,一种是检验样本中各个类别的观察值与期望值是否有显著的不同(goodness of fit),另一种是检验样本中两个类别之间是否相互独立(independence)。

拟合优度检验(Goodness-of-Fit Test):用样本中各个变量的观察频数与期望频数进行比较,来检验总体的概率分布是否服从理论概率分布。

拟合优度检验的H0是:总体服从某个概率分布。
建立四格表,表里填写相应的观察频数和期望频数。

  • O:观察频数
  • E:期望频数

如果统计量()的值很小,说明观察频数和期望频数之间的差别不显著,统计量越大,差别越显著。

根据分布及自由度可以确定在H0假设成立的情况下获得当前检验统计量的值及更极端情况的概率P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝原假设;否则不能拒绝原假设。

独立性检验(Independence Test):用样本中两个类别型变量的观察频数与期望频数进行比较,来检验样本中两个类别型变量是否相互独立。

独立性检验的H0是:两个类别型变量相互独立。
建立列联表,一个变量作为行,另一个变量作为列。例如:(表里填写的是分别喜欢猫或狗的男女人数)

合计
207 282 489
231 242 473
合计 438 524 962

计算出期望频数,期望频数=第i行合计数*第j列合计数/样本量。(比如,喜欢猫的男性期望频数就是489*438/962=222.6。)

计算:

  • O:观察频数
  • E:期望频数
  • df:(行数 − 1)*(列数 − 1)

根据分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明两个类别变量之间有关联,应当拒绝原假设。

F检验(F test)

t检验可以用来检验单个样本的均值是否和总体一致,或者检验两个总体的均值是否一致。F检验则通过分析多个样本的方差来检验这几个样本的均值是否相同。

F检验分为方差齐性检验和方差分析。

方差齐性检验(F-Test for Equality of Variances):用从两个不同总体抽取出的样本的方差进行比较,来检验两个总体的方差是否相同。

,  是样本方差,

如果这两个样本来自于方差差不多大的总体,那么F值就会接近于1;相反,如果F值非常大,那就说明两个总体差异较大。
方差齐性检验的前提:两组样本均取自正态分布的总体。

方差分析(Analysis of Variance,ANOVA):用从两个或两个以上不同总体(各个总体的方差差不多大 )抽取出的样本的组内方差和组间方差进行比较,来检验多个总体均值的差异性。其又分为单因素方差分析和多因素方差分析。

单因素方差分析:即将多个样本之间的均方差(组间均方差)除以样本内部的均方差(组内均方差)。

,k是样本数量,N是k个样本的总观察值的数量

方差分析的前提:总体需要满足正态性和方差齐性。

AI 人工智能学习之假设检验相关推荐

  1. 超全的AI人工智能学习路线图(内含大纲+视频+工具)

    为了让自学者们得到更贴合市场.更权威的AI人工智能学习资料,我向黑马申请到了很多新视频,很骄傲能给广大自学者提供一个这样优秀的学习资源(偷笑).不用理解我整理的辛苦,不用理解我整理时累的眼角都流哈喇子 ...

  2. AI 人工智能学习路线

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到教程. 相关视频资料下载见:https://blog.csdn.net/qwxwaty/article/de ...

  3. AI人工智能学习路径图

    都看了昨天的热搜没有?韩国首位AI女主播金柱夏诞生,瞧瞧,这就是科技的力量啊!用智能代替人工解放人力,相信在未来这一定是个大的发展趋势,这时候可能就有人想要进入这个行业了,那么今天,小编就来给大家分享 ...

  4. AI 人工智能学习经典书单

    人工智能相关岗位中,涉及到的内容包含: 算法.深度学习.机器学习.自然语言处理.数据结构.Tensorflow.Python .数据挖掘.搜索开发.神经网络.视觉度量.图像识别.语音识别.推荐系统.系 ...

  5. 干货福利:AI人工智能学习资料教程包.zip

    近几年来人工智能常常成为热门议题,经久不衰. 2020年以来,在各种政策红利催化.5G商用助推.物联网.大数据.AI芯片技术大规模落地后,几乎所有人都已经笃定,人工智能就是IT人未来的新风向. 不过有 ...

  6. 【AI人工智能学习】GitHub 上适合初学者的 10 个最佳开源 AI 项目

    温馨提示:AI一定是未来程序员的出路,大家可以早点入坑. 目录 人工智能简介 GitHub 上适合初学者的 10 个最佳开源 AI 项目 Part.1 TensorFlow Part.2 PyTorc ...

  7. AI 人工智能学习之方差分析

    方差分析 方差分析(简称ANOVA),用于两个及两个以上样本均数差别的显著性检验.方差分析通过检验多个总体的均值是否相等来判断一个或多个分类型自变量对数值型因变量是否由显著影响. 它形式上是比较总体均 ...

  8. AI人工智能学习之回归分析

    回归分析 在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法.回归分析按照涉及的变量的多少,分为一元回归和多元回归分析:按 ...

  9. AI人工智能学习之激活函数

    因为数据的分布绝大多数是非线性的,一般神经网络的计算是线性的,那么引入激活函数,是在神经网络中引入非线性,就强化网络的学习能力.所以激活函数的最大特点就是非线性.而且能够使输出映射到有限区间之内,便于 ...

最新文章

  1. dataframe构建
  2. Java内存模型与指令重排
  3. [life]见证本届世界杯意大利的出局
  4. kaggle用命令提交
  5. 还是动态生成一个控件
  6. 强行更改linux服务器时间,加强Linux服务器安全的20项建议
  7. Redis面试 - 如何保证缓存与数据库的双写一致性?
  8. python通信原理_用python通过原始套接字发送scapy包
  9. linux查看共享内存max,浅析Linux的共享内存与tmpfs文件系统
  10. zf:tf7: RNN—古诗词
  11. 对比汇新云和猪八戒?
  12. 0 、 '0' 、 0 、 ’\0’ 区别
  13. k8s FailedCreatePodSandBox: Failed create pod sandbox
  14. pg安装部署linux_Linux下postgresql数据库部署与配置
  15. Alpha、Beta、RC、GA、LTS等软件各个版本号的含义
  16. mysql之第n高的薪水
  17. Linux环境下使用JFS文件系统介绍
  18. 写给当初的你,现在的我
  19. Emac的使用与编程学习笔记
  20. 华为手机升级回退_华为荣耀手机系统回退

热门文章

  1. 《小白兔到大黑牛》第十四篇Hadoop中五个进程作用
  2. TeamTalk Netlib详解
  3. 电机FOC中的坐标变换(CLARK+PARK+公式推导+仿真+C语言实现)
  4. java老师实例_java实例关于继承求实例,有关学生和老师的程序代码!望诸位软件达人帮忙,谢谢大虾!...
  5. MySQL日志(undo log 和 redo log 实现事务的原子性/持久性/一致性)
  6. 计算机体系-指令系统
  7. 卸载 Mac 默认的 Xcode 附带的 git
  8. Python:K折交叉验证,将数据集分成训练集与测试集
  9. Echarts地图版块移动位置的解决方案
  10. EBS 报表开发:标准报表Text输出改为XML输出