假设检验、显著性水平、P值、Z值的理解
目录
- 一、什么是假设检验
- 二、弃真错误、取伪错误
- 三、显著性水平 α\alphaα、ppp值、zzz值、置信区间、置信度的含义
- 四、原假设同备择假设是否可以互换
一、什么是假设检验
假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。
一般来说会将想要拒绝的假设设为原假设或零假设H0,想要接受的假设为备择假设H1,如何设计原假设以及备择假设可以参考文献1。
假设检验可以分为两大类:
- 单侧检验:包括左侧检验,右侧检验,比如检验男生平均身高是否大于女生。
- 双侧检验:两边都需要检验,比如男生身高是否等于女生。
二、弃真错误、取伪错误
我们通过样本数据来判断总体参数的假设是否成立,但样本时随机的,因而有可能出现小概率的错误。这种错误分两种,一种是弃真错误,另一种是取伪错误。
弃真错误也叫第I类错误或α错误:它是指原假设实际上是真的,但通过样本估计总体后,拒绝了原假设。明显这是错误的,我们拒绝了真实的原假设,所以叫弃真错误,这个错误的概率我们记为α。这个值也是显著性水平,在假设检验之前我们会规定这个概率的大小。
取伪错误也叫第II类错误或β错误:它是指原假设实际上假的,但通过样本估计总体后,接受了原假设。明显者是错误的,我们接受的原假设实际上是假的,所以叫取伪错误,这个错误的概率我们记为β。
根据以上描述,我们大概可以推出原假设一般设为想要被拒绝的假设。假如原假设备被拒绝,如果出错的话,只能犯弃真错误,而犯弃真错误的概率已经被规定的显著性水平所控制了。这样对统计者来说更容易控制,将错误影响降到最小。
三、显著性水平 α\alphaα、ppp值、zzz值、置信区间、置信度的含义
置信水平(置信度)是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。
比如小明声称他这次期末考试的总分数有95%的概率在600至650之间,这里的置信度就是95%,置信区间就是[600,650]
PPP值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。由R·A·Fisher首先提出。
PPP值(P-value)就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。如果PPP值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,PPP值越小,我们拒绝原假设的理由越充分。总之,PPP值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。
ZZZ值代表随机变量经过列维-林德伯格中心极限定理的变形后,服从标准正态分布Φ(0,1),并且Z为该标准正态分布下的新变量。在数量上表示该新变量为该标准正态分布下标准差σ=1的倍数。
通过一个例子,来阐述PPP值,ZZZ值以及显著性水平的统计含义。假设机器正常情况下,生产出的样本长度均值为u0u_{0}u0,某个批次的样本均值为x‾\overline{x}x,在显著性水平为α\alphaα时,现在我们要判断机器是否出了问题。我们构造一个中间量
z=x‾−u0σ~N(0,1)z =\frac {\overline{x} - u_0} {\sigma} ~ N(0,1)z=σx−u0~N(0,1)
让其服从均值为0,标准差为1的标准正态分布,其中 σ\sigmaσ为总体标准差。但绝大部分情况下,我们只拥有部分样本,因而需要用样本标准差去近似总体标准差。需要注意的是样本标准差公式的分母是n-1,即∑(xi−xˉ)2/(n−1)\sqrt{\sum\left(x_i-\bar{x}\right)^2/(n-1)}∑(xi−xˉ)2/(n−1);而不是总体标准差公式的n;因为拥有的样本量少,很有可能把极端的数据排除在外,导致一般样本的标准差都会小于总体,因此特地除以n-1来纠正。
我们将x‾\overline{x}x带入上式,求得ZZZ值,记为Z‾\overline{Z}Z。
假设x‾<u0\overline{x}<u_{0}x<u0,此时P值为:
Pvalue=P(z<=Z‾∣原假设成立)P_{value} = P(z<=\overline{Z}|原假设成立)Pvalue=P(z<=Z∣原假设成立)。
现在我们有两种方法来计算是否应该拒绝原假设:
- 比较PvalueP_{value}Pvalue同"显著性水平"的大小,注意该例子中,是双侧检验,因为无论是超过或者小于均值的一定范围,我们都认为是不正常的。所以将会比较PvalueP_{value}Pvalue同α/2\alpha/2α/2的大小,如果是单侧检测,则将比较PvalueP_{value}Pvalue同α\alphaα的大小。
- 比较显著性水平下对应的ZZZ值同Z‾\overline{Z}Z大小,假如Z‾\overline{Z}Z小于ZZZ,那么我们将拒绝原假设,否则,将不拒绝原假设。
下面是不同显著性水平对应的Z值
当显著水平a=0.05时,进行双侧检验的Z值为1.96。当显著水平a=0.01时,进行双侧检验的Z值为2.58。当显著水平a=0.05时,进行单侧检验的Z值为1.645。当显著水平a=0.01时,进行单侧检验的Z值为2.33。
假如说原假设是真的,那么大约有最多会有0.05的概率,统计到的样本的均值落在拒绝域。因此当原假设成立的情况下,犯第一类错误的概率最多就为0.05,因此当uuu落在其它区域时,我们将没有显著的理由拒绝原假设。从这也可以看出,假设检验其实是在检验当原假设成立,当前事件发生的概率,如果它发生的概率特征特别小,那么我们有更大的理由反推原假设不成立,即选择备择假设。
四、原假设同备择假设是否可以互换
在实际使用假设检验时,合理的设置原假设同备择假设是非常重要的,假如我们将原假设同备择假设换一下,看会发生什么情况。前面说过,我们一般会将倾向于接受的假设放在备择假设。依然以上一个例子为例,假如我们更倾向于机器坏了,此时我们提出如下的假设:
原假设:机器坏了;
备择假设:机器没坏。
显著性水平:0.05。
依然假设当前生产出的样本的均值为x‾\overline{x}x,然而此时,我们没有办法将该样本均值转换成标准正态分布,因为我们并不知道机器坏了时,它生产出的样本均值分布。因而也就没法求x‾\overline{x}x是落在了拒绝域还是接受域,也就没有办法是否应该接受原假设。
这里在给出另外一种更加直观的解释,注意前面说过,即使检验结果不显著,我们也不能说接受原假设,只能说没有显著的理由拒绝原假设。假设我们知道了机器坏了时的样本均值分布,如果结果显著,那么我们将会拒绝H0,即认为机器没坏,如果结果不显著,那么我们也不能接受H0,因此,无论如何,都不能达到我们认为机器坏了的目的。
综上,原假设同备择假设是不能随意调换。
[1]教你两招快速确定原假设和备择假设 - 应用统计索瑜老师的文章 - 知乎
[2]数据分析学习之Python-假设检验(A/B测试)
[3]百度百科——P值
[4]百度百科——假设检验
[5]假设检验中的P值
假设检验、显著性水平、P值、Z值的理解相关推荐
- Z-score(Z值)的意义--转载
http://blog.sina.com.cn/s/blog_72208a6a0101cdt1.html http://www.docin.com/p-350677620.html http://we ...
- 怎么设置html z值,Z-score(Z值)的意义--转载
http://blog.sina.com.cn/s/blog_72208a6a0101cdt1.html http://www.docin.com/p-350677620.html http://we ...
- 莫兰指数P值,Z值分析
仔细看完下面两个链接绝对可以明白.写的非常清晰. 白话空间统计之四:P值和Z得分(中) 白话空间统计之四:P值和Z得分(下) 个人理解:P值决定了数据有没有显著性,数据能不能用的问题.z值解决了在空间 ...
- 如何确定Z检验的值(查正态分布表时要注意中间的数字都是面积,最左边一列和最上面一行都是Z值)...
一.当给定了检验的显著性水平a=0.05时,如果检验时要检验是否相等,就是双侧检验,允许左右各有误差,即a/2=0.025.此时要查尾部面积是0.025时的Z值.但是我们参考书中说明表中间的数字是指从 ...
- 如何确定Z检验的值(查正态分布表时要注意中间的数字都是面积,最左边一列和最上面一行都是Z值)
一.当给定了检验的显著性水平a=0.05时,如果检验时要检验是否相等,就是双侧检验,允许左右各有误差,即a/2=0.025.此时要查尾部面积是0.025时的Z值.但是我们参考书中说明表中间的数字是指从 ...
- $query = mysql_query_关于$query=mysql_query($query);返回的是什么类型的值的问题的理解 | 学步园...
关于$query=mysql_query($query);返回的是什么类型的值的问题的理解 今天泡csdn论坛看见一贴,就是关于$query=mysql_query($query);返回的是什么类型的 ...
- String内容不能改变的理解 String的值不能修改的理解
String内容不能改变的理解 String的值不能修改的理解 java中,String类的值声明后是不能修改,有些初学者就难以理解,为什么下面程序明明是修改了String对象的内容,为什么还 ...
- 将深度缓冲z值变换到相机坐标系
将Depth Buffer中的Z值转换到Camera坐标系下需要使用投影矩阵 OpenGL: OpenGL的投影矩阵为 设Camera坐标系下点为(Vx,Vy,Vz,1.0) 通过上述投影矩阵变换后的 ...
- data的值 如何初始化vue_理解Vue响应式系统
深入理解 Vue 响应式系统 理解 Vue 响应式原理,到 computed.vuex 原理 前言 众所周知,一说到 vue 的响应式系统,就能马上想到 Object.defineProperty.数 ...
最新文章
- Linux 2 的 Windows 子系统上发布 CUDA
- Thread.sleep(0) 有什么用?
- R语言rep函数重复向量或者列表元素实战
- ssh错误 server not ready for puppeth err=“ssh: handshake failed: ssh: unable to authenticate... 解决方法
- ionic 完美仿微信摇一摇
- 07- app的弱网测试
- Nginx的Gzip和sendfile的共存问题
- 自然语言处理中的预训练模型 —— 邱锡鹏老师的演讲记录
- 没能 PK 掉 WiFi 的 Li-Fi,可能是 5G 请来的救兵
- 虚拟环境下配置拨号接入的×××
- 无法处理文件 MainForm.resx,因为它位于 Internet 或受限区域中,或者文件上具有 Web 标记。要想处理这些文件,请删除 Web 标记...
- vue base64加密对象_想加密JavaScript怎么办,试试这款加密库!
- 2019全球区块链杭州高峰论坛将于5月17日举办!
- ISO 标准是什么 RFID标准协议中 ISO18000-6B
- 关于微信公众号,无法接受服务器消息的原因
- 2019暑期集训感悟
- OWASP juice shop靶场闯关题解
- python金融大数据分析师工资待遇_国内数据分析待遇如何?
- 在配置kile5 的时候出现core.o的错误如何解决
- 关注灾情,心系九寨18