假设检验


1、假设检验的由来

我们先看一个例子:

那么如何检验这位女士的说法呢?FISHER进行了研究,从而提出了假设检验的思想。

比如:

正常情况下我们去猜先倒茶还是先倒牛奶的话,概率应该是1/2,

1.总共检验了两杯,全部猜对的概率是:0.5✖️0.5=0.25,虽然概率很低,但是也算正常;

2.继续猜,又猜了两次,也全部猜对了几率是=0.0625,这个概率明显是非常低了,有点不正常了,但是会不会还是运气呢?

3.我们继续猜,加大样本,如果连续猜对10杯,那么我认为这位女士确实有特殊的能力。

虽然我们上面说猜对10杯来确认这位女士有特殊能力,这只是我们的臆测,我们假设一个x,当这位女士能够猜对x杯才认为这位女士确实有特殊的能力,其实对于我们最难的是来确认着x。

下面我们就来看一下怎么样来确认这个x。

2、什么是假设检验

假设检验(Hypothesis Testing):是推断统计的最后一步,是依据一定的假设条件由样本推断总体的一种方法。

你提出你的假设:说你有特殊的能力,可以品出先倒茶还是牛奶;

我提出要检验你的假设:品十(x)杯,看实验结果是不是和你说的假设相符

假设检验的基本思想是小概率反证法思想,小概率思想认为小概率事件在一次试验中基本上不可能发生,在这个方法下,我们首先对总体作出一个假设,这个假设大概率会成立,如果在一次试验中,试验结果和原假设相背离,也就是小概率事件竟然发生了,那我们就有理由怀疑原假设的真实性,从而拒绝这一假设。

假设检验其实就是假设检验两步,先提出假设,之后再来验证假设是不是合理的。

3、P值

为了完成假设检验,需要先定义一个概念:P值。

根据上面的描述,这里假设检验的思路就是:

假设:这位女士不能准确的猜出先倒茶还是牛奶(没有确凿证据一般不推翻的假设,正常情况下我们都不能猜出先倒茶还是牛奶,所以我们假设这位女士不能准确的猜出先倒茶还是牛奶)

检验:认为假设是成立的,然后猜十次,看结果与假设是否相符

猜奶茶的实验应该符合二项分布(这就不解释了),也就是:

X~(n,)          其中,n代表猜的次数,u代表猜对的概率。

在我们认为猜之前没有泄密(也就是确实是凭自己的嗅觉去猜)的前提下,猜10次应该符合以下分布:

X~(10,0.5)

下图表示的就是,假如猜是公平的情况下的分布图:

P=  * ()* () =0.0439

也就是说猜10次能猜对8次的概率是0.0439

为了方便大家计算,附上python代码:

import operator
from functools import reduce
def c(n,k):return  reduce(operator.mul, range(n - k + 1, n + 1)) /reduce(operator.mul, range(1, k +1))def fac(n):return reduce(operator.mul, range(1,n+1))print (c(10,8))
print (fac(5))

把八次猜对概率,与更极端的九次猜对、十次猜对的概率加起来:


为什么要把更极端的情况加起来?

根据猜奶茶这个例子,可能你会觉得,我知道八次猜对出现不正常就行了,干嘛要把九次、十次加起来?

比如我们要猜1000次用二项分布来计算很麻烦,根据中心极限定理,我们知道,可以用正态分布来近似:

但是,对于正态分布,我没有办法算单点的概率(连续分布单点概率为0),我只能取一个区间来算极限,所以就取530、以及更极端的点组成的区间:

(我上面只取了单侧P值,说明下:取单侧还是双侧,取决于你的应用,什么叫做更极端的点,也取决于你的应用)

3.1、单侧检验

  • 当关键词有不得少于/低于的时候用左侧,比如灯泡的使用寿命不得少于/低于700小时时

    当关键词有不得多于/高于的时候用右侧,比如次品率不得多于/高于5%时

3.2 双侧检验

  • 单侧检验指按分布的一侧计算显著性水平概率的检验。用于检验大于、小于、高于、低于、优于、劣于等有确定性大小关系的假设检验问题。这类问题的确定是有一定的理论依据的。假设检验写作:μ1<μ2或μ1>μ2。

  • 双侧检验指按分布两端计算显著性水平概率的检验, 应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。一般假设检验写作H1:μ1≠μ2。

4、显著水平

总共猜10次,那么是出现7次猜对,可以认为有特殊能力,还是9次猜对之后我才能确认有特殊能力,这是一个较为主观的标准。

我们一般认为

P-value<=0.05

就可以认为假设是不正确的。

0.05这个标准就是显著水平,当然选择多少作为显著水平也是主观的。

比如,我们猜奶茶的例子,如果取单侧P值,那么根据我们的计算,如果10次猜对9次:

P-value=P(9<=X<=10)=0.01<=0.05

我们可以认为刚开始的假设(这位女士不能准确的猜出先倒茶还是牛奶)错的很“显著”,也就是是有特殊能力的。

5、假设检验步骤

我们回顾下我们刚才所说的,总结下:

这里简单说下检验统计量

检验统计量是用于假设检验计算的统计量。在零假设情况下,这项统计量服从一个给定的概率分布,而这在另一种假设下则不然。从而若检验统计量的值落在上述分布的临界值之外,则可认为前述零假设未必正确。统计学中,用于检验假设量是否正确的量。常用的检验统计量有t统计量,Z统计量等。

6、实例

我们这里举2个例子:

首先我们先引入一个检验统计量分布的选择规则

例1:

某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为μ=0.081mm,总体标准差为σ= 0.025 。今换一种新机床进行加工,抽取n=200个零件进行检验,得到的椭圆度为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异?(α=0.05)

我们知道总体均值和总体方差,根据上图的规则可以看出我们可以用Z统计量:

例2:

以往通过大规模调查已知某地新生儿出生体重为3.30kg。从该地难产儿中随机抽取35名新生儿,平均出生体重为3.42kg,标准差为0.40kg,问该地难产儿出生体重是否与一般新生儿体重不同?

本例自由度v=n-1=35-1=34,查表得得t0.05/2,34=2.032。 因为t < t0.05/2,34,故P>0.05,按 α=0.05水准,不拒绝H0,差别无统计学意义,尚不能认为该地难产儿与一般新生儿平均出生体重不同。

以上就是对假设检验思想的一个简单介绍,其实对于理论的介绍理解起来比较晦涩,就像我们用1+1=2很简单,要是理解1+1为什么等于2就难了。假设检验在运用的时候就像最后的两个例子,其实是很简单的,但是对于理论的理解就需要比较长的时间。

欢迎关注微信公众号:

统计学基础--假设检验相关推荐

  1. 【统计学习】概率论与统计学基础

    (1)统计及应用领域 (2)数据.预处理.图表 (3)概括性度量 1)集中趋势 2)离散趋势 3)偏态与峰态 (4)概率与概率分布 随机变量.随机事件 期望.方差 概率分布.概率密度分布 (5)统计量 ...

  2. 统计学基础学习笔记:描述统计量

    文章目录 一.统计学基础 二.描述统计量 三.数据文件 四.绘制直方图与折线图 五.数据的位置 (一)基本概念 1.样本平均数(mean) (1)算术平均数 (2)几何平均数 2.中位数(median ...

  3. 统计学中假设检验有关P值的讨论

    摘要: 统计检验能有效确定从样本统计推断至总体时所犯错误的概率,其在医学.临床试验.观察性研究方面有着重要意义.近年来期刊编辑和统计顾问越来越关注医学文献中显着性检验和P值的过度使用和误解.为了澄清对 ...

  4. 统计学基础之数据分布

    统计学基础之数据分布 学习几种常用的数据分布 1.正态分布 正态分布(Normal distribution),也称"常态分布",又名高斯分布.正态曲线呈钟型,两头低,中间高,左右 ...

  5. 5. 统计学基础2:协方差、相关系数、协方差矩阵

    文章目录 1. 协方差 2. 相关系数[就是使 |协方差|<=1] 3. 协方差矩阵 1. 协方差 标准差和方差一般是用来描述一维数据的, 具体介绍见:5. 统计学基础1:平均值-四分位数.方差 ...

  6. NumPy 快速入门系列:应用统计学基础概念、相关统计指标与NumPy的实现

    NumPy 快速入门系列:应用统计学基础概念.相关统计指标与NumPy的实现 前言: 统计学导论: 统计学定义: 统计学分类: 统计学基本概念: 统计过程: 统计指标与NumPy: 用 Python ...

  7. 统计学基础——负二项分布的数字特征

    统计学基础--负二项分布的数字特征 一.引言 二.负二项分布定义的引出与理解 2.1 实际意义 2.2 初始定义 2.3 重新定义"负"二项分布 2.3 推导前的知识准备 三.数字 ...

  8. 【大数据人工智能】统计学入门——数据科学领域最需要了解的统计学基础概念

    目录 统计学入门--数据科学领域最需要了解的统计学基础概念 什么是统计学? 数据科学入门必备统计学概念 什么是对象? 什么是总体&

  9. 统计学基础理论学习(1)

    统计学基础知识 统计学基础知识知识点包括: 1. 数据的集中趋势 在统计学中,集中趋势又叫中央趋势,表示一个机率分布的中间值. 常见的几种表示集中趋势的计量包括算数平均数,中位数及众数. 数值平均数: ...

  10. 数据分析与数据挖掘 - 05统计概率 一 统计学基础运算

    一 统计学基础运算 1 方差的计算 在统计学中为了观察数据的离散程度,我们需要用到标准差,方差等计算.我们现在拥有以下两组数据,代表着两组同学们的成绩,现在我们要研究哪一组同学的成绩更稳定一些.方差是 ...

最新文章

  1. lvs后端realserver的vip管理脚本lvs-realsvr.sh
  2. android studio无法新建工程,我刚刚升级了Android Studio3.3.2,但是我不能创建一个新的项目。这里是错误日志。我使用的开发语言是Java。...
  3. python字符串转日期_Python:将字符串时间字典转换为日期时间
  4. Java每天5道面试题,跟我走,offer有!(九)
  5. 《Redis核心技术与实战》学习总结(2)
  6. js中的extend的用法及其JS中substring与substr的区别
  7. Windows同步对象Event和Linux的条件变量
  8. GetLogicalProcessorInformation
  9. NTP组播模式配置和日志信息发送到Linux日志主机的配置
  10. crawl spider
  11. 小战Java笔记_SE_Identifier(标识符)
  12. CFA难度:特许金融分析师CFA难考吗?
  13. 谋定而后动,理想不相信热血
  14. linux+开机启动sshd_Linux sshd服务自动启动
  15. intel edison固件更新
  16. c盘满了怎么清理垃圾而不误删?C盘清理,4个方法!
  17. PN532半加密、无漏洞卡解密
  18. 成功就是一种自我满足
  19. Linux Shell脚本:探测同网段主机及对应MAC地址
  20. linux raid5 恢复,恢复磁盘阵列RAID 5损坏硬盘

热门文章

  1. 整车行业 SAP APO 开发备忘(刘欣)
  2. C语言将循环小数/有限小数转换为分数
  3. 签字后被开除_我的易到经历以及老易到员工是如何被乐视派驻高管从易到开除的...
  4. ERP - 国际贸易术语(Incoterm)总结
  5. MS SQL2000个人版安装教程(图文教程)
  6. 马云有自己的银行,为什么还要贷款?
  7. mysql 1236 bug_【转】MySQL主从失败 错误Got fatal error 1236解决方法
  8. 计算机怎么打出钱的符号,人民币符号怎么打,教您电脑怎么打人民币符号
  9. 大数据时代,你应该知道的生活真相(下)
  10. 关于我对游戏开发的理解