假设检验

  • 背景知识
    • 1. 统计分析的一些重要概念
      • 统计学目标
      • 重要概念:总体与样本
      • 统计分析
    • 2. 正态分布
      • 概率密度函数
      • 均值和方差
      • 标准化(z-score)
      • 68%(1σ1\sigma1σ) →\rightarrow→ 95%(2σ2\sigma2σ) →\rightarrow→ 99.7%(3σ3\sigma3σ)
    • 3. 抽样分布
      • 中心极限定理(central limit theorem)
      • 例子:计算样本方差时为什么是除以(n-1)
  • 假设检验
    • 目的
    • 过程
      • 1. 建立检验假设
      • 2. 确定检验标准
      • 3. 选择适合的检验统计量
      • 4. 推断
    • p value
      • 1. 意义
      • 2. 用法( 检验标准 α\alphaα )
    • 错误
      • 1. 第一类错误
      • 2. 第二类错误
      • 3. 图解(检验功效)
    • 4. 减少错误
    • 检验统计量
      • 背景
      • 1. z-test
      • 2. t-test
      • comparison
    • 应用
      • 配对样本
      • 非配对样本
        • 单体检验
        • 独立样本:
        • 等方差
        • 异方差
      • 双侧检验 vs 单侧检验
  • Reference

背景知识

1. 统计分析的一些重要概念

统计学目标

研究总体的差异,从差异中获得关于总体的信息。

  • 总体的同质性
    个体能构成总体,必定有共性。例如成年男性这个总体里,个体的身高,体重会集中在一个区域,例如:成年男性身高的均值为175cm。
  • 总体的变异
    个体与个体之间并不会完全相同,而是存在个体差异。这种差异能为我们提供一些关于这个总体的信息。例如:成年男性身高的方差为3.5cm。这个量向我们提供了关于总体的身高特征的一些更有意义的信息。

重要概念:总体与样本

  • 一般而言,总体是难以完全统计的。但是可以通过总体中的部分样本的样本统计量来推测出总体参数
  • 样本统计量总体参数的计算基本一致,不同的名称是想强调他们一个对应的是样本,一个对应的是总体。
  • 通过样本推测总体是一个非常重要且核心的统计学内容,重点关心的是总体!!对样本进行统计分析不是最终目的,而是一种推测出总体参数的手段

统计分析

  • 统计描述

    • 定义:
      用统计量来描述一批数据,以获得更多关于此数据的直观信息。(均值,方差,中位数…)
    • 集中趋势(同质性)
      均值,中位数…
    • 离散趋势(变异)
      方差(分散度),标准差…
  • 统计推断
    • 假设检验

      • 假设检验是内曼-皮尔逊提出的。内曼认为,要想让显著性检验有意义,至少要有两个可能的假设。被检验的假设为“零假设”,其他假设为“备择假设”。此处p用于检测零假设是否成立。
      • 显著性检验是费希尔提出的。目前使用的多种显著性检验方法都可以在其专著《研究工作者的统计方法》中找到。其中的核心概念是p值(判断显著性的概率),通过显著性检验可以获得三个结论:p小于通常0.01,宣布检验出一个影响因素;p大于通常0.2,影响因素即使存在也微小,不能通过当前实验检测出来;p介于两者之间,需进一步设计实验验证。当然,任何统计方法几乎都有不适用的情况。

2. 正态分布

概率密度函数

  • f(x)=1σ2πe−(x−μ)22σ2f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}f(x)=σ2π​1​e−2σ2(x−μ)2​

  • 对于连续变量(变量的取值范围是一个连续的区间)而言,区间概率才具有实际意义,点概率恒等于0。

  • 区间概率:概率密度函数在区间内积分。(曲线下面积)

均值和方差

  • 影响概率密度函数的位置和开口大小:

    • 均值: 概率密度函数取最大值处,对称轴的位置。
    • 方差(σ2\sigma^2σ2): 概率密度函数的分散程度,越大,说明变量越分散,对应的函数形状越低胖。
    • 标准差(σ\sigmaσ)

标准化(z-score)

  • 把任意正态分布转换为均值为0,方差为1的标准正态分布。

    z=x−μσz=\frac{x-\mu}{\sigma}z=σx−μ​

    其中:

    μ=1m∑i=1mxi\mu=\frac{1}{m}\sum_{i=1}^mx_iμ=m1​∑i=1m​xi​

    σ2=1m−1∑i=1m(xi−μ)2\sigma^2=\frac{1}{m-1}\sum_{i=1}^m(x_i-\mu)^2σ2=m−11​∑i=1m​(xi​−μ)2

    (见下文:计算样本方差时为什么是除以(m-1))

  • 标准化以方便统一计算:

P(x1<X<x2)=P(Z<x2−μσ)−P(Z<x1−μσ)P(x_1<X<x_2)=P(Z<\frac{x_2-\mu}{\sigma}) -P(Z<\frac{x_1-\mu}{\sigma})P(x1​<X<x2​)=P(Z<σx2​−μ​)−P(Z<σx1​−μ​)

(右边两项的值查表可知)

68%(1σ1\sigma1σ) →\rightarrow→ 95%(2σ2\sigma2σ) →\rightarrow→ 99.7%(3σ3\sigma3σ)

μ±1σ\mu\pm1\sigmaμ±1σ :

  • 积分占68%的面积.
  • P(μ−σ<X<μ+σ)=0.68P(\mu-\sigma<X<\mu+\sigma)=0.68P(μ−σ<X<μ+σ)=0.68.
  • 68%的样本值集中在离均值一个标准差之内的范围里.

μ±2σ\mu\pm2\sigmaμ±2σ 和 μ±3σ\mu\pm3\sigmaμ±3σ 同上。

3. 抽样分布

中心极限定理(central limit theorem)


无论总体的原始分布是什么,只要从总体中抽样出足够多的样本(一般 n>30n>30n>30),则其计算出的样本均值(是一种样本统计量)满足正态分布。
且如果总体的均值为μ\muμ, 标准差为σ\sigmaσ,则由抽样样本计算出的样本均值 Xˉ\bar{X}Xˉ 服从 N(μ,σn)N(\mu,\frac{\sigma}{\sqrt{n}})N(μ,n​σ​)。

XXX: 总体。

μ,σ\mu,\sigmaμ,σ: 总体的均值和标准差。

nnn: 一个样本中个体的数目。

Xˉ\bar{X}Xˉ: 样本均值。

SSS: 样本标准差。

E(X)=μE(X)=\muE(X)=μ

E(Xˉ)=μE(\bar{X})=\muE(Xˉ)=μ ( 注意:这里是样本均值的均值

D(Xˉ)=σnD(\bar{X})=\frac{\sigma}{\sqrt{n}}D(Xˉ)=n​σ​ ( 注意:这里是样本均值的标准差。我们只关心样本统计量的分布,即抽样分布,而不关心样本的分布。)

例子:计算样本方差时为什么是除以(n-1)

  • 目标:
    样本的均值和标准差 →\rightarrow→ 总体的均值和标准差

  • 重要估计原则之一:
    无偏:样本估计值在总体真实值的上下波动。

  • 除以n的问题:

由 ∑i=1n(xi−xˉ)2<∑i=1n(xi−μ)2\sum_{i=1}^n(x_i-\bar{x})^2<\sum_{i=1}^n(x_i-\mu)^2∑i=1n​(xi​−xˉ)2<∑i=1n​(xi​−μ)2 (推导得出,见下)

可推导出:

1n∑i=1n(xi−xˉ)2<1n∑i=1n(xi−μ)2\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2<\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2n1​∑i=1n​(xi​−xˉ)2<n1​∑i=1n​(xi​−μ)2

违背了无偏的原则,为了纠正,通过计算有:

∑i=1n(xi−xˉ)2=n−1n∑i=1n(xi−μ)2\sum_{i=1}^n(x_i-\bar{x})^2=\frac{n-1}{n}\sum_{i=1}^n(x_i-\mu)^2∑i=1n​(xi​−xˉ)2=nn−1​∑i=1n​(xi​−μ)2

因此,求样本方差时:

S=1n−1∑i=1n(xi−xˉ)2S=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2S=n−11​∑i=1n​(xi​−xˉ)2

或者,

S=1n∑i=1n(xi−μ)2S=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2S=n1​∑i=1n​(xi​−μ)2

(样本均值和总体均值所引起的不同)

具体推导过程请参考这里

假设检验

有了基本的关于总体 vs. 样本,正态分布,抽样分布等概念以后,假设检验理解起来会更加容易。

目的

为了验证一个猜想,我们可以提出一个假设。计算在这个假设成立的前提下,我们观察到的发生的事件的概率。若概率很小,说明基于现实发生的事件,这个假设很可能不成立,拒绝这个假设;若概率较大,则不能拒绝这个假设。(类似反证法)
例如:
发生事件:我有一枚硬币,投掷10次,1次正面朝上。
猜想:这枚硬币不均匀,正反面概率不相等。
零假设:硬币均匀,正反面概率相等。
计算:在硬币均匀的情况下,投掷10次, 1次或0次正面向上的概率。
通过计算得到P = P(投掷10次,1次正面朝上) + P(投掷10次,0次正面朝上)
p value:发生的事件和更罕见的事件的概率和
分析:P和检验标准 α\alphaα 比较,以决定是否拒绝零假设。

过程

1. 建立检验假设

  • 零假设(H0H_0H0​):“没有差异” “无效” “相互独立”
  • 备择假设(H1H_1H1​):

2. 确定检验标准

  • 定义小概率事件的阈值:α\alphaα
  • 概率小于 α\alphaα 的事件被认为不可能发生。

3. 选择适合的检验统计量

  • 大样本,σ\sigmaσ已知:z−testz-testz−test
  • 样本数目较小,σ\sigmaσ未知: t−testt-testt−test
    (具体分析见后文)

4. 推断

  • 由计算出的score求得相应的p value
  • 对比p value和检验标准 α\alphaα
  • 拒绝 or 接受零假设

p value

1. 意义

  • p value并不是一个点概率,而是一个区间概率。因为对于连续变量,点概率为0。
  • 代表了H0H_0H0​成立的情况下,获得现在和更极端样本的概率
  • 代表了H0H_0H0​成立的情况下,发生现在观测到的事件和更罕见的事件的概率和
  • 例子:
    p value: 硬币均匀的情况下(H0H_0H0​),投掷10次,正面朝上的次数小于等于1的概率。

2. 用法( 检验标准 α\alphaα )

  • p value越小,H0H_0H0​成立的情况下,越难获得现在和更极端的样本。说明基于已有的数据,H0H_0H0​更有可能不成立,倾向于拒绝H0H_0H0​。
  • α\alphaα: 小概率事件的概率阈值,检验标准。若p value比 α\alphaα 小,说明 H0H_0H0​ 成立的情况下,获得现在和更极端的样本是一个小概率事件,基本不可能发生。但是现在发生了,反推说明H0H_0H0​可能不成立。

错误

1. 第一类错误

若把零假设 H0H_0H0​ 假设成立看作是阴性(“没有差异” “无效” “相互独立”),备择假设 H1H_1H1​看作是阳性,则:

  • 第一类错误:False Positive
    H0H_0H0​ 原本成立,但是因为抽样获得的样本和更极端的样本,在H0H_0H0​ 对应的分布下计算出的概率较低,我们错误地拒绝了 H0H_0H0​ 。
  • α\alphaα :若拒绝 H0H_0H0​ 假设,犯错第一类错误的最大允许概率。

2. 第二类错误

  • 第二类错误: False Negative
    H0H_0H0​ 原本不成立,但是因为真实概率分布和 H0H_0H0​的概率分布有重叠,导致从真实分布中抽样获得的样本和更极端的样本,离零假设分布的距离比较近,计算出的概率高,因此我们错误地接受了 H0H_0H0​ 。

3. 图解(检验功效)

  • 检验功效(power):

    • 1−β1-\beta1−β
    • 不犯第二类错误的概率
    • 真实概率分布与零假设对应的概率分布重叠得越少,越不容易犯第二类错误,检验功效越大。

4. 减少错误

  • 调整 α\alphaα :
    可减少一类错误,但同时会增加另外一类错误发生的概率。

  • 增加样本量:

    • 可同时减小第一、二类错误

    • 原理:D(Xˉ)=SnD(\bar{X})=\frac{S}{\sqrt{n}}D(Xˉ)=n​S​ (标准误:样本统计量的标准差,可以通过 【样本标准差÷\div÷样本的个体数目开根】获得)

      增大样本量 n 可以减少样本统计量的分散度。若 H0H_0H0​ 不成立,那么分散度的减小意味着使真实分布和 H0H_0H0​分布的重叠部分变小。

检验统计量

背景

  • 本质是样本统计量,用来对原假设和备择假设做出决策。

  • 是对总体参数的点估计量
    基于总体的一个样本计算得到的。若抽样 k 个样本,每个样本都会产生一个样本统计量,这些统计量(点)会服从一个抽样分布。

  • 点估计量不能直接作为检验的统计量,只有将其标准化后,才能用于度量它与原假设的参数值之间的差异程度。

  • 把估计值(样本统计量)和假设值(零假设对应的总体参数)之间的差异标准化。
    如果样本真的是从零假设所对应的分布中抽样得到,那么样本统计量应该服从N(μ,σ/n)N(\mu,\ \sigma/\sqrt{n})N(μ, σ/n​)。
    标准化后得到的score可以用于表示样本统计量和这个应该服从的分布的差异。差异越大,说明样本统计量很大可能并不符合N(μ,σ/n)N(\mu,\ \sigma/\sqrt{n})N(μ, σ/n​)。也就可以推出,样本可能并不是从假设分布中抽样得出,即假设可能不成立。

1. z-test

  • 用标准z变换来标准化点估计量和假设值之间的差异

  • Z=样本统计量−假设分布的对应统计量标准误Z=\frac{样本统计量-假设分布的对应统计量}{标准误}Z=标准误样本统计量−假设分布的对应统计量​

  • z变换适用于已知总体的标准差 σ\sigmaσ。可用总体的标准差来估计样本统计量的标准误。

  • 例如:
    Z=Xˉ−μσ/nZ=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}Z=σ/n​Xˉ−μ​

2. t-test

  • 用t检验公式来标准化点估计量和假设值之间的差异
  • t=样本统计量−假设分布的对应统计量标准误t=\frac{样本统计量-假设分布的对应统计量}{标准误}t=标准误样本统计量−假设分布的对应统计量​
  • t变换适用于未知总体的标准差 σ\sigmaσ。此时,可用样本的标准差S来估计样本统计量的标准误。
  • 当样本量较小时(一个样本包含的个体数 <<< 30),用 t 检验可以缓解小数据量带来的分散度比实际偏大的问题。(t检验使用自由度来平衡,自由度小时,对应的只是抽样分布会更胖,以匹配小样本计算出的标准误偏大的问题)
  • 当样本量足够大时,由样本计算得到的样本统计量的分散度会与真实的抽样分布相当,因此直接用标准 z 变换即可,不用再使用 t 的自由度去平衡小样本带来的误差。
  • 例如:
    t=Xˉ−μS/nt=\frac{\bar{X}-\mu}{S/\sqrt{n}}t=S/n​Xˉ−μ​

comparison

应用

配对样本

  • 配对的两个样本,两个样本中的个体一一对应。
  • 零假设:差的均值服从均值为0的正态分布。
  • 样本统计量:两个样本的对应个体的差的均值
    • di=samplei,after−samplei,befored_i=sample_{i,after}-sample_{i,before}di​=samplei,after​−samplei,before​

    • dˉ=1n∑i=1ndi\bar{d}=\frac{1}{n}\sum_{i=1}^n d_idˉ=n1​∑i=1n​di​ (关心的统计量)

    • dˉ\bar{d}dˉ的标准差:S/nS/\sqrt{n}S/n​

    • t=Xˉ−μS/n=XˉS/n∼t(n−1)t=\frac{\bar{X}-\mu}{S/\sqrt{n}}=\frac{\bar{X}}{S/\sqrt{n}}\sim t(n-1)t=S/n​Xˉ−μ​=S/n​Xˉ​∼t(n−1)

非配对样本

单体检验
  • 单一样本的假设检验
  • 检验单一样本的样本统计量与期望值是否相符
  • 计算样本均值和标准误,检验样本均值和期望的抽样分布间的差异
  • t=Xˉ−μS/n∼t(n−1)t=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)t=S/n​Xˉ−μ​∼t(n−1)
独立样本:
  • 独立从两个分布中抽样出来的两个样本,数量不用匹配。
  • 检验两个样本对应的两个抽样分布的期望是否相同。
等方差
  • 两个样本的标准差相等。
  • 自由度为n1+n2−2n_1+n_2-2n1​+n2​−2

异方差
  • 两个样本的标准差不同

双侧检验 vs 单侧检验

  • 双侧检验:无先验知识,更保守,完全反映数据的差异。
  • 单侧检验:有先验知识,已知数据走向。

Reference

浅显易懂的统计学讲解:https://www.zhihu.com/people/xiao-he-29-78-48/posts?page=1
z&t: https://www.jianshu.com/p/c3cffe4a4e84
z&t 图: https://blog.csdn.net/tianguiyuyu/article/details/80789856
https://zhuanlan.zhihu.com/p/145473420
单体与双体检验: http://www.algorithmdog.com/%E7%BB%9F%E8%AE%A1%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C%E4%B8%80t%E6%A3%80%E9%AA%8C
https://www.jianshu.com/p/46d9b111dffc

从头到尾理解假设检验相关推荐

  1. 如何理解假设检验中的假设设计?

    如何理解假设检验中的假设设计? 文章目录 如何理解假设检验中的假设设计? 举例 例1 假设检验中的两种错误 P 值的意义 P 值的计算 拒绝还是非拒绝的条件 先算T值 **适用于两尾备择假设的规则** ...

  2. 如何理解假设检验中的alpha值和p值

    如何理解假设检验中的alpha值和p值 什么是假设检验 假设检验的步骤 假设检验中的两个假设 确立原假设与备择假设时应遵循的最简单原则: 确立原假设与备择假设时应遵循的两个基本原则 假设检验的原则 α ...

  3. 统计|如何理解假设检验中单侧检验与双侧检验

    本博文源于<商务统计>.旨在讲述单侧检验与双侧检验的理解.假设检验的本质是根据小概率原理.小概率的事件不应该发生的事情竟然发生了,所以里面有猫腻.如何理解这两种呢?就需要借助一个例子. 双 ...

  4. 如何理解假设检验、P值?

    本文转载自微信公众号:马同学高等数学 讲概率.论统计,肯定要从抛硬币说起啊,这才是正确打开姿势嘛. 1 什么是假设检验? 你说你的硬币是公平的,也就是"花"和"字&quo ...

  5. 深入理解假设检验的两类错误和功效

    假设包含原假设Null Hypothesis和备择假设Alternative Hypothesis,原假设也称为零假设,记为 H 0 H_0 H0​,备择假设也称为对立假设,记为 H a H_a Ha ...

  6. 从头到尾理解KMP算法

    转自http://saturnman.blog.163.com/blog/static/5576112010969957130/ KMP算法解决的问题是字符匹配,是由Knuth–Morris–Prat ...

  7. 理解假设检验: 统计学意义上的显著性水平 (Alpha) 和P值

    Understanding Hypothesis Tests: Significance Levels (Alpha) and P values in Statistics

  8. 概率统计:第八章:假设检验

    第八章:假设检验 内容提要: 1.  在总体的分布函数完全未知或只知其形式,但不知其参数的情况下,为了推断总体的某些未知特性,提出某些关于总体的假设,然后根据样本对所提出的假设作出是接受还是拒绝的决策 ...

  9. 概论_第8章_假设检验的基本步骤__假设检验的类型

    一. 假设检验的基本步骤 如下: 第1步 根据实际问题提出原假设 及备择假设 , 要求 与 有且仅有一个为真: 第2步 选取适当的检验统计量, 并在原假设 成立的条件下确定该检验统计量的分布: 第3步 ...

最新文章

  1. Linux内核网络栈1.2.13-socket.c函数概述
  2. 从V.C.Space抄来的
  3. protobuf 下载、安装、编译
  4. 离散元 python_离散元在土木工程领域的应用前景如何?
  5. 好东西,将你的英文版TFS变为中文版?:Visual Studio 2005 Team Foundation Server 语言更改包...
  6. Activity与Fragment的onActivityResult细节
  7. 数据转换成json传递
  8. Codeforces Round #698 (Div. 2) (思维)
  9. 一个非常好用的文字滚动的案例,鼠标悬浮可暂停
  10. windows版redis报错:本地计算机上的Redis服务启动后停止
  11. DOM学习之获取元素及事件基础(附实例、源码)
  12. 图像坐标系与世界坐标系的变
  13. xmapp启动数据库问题记录 Access denied for user ‘me‘@‘localhost‘ (using password: NO)
  14. php 入库验证,mayfish 数据入库验证代码
  15. 云服务器win10系统初始密码,win10忘记系统密码?教你重置-
  16. 八、服务器【Ubuntu】GPU-TeslaP100部署
  17. 第十三章 相关方管理 权利利益方格 凸显模式 相关方立方体 相关方登记册 相关方参与评估矩阵
  18. cad调了比例因子没反应_天正CAD标注比例大小调整方法
  19. 【WiFi破解】WiFi密码不知道了怎么办,一行代码轻松破解
  20. 【网页制作】制作静态钟表

热门文章

  1. 如何度过有用的每一天
  2. cad隐藏图层命令快捷键_Auto CAD如何快速隐藏图层,快捷键是什么?
  3. 用css实现文字抖动特效
  4. 网站防篡改小工具使用方法
  5. 一分二网线连接器正确使用方法
  6. 数据可视化的实现技术和工具比较(HTML5 canvas(Echart)、SVG、webGL等等)
  7. html5密码确认属性,HTML5表单及其验证【html自带属性验证】
  8. 入门互联网IT行业就业前景如何?
  9. Domoticz-Dummy(虚拟传感器)
  10. WSO2 文件上传 (CVE-2022-29464)漏洞复现