1 正态分布与Z检验

1.1 理论

Z检验的目的是为了验证:已知一个总体服从均值,方差的正态分布,现在有一些样本,这些样本所代表的总体的均值是否为

则构建一个统计量Z,

(1)

式中,为样本均值,为总体均值,为总体方差,n为样本数量。

若零假设(null hypothesis)成立,即:样本所代表的总体的均值为,则Z服从N(0, 1)。换一种说法就是统计量Z落在下图所示的标准正态分布概率密度函数的大概率区间,也就是白色区域所对应的横轴范围。

若Z落在阴影范围所对应的横轴区域,则假设不成立,阴影范围的选取与给定的显著性水平有关。

1.2 应用

工厂老板宣称生产的零件符合正态分布,质检部门抽检了100个样本,那么这些样本所代表的全部零件的均值,是否跟老板所说的正态分布均值一致。这个问题就可以通过Z检验验证,计算样本均值,将样本均值和样本数量代入式(1),看Z值落在横轴的什么区域,白色区域检验合格,黑色区域检验不合格。

2 卡方分布和卡方检验

2.1 自由度的概念

在讲卡方分布前,先要理解样本的自由度。举例说明:一个列表中有10个数字,我告诉你,这10个数字你可以随便写,那么这个列表中10个数字都是“自由的”,有10个自由度。如果我告诉你,这个列表的平均值是5,那么你前9个值你可以随便写,第10个数是固定的,因为必须满足我给定的平均值,这样一来,这个列表的自由度就是9了。

上面是一维的情况,如果推广到二维,看下面这个例子。

化妆 不化妆 总数
100
100
总数 90 110

你调查了男生、女生各100人的化妆情况,上面四个空着的格子里,你只能随便写一个,剩下的三个必须根据总数来计算,所以这个例子中,四个空着的格子是4个样本,但是只有一个样本是“自由”的,所以自由度为1。自由度的计算公式:(行数 - 1)*(列数 - 1)

更加详细的自由度解释,参见这边文章:用可视化思维解读统计自由度 - 简书

2.2 卡方分布

卡方分布定义如下

2.3 卡方检验

卡方检验的目的是为了验证。两个事物之间是否有关系,还是拿自由度那里提到的男女化妆比例的例子来讲。现在想研究男女性别和是否化妆,这两件事是否相关。

假定不相关(这个就是零假设),也就是说,化妆和不化妆的人群中,男女所占的比例是相同的。在零假设中,样本的标准值就是下面这样:

化妆 不化妆 总数
45 55 100
45 55 100
总数 90 110

随机抽样的样本结果如下

化妆 不化妆 总数
X1 X2 100
X3 X4 100
总数 90 110

X1、X2、X3、X4为4个抽样样本,其数值分别为5、95、85、15。

构建如下式所示的一个统计量

  (2)

式中, 表示第i个样本, 表示第i个样本所对应的零假设值,k为样本数量

如果零假设成立,这个统计量服从自由度为n的卡方分布,化妆问题中,自由度为1,即自由度为1的卡方分布。

把样本数据代入式(2),发现其值落在了卡方分布的概率密度函数的小概率区间(与Z检验的原理类似),所以拒绝原假设。

2.4 卡方检验与卡方分布的关系

有读者看到这里会有疑问,为什么式(2)所构建的统计量服从卡方分布?

因为 服从正态分布,也服从正态分布(正态分布的样本减去常数再除一个常数还服从正态分布),所以那个统计量就服从卡方分布啦,就是卡方分布的定义嘛!

这里再说明一个问题,为什么 是服从正态分布的?

原假设中男性化妆和不化妆啊的概率为50%,那么100个男性中化妆的男性数量就满足正态分布了,就像扔硬币的正反面,下面的python代码直观给出了图像

import random
import matplotlib.pyplot as plt
import pandas as pdplt.rcParams['font.sans-serif'] = ['SimHei']  # 防止中文标签乱码,还有通过导入字体文件的方法
plt.rcParams['axes.unicode_minus'] = Falsedef toss():# 1正面朝上return random.randint(0, 1)def toss_100_times():# 掷100次硬币正面朝上的次数times = 0for i in range(100):times += toss()return timesif __name__ == "__main__":result = []for i in range(1000):result.append(toss_100_times())count = pd.value_counts(result)count = pd.DataFrame(count)count = count.sort_index(ascending=True)labels = list(count.index)data = list(count.iloc[:, 0])plt.bar(range(len(data)), data)plt.xticks(range(len(data)), labels)plt.xlabel("100次投掷中正面朝上的硬币数")plt.ylabel("频次")plt.show()print("done")

3 t分布和t检验

3.1 t分布

3.2 t检验

t检验一方面可以理解为Z检验的扩展。Z检验中,要求总体方差已知,但是现实中往往未知。这种情况下,通过样本方差,来构造符合t分布的统计量,如式(3)所示,进行t检验。

式中,为样本均值,为总体均值,s为样本方差,n为样本数量。

为什么这个统计量符合t分布的定义?

详细的证明参见t分布是干什么用,t分布与t检验有什么不同,t检验到底在检验什么东西? - 知乎

t检验还有配对t检验、两样本t检验,这里不详述了。

4 F分布与F检验

4.1 F分布

4.2 F检验

结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验相关推荐

  1. f分布表完整图_【教育统计答疑】如何理解正态分布、均值分布、^2分布、t分布和F分布...

    许多教育统计的初学者都表示这几个分布感到学起来非常吃力,结合最近上课的体会以及答疑的情况,觉得很有必要在这里简单地对这部分内容进行澄清和梳理,以助理解. 首先,"为什么要学习这几个分布&qu ...

  2. 机械学习07: 常用统计分布:正态分布、T分布、卡方分布、F分布

    目录 1.正态分布(高斯概率密度函数和概率分布函数) 2.t分布: 3.卡方分布 4.F 分布 1.正态分布(高斯概率密度函数和概率分布函数) 正态分布(Normal distribution)又名高 ...

  3. 正态分布,二维正态分布,卡方分布,学生t分布——概率分布学习 python

    目录 基本概念 概率密度函数(PDF: Probability Density Function) 累积分布函数(CDF: Cumulative Distribution Function) 核密度估 ...

  4. 卡方分布、F分布、t分布和正态分布的关系

    这三个分布都是基于正态分布变形得到的,在实际中只能用来做假设检验.比如卡方分布(chi-square distribution, χ²-distribution,或写作χ²分布),已知样本X都是服从正 ...

  5. 连续分布——正态分布、卡方分布、t分布、F分布

    正态分布 某一地区的人群生长环境相似,我们随机选20个男性,量出他们的身高,近似地服从正态分布. 正态分布,即高斯分布,是自然界最常见的数据分布了. 用均值.标准差来确定一个正态分布概率密度图.比如N ...

  6. 正态分布/卡方分布/F分布/T分布

    正态分布: 正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ.方差为σ^2的高斯分布,记为N(μ,σ^2). ...

  7. 几大分布:正态分布、卡方分布、t分布、F分布整理

    一.正态分布 正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ.方差为σ2的高斯分布,记为N(μ,σ2).其 ...

  8. 数理统计四大分布---正态分布、卡方分布、学生t分布和F分布

    在统计学上,我们会遇到一些常见的分布,除了正态分布外,,如t检验对应的t分布,检验对应的分布,方差分析对应的F分布等.这些分布是统计学的基础,在假设检验.方差分析等领域都起着至关重要的作用.在此,我们 ...

  9. 【随机过程】t分布、卡方分布、F分布、均匀分布、正态分布、指数分布、几何分布、二项分布、泊松分布、0-1分布等分布的分布律、期望、方差和特征函数汇总

    分布 分布律或概率密度 期望 方差 特征函数 0-1分布 P(X=1)=p,P(X=0)=q,0<p<1,p+q=1P(X=1)=p,P(X=0)=q,\\0<p<1,p+q= ...

最新文章

  1. 使用MSBuild实现完整daily build流程
  2. 测试Python下载图片的三种方法
  3. 新站如何使用标签才对SEO优化更有利
  4. 第三章 笔记本电脑案例
  5. 1050 循环数组最大子段和
  6. php的冷门但是很实用的函数
  7. bzoj4195 noi2015 day1 t1
  8. php学习笔记---php调试和开发工具整理
  9. 简单实用的网游服务器架构
  10. Java 下的函数对象
  11. VMware 未能初始化监视器
  12. 中国大学MOOC行为金融学及答案
  13. Android Switch禁止手动切换状态
  14. Python中*args、**kws 理解与使用(可变参数以及关键字参数)
  15. 编写两个过滤器,一个过滤器在 web 服务时,起用 UTF-8 编码,以处理 web 服务时的乱码问题。 另一个过滤器用来判断用户是否登录,只有登录用户方可访问/view 子目录。
  16. pythoncanny边缘检测自适应阈值_基于python实现自适应阈值的canny边缘检测
  17. 改编的一个滑动门代码
  18. windows 如何批量修改文件名称-使用ren命令
  19. Linux (Ubuntu) 下 latex (xelatex) 的一个字体问题 隶书:\lishu
  20. AOI检测光学成像标准

热门文章

  1. LeetCode 416分割等和子集
  2. 半乳糖-人血清白蛋白 Gal-HSA,Gal-PEG-HSA 半乳糖修饰人血清白蛋白
  3. 如何做好微信朋友圈推广?
  4. 多元线性回归分析c语言,多元线性回归公式推导及R语言实现
  5. 2022年最新android studio连接雷电模拟器 真机调试教程
  6. jQuery实现轮播(jQuery究竟有多好用)
  7. 面向对象编程三种特性
  8. 巴西龟饲养日志----冬眠记录
  9. 以太坊Eth2 deposit merkle tree
  10. Kubernetes(1)