结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验
1 正态分布与Z检验
1.1 理论
Z检验的目的是为了验证:已知一个总体服从均值,方差的正态分布,现在有一些样本,这些样本所代表的总体的均值是否为。
则构建一个统计量Z,
(1)
式中,为样本均值,为总体均值,为总体方差,n为样本数量。
若零假设(null hypothesis)成立,即:样本所代表的总体的均值为,则Z服从N(0, 1)。换一种说法就是统计量Z落在下图所示的标准正态分布概率密度函数的大概率区间,也就是白色区域所对应的横轴范围。
若Z落在阴影范围所对应的横轴区域,则假设不成立,阴影范围的选取与给定的显著性水平有关。
1.2 应用
工厂老板宣称生产的零件符合正态分布,质检部门抽检了100个样本,那么这些样本所代表的全部零件的均值,是否跟老板所说的正态分布均值一致。这个问题就可以通过Z检验验证,计算样本均值,将样本均值和样本数量代入式(1),看Z值落在横轴的什么区域,白色区域检验合格,黑色区域检验不合格。
2 卡方分布和卡方检验
2.1 自由度的概念
在讲卡方分布前,先要理解样本的自由度。举例说明:一个列表中有10个数字,我告诉你,这10个数字你可以随便写,那么这个列表中10个数字都是“自由的”,有10个自由度。如果我告诉你,这个列表的平均值是5,那么你前9个值你可以随便写,第10个数是固定的,因为必须满足我给定的平均值,这样一来,这个列表的自由度就是9了。
上面是一维的情况,如果推广到二维,看下面这个例子。
化妆 | 不化妆 | 总数 | |
男 | 100 | ||
女 | 100 | ||
总数 | 90 | 110 |
你调查了男生、女生各100人的化妆情况,上面四个空着的格子里,你只能随便写一个,剩下的三个必须根据总数来计算,所以这个例子中,四个空着的格子是4个样本,但是只有一个样本是“自由”的,所以自由度为1。自由度的计算公式:(行数 - 1)*(列数 - 1)
更加详细的自由度解释,参见这边文章:用可视化思维解读统计自由度 - 简书
2.2 卡方分布
卡方分布定义如下
2.3 卡方检验
卡方检验的目的是为了验证。两个事物之间是否有关系,还是拿自由度那里提到的男女化妆比例的例子来讲。现在想研究男女性别和是否化妆,这两件事是否相关。
假定不相关(这个就是零假设),也就是说,化妆和不化妆的人群中,男女所占的比例是相同的。在零假设中,样本的标准值就是下面这样:
化妆 | 不化妆 | 总数 | |
男 | 45 | 55 | 100 |
女 | 45 | 55 | 100 |
总数 | 90 | 110 |
随机抽样的样本结果如下
化妆 | 不化妆 | 总数 | |
男 | X1 | X2 | 100 |
女 | X3 | X4 | 100 |
总数 | 90 | 110 |
X1、X2、X3、X4为4个抽样样本,其数值分别为5、95、85、15。
构建如下式所示的一个统计量:
(2)
式中, 表示第i个样本, 表示第i个样本所对应的零假设值,k为样本数量
如果零假设成立,这个统计量服从自由度为n的卡方分布,化妆问题中,自由度为1,即自由度为1的卡方分布。
把样本数据代入式(2),发现其值落在了卡方分布的概率密度函数的小概率区间(与Z检验的原理类似),所以拒绝原假设。
2.4 卡方检验与卡方分布的关系
有读者看到这里会有疑问,为什么式(2)所构建的统计量服从卡方分布?
因为 服从正态分布,也服从正态分布(正态分布的样本减去常数再除一个常数还服从正态分布),所以那个统计量就服从卡方分布啦,就是卡方分布的定义嘛!
这里再说明一个问题,为什么 是服从正态分布的?
原假设中男性化妆和不化妆啊的概率为50%,那么100个男性中化妆的男性数量就满足正态分布了,就像扔硬币的正反面,下面的python代码直观给出了图像
import random
import matplotlib.pyplot as plt
import pandas as pdplt.rcParams['font.sans-serif'] = ['SimHei'] # 防止中文标签乱码,还有通过导入字体文件的方法
plt.rcParams['axes.unicode_minus'] = Falsedef toss():# 1正面朝上return random.randint(0, 1)def toss_100_times():# 掷100次硬币正面朝上的次数times = 0for i in range(100):times += toss()return timesif __name__ == "__main__":result = []for i in range(1000):result.append(toss_100_times())count = pd.value_counts(result)count = pd.DataFrame(count)count = count.sort_index(ascending=True)labels = list(count.index)data = list(count.iloc[:, 0])plt.bar(range(len(data)), data)plt.xticks(range(len(data)), labels)plt.xlabel("100次投掷中正面朝上的硬币数")plt.ylabel("频次")plt.show()print("done")
3 t分布和t检验
3.1 t分布
3.2 t检验
t检验一方面可以理解为Z检验的扩展。Z检验中,要求总体方差已知,但是现实中往往未知。这种情况下,通过样本方差,来构造符合t分布的统计量,如式(3)所示,进行t检验。
式中,为样本均值,为总体均值,s为样本方差,n为样本数量。
为什么这个统计量符合t分布的定义?
详细的证明参见t分布是干什么用,t分布与t检验有什么不同,t检验到底在检验什么东西? - 知乎
t检验还有配对t检验、两样本t检验,这里不详述了。
4 F分布与F检验
4.1 F分布
4.2 F检验
结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验相关推荐
- f分布表完整图_【教育统计答疑】如何理解正态分布、均值分布、^2分布、t分布和F分布...
许多教育统计的初学者都表示这几个分布感到学起来非常吃力,结合最近上课的体会以及答疑的情况,觉得很有必要在这里简单地对这部分内容进行澄清和梳理,以助理解. 首先,"为什么要学习这几个分布&qu ...
- 机械学习07: 常用统计分布:正态分布、T分布、卡方分布、F分布
目录 1.正态分布(高斯概率密度函数和概率分布函数) 2.t分布: 3.卡方分布 4.F 分布 1.正态分布(高斯概率密度函数和概率分布函数) 正态分布(Normal distribution)又名高 ...
- 正态分布,二维正态分布,卡方分布,学生t分布——概率分布学习 python
目录 基本概念 概率密度函数(PDF: Probability Density Function) 累积分布函数(CDF: Cumulative Distribution Function) 核密度估 ...
- 卡方分布、F分布、t分布和正态分布的关系
这三个分布都是基于正态分布变形得到的,在实际中只能用来做假设检验.比如卡方分布(chi-square distribution, χ²-distribution,或写作χ²分布),已知样本X都是服从正 ...
- 连续分布——正态分布、卡方分布、t分布、F分布
正态分布 某一地区的人群生长环境相似,我们随机选20个男性,量出他们的身高,近似地服从正态分布. 正态分布,即高斯分布,是自然界最常见的数据分布了. 用均值.标准差来确定一个正态分布概率密度图.比如N ...
- 正态分布/卡方分布/F分布/T分布
正态分布: 正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ.方差为σ^2的高斯分布,记为N(μ,σ^2). ...
- 几大分布:正态分布、卡方分布、t分布、F分布整理
一.正态分布 正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ.方差为σ2的高斯分布,记为N(μ,σ2).其 ...
- 数理统计四大分布---正态分布、卡方分布、学生t分布和F分布
在统计学上,我们会遇到一些常见的分布,除了正态分布外,,如t检验对应的t分布,检验对应的分布,方差分析对应的F分布等.这些分布是统计学的基础,在假设检验.方差分析等领域都起着至关重要的作用.在此,我们 ...
- 【随机过程】t分布、卡方分布、F分布、均匀分布、正态分布、指数分布、几何分布、二项分布、泊松分布、0-1分布等分布的分布律、期望、方差和特征函数汇总
分布 分布律或概率密度 期望 方差 特征函数 0-1分布 P(X=1)=p,P(X=0)=q,0<p<1,p+q=1P(X=1)=p,P(X=0)=q,\\0<p<1,p+q= ...
最新文章
- 使用MSBuild实现完整daily build流程
- 测试Python下载图片的三种方法
- 新站如何使用标签才对SEO优化更有利
- 第三章 笔记本电脑案例
- 1050 循环数组最大子段和
- php的冷门但是很实用的函数
- bzoj4195 noi2015 day1 t1
- php学习笔记---php调试和开发工具整理
- 简单实用的网游服务器架构
- Java 下的函数对象
- VMware 未能初始化监视器
- 中国大学MOOC行为金融学及答案
- Android Switch禁止手动切换状态
- Python中*args、**kws 理解与使用(可变参数以及关键字参数)
- 编写两个过滤器,一个过滤器在 web 服务时,起用 UTF-8 编码,以处理 web 服务时的乱码问题。 另一个过滤器用来判断用户是否登录,只有登录用户方可访问/view 子目录。
- pythoncanny边缘检测自适应阈值_基于python实现自适应阈值的canny边缘检测
- 改编的一个滑动门代码
- windows 如何批量修改文件名称-使用ren命令
- Linux (Ubuntu) 下 latex (xelatex) 的一个字体问题 隶书:\lishu
- AOI检测光学成像标准