第五次任务之三大抽样分布

转载处：https://www.cnblogs.com/Belter/p/8280492.html

目录

分位点/分位数(Fractile)

卡方分布（χ2\chi ^{2}χ2）

t分布

F分布

三大抽样分布之间的联系

抽样分布就是统计量的分布，统计量包括均值、方差、比例，分布包括正态分布（样本容量n>30）、t分布（样本容量n<30）、卡方分布、F分布。下面从分位数、定义、性质和函数图像来介绍三大分布—卡方分布、t分布、F分布。

分位点/分位数(Fractile)

分位数是一个非常重要的概念，首先要明确的一点是分位数分的是面积。更准确的是，分位数分的是某个特定分布的概率密度函数曲线下的面积，每给定一个分位数，概率密度函数就会被该分位数一分为二。
在英语中，表示分位数的有两个词，区别如下：

As nouns the difference between fractile and quantile is that fractile is (statistics) the value of a distribution for which some fraction of the sample lies below while quantile is (statistics) one of the class of values of a variate which divides the members of a batch or sample into equal-sized subgroups of adjacent values or a probability distribution into distributions of equal probability.

来自https://wikidiff.com/fractile/quantile

四分位数（Quartiles）

四分位数是统计学里用的比较多的概念，属于quantile的一种，四分位数就是将一组数据按照从小到大排序后，均分为四部分的三个位置。

第一四分位数 (Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距（InterQuartile Range,IQR）。
确定四分位数的位置：
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示项数
举个小栗子:一组数据：1,2,3,4,5,6，先求第二四分位数Q2，如果数据个数n为奇数，取中间的那个数n+1/2，公式：如果数据个数n为偶数，取中间的两个数除以2，公式：n/2;然后求第一四分位数，(6+1)/4=1.75，Q1=10.25+20.75=1.75,；最后求第三四分位数，(6+1)×0.75=5.25，Q3=50.75+60.25=5.25

卡方分布（χ2\chi ^{2}χ2）

卡方分布是由服从标准正态分布的随机变量的平方和组成的

定义
设随机变量X1,X2,⋯ ,XnX_{1},X_{2},\cdots ,X_{n}X1,X2,⋯,Xn相互独立，都服从N(0,1)，则称，χ2=∑i=1nXi2\chi^{2}=\sum_{i=1}^{n}X_{i}^{2}χ2=i=1∑nXi2服从自由度为n的χ2\chi ^{2}χ2分布，记为χ2∼χ2(n)\chi^{2}\sim \chi^{2}(n)χ2∼χ2(n)。
性质
设χ2∼χ2(n)\chi^{2}\sim \chi^{2}(n)χ2∼χ2(n)，则
E(χ2)=nE(\chi^{2})=nE(χ2)=n，D(χ2)=2nD(\chi^{2})=2nD(χ2)=2n
χ2\chi ^{2}χ2的可加性：Y1∼χ2(n1)Y_{1}\sim \chi ^{2}(n_{1})Y1∼χ2(n1)，Y2∼χ2(n2)Y_{2}\sim \chi ^{2}(n_{2})Y2∼χ2(n2)，且Y1Y_{1}Y1与Y2Y_{2}Y2相互独立，则Y1+Y2∼χ2(n1+(n2)Y_{1}+Y_{2}\sim \chi ^{2}(n_{1}+(n_{2})Y1+Y2∼χ2(n1+(n2)，该性质可推广到有限个随机变量的情形，设Y1,Y2,⋯ ,YnY_{1},Y_{2},\cdots ,Y_{n}Y1,Y2,⋯,Yn相互独立，Yi∼χ2(ni)Y_{i}\sim \chi ^{2}(n_{i})Yi∼χ2(ni)，∑i=1mYi=χ2(∑i=1mni)\sum_{i=1}^{m}Y_{i}=\chi ^{2}(\sum_{i=1}^{m}n_{i})∑i=1mYi=χ2(∑i=1mni)。
函数图像
卡方分布的概率密度曲线如下：
密度函数的支撑集 (即使密度函数为正的自变量的集合) 为(0, +∞), 从上图可见当自由度 n 越大, 的密度曲线越趋于对称, n 越小, 曲线越不对称. 当 n = 1, 2 时曲线是单调下降趋于 0. 当 n ≥ 3时曲线有单峰, 从 0 开始先单调上升, 在一定位置达到峰值, 然后单下降趋向于 0。

t分布

t分布的推导最早由大地测量学家Friedrich Robert Helmert于1876年提出，并由数学家Lüroth证明。英国人威廉·戈塞(Willam S. Gosset)于1908年再次发现并发表了t分布，当时他还在爱尔兰都柏林的吉尼斯(Guinness)啤酒酿酒厂工作。酒厂虽然禁止员工发表一切与酿酒研究有关的成果，但允许他在不提到酿酒的前提下，以笔名发表t分布的发现，所以论文使用了“学生”(Student)这一笔名。之后t检验以及相关理论经由罗纳德·费雪(Sir Ronald Aylmer Fisher)发扬光大，为了感谢戈塞的功劳，费雪将此分布命名为学生t分布(Student's t)。

当样本容量较小，n<30时，用t统计量

定义
设X∼N(0,1)X\sim N(0,1)X∼N(0,1)，Y∼χ2(n)Y\sim \chi ^{2}(n)Y∼χ2(n)，且X和Y相互独立，则称随机变量T=XYnT=\frac{X}{\sqrt{\frac{Y}{n}}}T=nYX服从自由度n的t分布，记为T∼t(n)T\sim t(n)T∼t(n)。当n=1时，就是柯西分布。
性质
设T∼t(n)T\sim t(n)T∼t(n)，则
当n>1时，E(T)=0，当n=1时，期望不存在（参考柯西分布的期望，link）
当n>2时，D(T)=nn−2\frac{n}{n-2}n−2n，当n≤2n\leq 2n≤2时，方差不存在
函数图像

从图6中可以看到，t(1)与标准正态分布之间的差别还是比较大的，但是当自由度n趋近于无穷大时，t分布与标准正态分布没有差别（公式上的形式将变得完全相同，这里没有列出概率密度函数的公式）。较大的区别在于，当自由度n较小时，t分布比标准正态分布的尾部更宽（fatter tails），因此也比正态分布更慢的趋近于0。关于这两类分布的异同将会在后面的假设检验部分详细阐述。

F分布

F分布是由两个卡方分布组成

定义
设X∼χ2(n1)X\sim \chi ^{2}(n_{1})X∼χ2(n1)，Y∼χ2(n1)Y\sim \chi ^{2}(n_{1})Y∼χ2(n1)，且X与Y相互独立，则称随机变量F=Xn1Yn2F=\frac{\frac{X}{n_{1}}}{\frac{Y}{n_{2}}}F=n2Yn1X服从自由度为(n1n_{1}n1,n2n_{2}n2)的F分布，记为F∼F(n1,n2)F\sim F(n_{1},n_{2})F∼F(n1,n2)其中，n1n_{1}n1为第一自由度，n2n_{2}n2为第二自由度。
性质
设F∼F(n1,n2)F\sim F(n_{1},n_{2})F∼F(n1,n2)，则
函数图像

三大抽样分布之间的联系

可以展示这三大抽样分布于标准正态分布的联系，以及它们自身之间的联系：
X,Y,Z相互独立，且都服从N(0,1)分布，那么：

X2+Y2+Z2∼χ2(3)X^{2}+Y^{2}+Z^{2}\sim \chi ^{2}(3)X2+Y2+Z2∼χ2(3)
X(X2+Z2)/2∼t(2)\frac{X}{\sqrt{(X^{2}+Z^{2})/2}}\sim t(2)(X2+Z2)/2X∼t(2)
2X2Y2+Z2∼F(1,2)\frac{2X^2}{Y^{2}+Z^{2}}\sim F(1,2)Y2+Z22X2∼F(1,2)
若t∼t(n)t\sim t(n)t∼t(n)，t2∼F(1,n)t^{2}\sim F(1,n)t2∼F(1,n)
从图9可以看到，t分布和标准正态分布都是左右对称的，偏度为0（偏度为0也可能不对称），但是卡方分布和F分布都不对称，呈正偏态（右侧的尾部更长，分布的主体集中在左侧）。

也可参考：https://blog.csdn.net/anshuai_aw1/article/details/82735201