数理统计复习笔记一——统计中常用的抽样分布(卡方分布,t分布,F分布)
前言:
总结一下数理统计中的基本概念,一些用python的实现在这里。不断持续更新。
1. 几个基本概念
1.1 次序统计量
1.2 样本偏度与样本峰度
1.3 经验分布函数
1.4 抽样分布
2. 统计中的常用分布
2.1 卡方分布
2.2 t 分布
2.3 F分布
3. 指数型分布族(和广义线性模型有关)
4. 点估计
4.1 极大似然估计
5. 区间估计
5.1 几个基本概念
6. 假设检验——显著性检验
6.1 几个基本概念
6.2 求取某假设的显著性检验的步骤
6.3 似然比检验
6.4 p值
1. 几个基本概念:
1.1 次序统计量:
设X1,X2,⋯,XnX_1, X_2, \cdots , X_nX1,X2,⋯,Xn为样本,把X1,X2,…,XnX_1, X_2, …, X_nX1,X2,…,Xn由小到大排列成X(1)≤⋯≤X(n)X_{(1)}\le\cdots\le X_{(n)}X(1)≤⋯≤X(n),则称(X(1),⋯,X(n))(X_{(1)}, \cdots, X_{(n)})(X(1),⋯,X(n))为次序统计量,X(i)X_{(i)}X(i)则成为第iii个次序统计量。
样本ppp分位数:对于给定的p∈(0,1)p \in (0, 1)p∈(0,1),我们称:mn,p=X([np])+(n+1)(p−[np]n+1)(X([np]+1)−X([np]))(1)m_n,_p=X_{([np])}+(n+1)(p-\frac{[np]}{n+1})(X_{([np]+1)}-X_{([np])}) \tag1mn,p=X([np])+(n+1)(p−n+1[np])(X([np]+1)−X([np]))(1)为此样本的ppp分位数. 特别的,样本中位数定义为:Xmed={X(n+12)n为奇数X(n2)+X(n2+1)2n为偶数(2)X_{med} =\begin{cases}X_{(\frac{n+1}{2})}&n为奇数\\\\\frac{X_{(\frac{n}{2})}+X_{(\frac{n}{2}+1)}}{2}&n为偶数\end{cases}\tag2Xmed=⎩⎪⎨⎪⎧X(2n+1)2X(2n)+X(2n+1)n为奇数n为偶数(2)
极值统计量:称X(1)X_{(1)}X(1)和X(n)X_{(n)}X(n)为极小值和极大值统计量.
极差:R=X(n)−X(1)R=X_{(n)}-X_{(1)}R=X(n)−X(1)
1.2 样本偏度与样本峰度:
- 样本偏度:n∑i=1n(Xi−Xˉ)3[∑i=1n(Xi−Xˉ)2]32\frac{\sqrt{n}\sum\limits_{i=1}^n(X_i-\bar{X})^3}{[\sum\limits_{i=1}^n(X_i-\bar{X})^2]^{\frac{3}{2}}}[i=1∑n(Xi−Xˉ)2]23ni=1∑n(Xi−Xˉ)3,可以用来度量随机变量概率分布的不对称性。大于0时,概率分布图右偏;小于0时,概率分布图左偏。
- 样本峰度:n∑i=1n(Xi−Xˉ)4[∑i=1n(Xi−Xˉ)2]2−3\frac{n\sum\limits_{i=1}^n(X_i-\bar{X})^4}{[\sum\limits^n_{i=1}(X_i-\bar{X})^2]^2}-3[i=1∑n(Xi−Xˉ)2]2ni=1∑n(Xi−Xˉ)4−3,用来度量随机变量概率分布的陡峭程度。峰度值越大,概率分布图越高尖,峰度值越小,越矮胖。
- 详见偏态分布学习笔记(期望,中位数,众数)
1.3 经验分布函数:
设X1,⋯,XnX_1, \cdots, X_nX1,⋯,Xn为取自总体的分布函数为F(x)F(x)F(x)的样本,X(1)≤⋯≤X(n)X_{(1)}\le\cdots\le X_{(n)}X(1)≤⋯≤X(n)为其次序统计量,则称:Fn(x)=1n∑i=1nI{Xi<x}={0x≤X(1)knX(k)<x≤X(k+1),k=1,⋯,n−11x>X(n)(3)F_n(x)=\frac{1}{n}\sum\limits_{i=1}^nI_{\{X_i\lt x\}}=\begin{cases}0 &x\le X_{(1)}\\\frac{k}{n} &X_{(k)}\lt x\le X_{(k+1)}, k=1, \cdots , n-1\\1 &x\gt X_{(n)}\end{cases}\tag3Fn(x)=n1i=1∑nI{Xi<x}=⎩⎪⎨⎪⎧0nk1x≤X(1)X(k)<x≤X(k+1),k=1,⋯,n−1x>X(n)(3)为样本X1,⋯,XnX_1, \cdots, X_nX1,⋯,Xn的经验分布函数。
1.4 抽样分布:
统计量是作为随机变量的样本的函数,故它也有概率分布,于是我们称统计量的概率分布为该统计量的抽样分布。
- 一个重要的抽样分布:设X1,⋯,XnX_1, \cdots, X_nX1,⋯,Xn为来自N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2)的IIDIIDIID样本,则由概率论的知识可知Xˉ∼N(μ,σ2n)\bar{X}\sim N(\mu, \frac{\sigma^2}{n})Xˉ∼N(μ,nσ2)
2. 统计中的常用分布:
2.1 卡方分布:
设X1,⋯,Xn∼N(0,1)X_1, \cdots, X_n\sim N(0, 1)X1,⋯,Xn∼N(0,1)且是独立同分布的,则称随机变量ξ=∑i=1nXi2(4)\xi =\sum\limits_{i=1}^nX_i^2\tag4ξ=i=1∑nXi2(4)所服从的分布为自由度为nnn的χ2\chi^2χ2分布,也称ξ\xiξ为自由度为nnn的χ2\chi^2χ2随机变量,并记为ξ∼χ2(n)\xi\sim\chi^2(n)ξ∼χ2(n).
- PDFPDFPDF:f(x)={12n/2Γ(n/2)e−x2xn2−1,x>00,x≤0(5)f(x)=\begin{cases}\frac{1}{2^{n/2}\Gamma(n/2)}e^{-\frac{x}{2}}x^{\frac{n}{2}-1}, &x\gt0\\0, &x\le0\end{cases}\tag5f(x)={2n/2Γ(n/2)1e−2xx2n−1,0,x>0x≤0(5)其中nnn为自由度。
- 图像:
1.随着nnn的增大,它的对称性越来越好,峰度越来越小
2.随着nnn的增大,其图形越来越像正态分布的概率密度函数
3.随着nnn的增大,它的图形越来越向右移动,且尾部越来越大
- 期望:Eξ=nE\xi=nEξ=n
- 方差:Varξ=2nVar \xi=2nVarξ=2n
- 独立可加性:设ξ∼χ2(m),η∼χ2(n)\xi\sim\chi^2(m), \eta\sim\chi^2(n)ξ∼χ2(m),η∼χ2(n),且ξ,η\xi, \etaξ,η相互独立,则ξ+η∼χ2(m+n)\xi+\eta\sim\chi^2(m+n)ξ+η∼χ2(m+n)
- ★★ 很重要的一个定理:设X1,⋯,Xn∼N(μ,σ2)X_1, \cdots, X_n\sim N(\mu, \sigma^2)X1,⋯,Xn∼N(μ,σ2)且是独立同分布的,Xˉ\bar{X}Xˉ和Sn2S_n^2Sn2分别是样本均值和方差,则Xˉ∼N(μ,σ2n)(6)\bar{X}\sim N(\mu, \frac{\sigma^2}{n})\tag6Xˉ∼N(μ,nσ2)(6) (n−1)Sn2/σ2∼χ2(n−1)(7)(n-1)S_n^2/\sigma^2\sim\chi^2(n-1)\tag7(n−1)Sn2/σ2∼χ2(n−1)(7) Xˉ与Sn2独立(8)\bar{X}与S_n^2独立\tag8Xˉ与Sn2独立(8)由(8)(8)(8)可知,如果一组随机样本的均值与方差独立,那么总体分布必为正态分布。
证明:
令A\bm AA为如下的正交矩阵:[1n1n1n1n⋯1n1n12−1200⋯0012×312×3−22×30⋯00⋮⋮⋮⋮⋮⋮⋮1(n−1)×n1(n−1)×n1(n−1)×n1(n−1)×n⋯1(n−1)×n−n−1(n−1)×n]\begin{bmatrix} \frac{1}{\sqrt n} & \frac{1}{\sqrt n} &\frac{1}{\sqrt n} &\frac{1}{\sqrt n} &\cdots &\frac{1}{\sqrt n} &\frac{1}{\sqrt n} \\ \frac{1}{\sqrt 2} & -\frac{1}{\sqrt 2} &0 & 0 & \cdots & 0 & 0\\ \frac{1}{\sqrt {2\times3}} & \frac{1}{\sqrt {2\times3}} &-\frac{2}{\sqrt {2\times3}} & 0 & \cdots & 0 & 0\\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ \frac{1}{\sqrt {(n-1)\times n}} & \frac{1}{\sqrt {(n-1)\times n}} &\frac{1}{\sqrt {(n-1)\times n}} &\frac{1}{\sqrt {(n-1)\times n}} & \cdots & \frac{1}{\sqrt {(n-1)\times n}} & -\frac{n-1}{\sqrt {(n-1)\times n}}\\ \end{bmatrix}⎣⎢⎢⎢⎢⎢⎢⎡n1212×31⋮(n−1)×n1n1−212×31⋮(n−1)×n1n10−2×32⋮(n−1)×n1n100⋮(n−1)×n1⋯⋯⋯⋮⋯n100⋮(n−1)×n1n100⋮−(n−1)×nn−1⎦⎥⎥⎥⎥⎥⎥⎤
做如下的正交变换:[Y1⋮Yn]=A[X1⋮Xn]\begin{bmatrix} Y_1\\ \vdots\\ Y_n \end{bmatrix}=A\begin{bmatrix} X_1\\ \vdots\\ X_n \end{bmatrix}⎣⎢⎡Y1⋮Yn⎦⎥⎤=A⎣⎢⎡X1⋮Xn⎦⎥⎤
则有:Y1=1n∑i=1nXi=nXˉY_1=\frac{1}{\sqrt n}\sum_{i=1}^nX_i=\sqrt n\bar XY1=n1i=1∑nXi=nXˉ
∑i=1nYi2=∑i=1nXi2=∑i=1n(Xi−Xˉ)2+nXˉ2\sum_{i=1}^nY_i^2=\sum_{i=1}^nX_i^2=\sum_{i=1}^n(X_i-\bar X)^2+n\bar X^2i=1∑nYi2=i=1∑nXi2=i=1∑n(Xi−Xˉ)2+nXˉ2
所以(n−1)Sn2=∑i=1n(Xi−Xˉ)2=∑i=1nYi2−nXˉ2=∑i=2nYi2(n-1)S_n^2=\sum_{i=1}^n(X_i-\bar X)^2=\sum_{i=1}^nY_i^2-n\bar X^2=\sum_{i=2}^nY_i^2(n−1)Sn2=i=1∑n(Xi−Xˉ)2=i=1∑nYi2−nXˉ2=i=2∑nYi2
而YiY_iYi是相互独立的正态随机变量,且EY1=nμ,EYk=0(k≥2),VarYk=σ2(k=1⋯n)EY_1=\sqrt n\mu, EY_k=0(k\ge2), Var Y_k=\sigma^2(k=1\cdots n)EY1=nμ,EYk=0(k≥2),VarYk=σ2(k=1⋯n)
所以Y1Y_1Y1与(n−1)Sn2(n-1)S_n^2(n−1)Sn2独立,即Xˉ\bar XXˉ与(n−1)Sn2(n-1)S_n^2(n−1)Sn2独立,且Xˉ∼N(μ,σ2n),(n−1)Sn2/σ2∼χ2(n−1)\bar{X}\sim N(\mu, \frac{\sigma^2}{n}), (n-1)S_n^2/\sigma^2\sim\chi^2(n-1)Xˉ∼N(μ,nσ2),(n−1)Sn2/σ2∼χ2(n−1)
2.2 t 分布:
设ξ∼N(0,1),η∼χ2(n)\xi\sim N(0 ,1), \eta\sim\chi^2(n)ξ∼N(0,1),η∼χ2(n),且ξ,η\xi, \etaξ,η相互独立,则称随机变量T=ξη/n(9)T=\frac{\xi}{\sqrt{\eta/n}}\tag9T=η/nξ(9)所服从的分布为ttt分布,nnn为其自由度,且记为T∼t(n)T\sim t(n)T∼t(n).
- PDFPDFPDF:f(x)=Γ((n+1)/2)nπΓ(n/2)(1+x2/n)−n+12(10)f(x)=\frac{\Gamma((n+1)/2)}{\sqrt{n\pi}\Gamma(n/2)}(1+x^2/n)^{-\frac{n+1}{2}}\tag{10}f(x)=nπΓ(n/2)Γ((n+1)/2)(1+x2/n)−2n+1(10)
- 图像:
1.t(n)t(n)t(n)的PDF关于yyy轴对称,且lim∣x∣→∞f(x)=0\lim\limits_{|x|\to\infty}f(x)=0∣x∣→∞limf(x)=0
2.随着nnn的增大,其峰度越来越高,尾部越来越小
3.当nnn很大时,ttt分布的PDF接近于标准正态分布的PDF
4.当n=1n=1n=1时,它是Cauchy分布,故此时期望不存在
- 期望:如果n>2n\gt2n>2,则Eξ=0E \xi=0Eξ=0
- 方差:Varξ=nn−2Var\xi=\frac{n}{n-2}Varξ=n−2n
- ★★ 很重要的一个定理:设X1,⋯,Xn∼N(μ,σ2)X_1, \cdots, X_n\sim N(\mu, \sigma^2)X1,⋯,Xn∼N(μ,σ2)且独立同分布,Xˉ,Sn2\bar{X}, S_n^2Xˉ,Sn2分别是样本均值与方差,则T=n(Xˉ−μ)Sn∼t(n−1)(11)T=\frac{\sqrt{n}(\bar{X}-\mu)}{S_n}\sim t(n-1)\tag{11}T=Snn(Xˉ−μ)∼t(n−1)(11)根据此定理,可用样本数据做ttt检验。
2.3 F 分布:
设ξ,μ\xi, \muξ,μ是自由度分别为m,nm, nm,n的独立的χ2\chi^2χ2随机变量,则称随机变量F=ξ/mη/n(12)F=\frac{\xi/m}{\eta/n}\tag{12}F=η/nξ/m(12)所服从的分布为FFF分布,其自由度为(m,n)(m, n)(m,n),且记为F∼F(m,n)F\sim F(m, n)F∼F(m,n).
1.设ξ∼χ2(m),η∼χ2(n)\xi\sim\chi^2(m), \eta\sim\chi^2(n)ξ∼χ2(m),η∼χ2(n),且ξ\xiξ与η\etaη相互独立,则Y=ξ+ηY=\xi+\etaY=ξ+η与Z=ξ/ηZ=\xi/\etaZ=ξ/η相互独立
2.设随机变量X∼F(m,n)X\sim F(m, n)X∼F(m,n),则1X∼F(n,m)\frac{1}{X}\sim F(n, m)X1∼F(n,m)
PDFPDFPDF:f(x;m,n)={0,x<0Γ((m+n)/2)Γ(m/2)Γ(n/2)(mn)(mxn)m/2−1(1+mxn)−(m+n)/2,x>0(13)f(x;m, n)=\begin{cases}0, &x\lt0 \\ \frac{\Gamma((m+n)/2)}{\Gamma(m/2)\Gamma(n/2)}(\frac{m}{n})(\frac{mx}{n})^{m/2-1}(1+\frac{mx}{n})^{-(m+n)/2}, &x\gt0\end{cases}\tag{13}f(x;m,n)={0,Γ(m/2)Γ(n/2)Γ((m+n)/2)(nm)(nmx)m/2−1(1+nmx)−(m+n)/2,x<0x>0(13)
图像:
期望:Eξ=nn−2,n>2E\xi=\frac{n}{n-2}, n\gt2Eξ=n−2n,n>2
方差:Varξ=n2(2m+2n−4)m(n−2)2(n−4),n>4Var\xi=\frac{n^2(2m+2n-4)}{m(n-2)^2(n-4)}, n\gt4Varξ=m(n−2)2(n−4)n2(2m+2n−4),n>4
★★ 很重要的一个定理:设X1,⋯,Xm∼N(μ1,σ12)X_1, \cdots, X_m\sim N(\mu_1, \sigma_1^2)X1,⋯,Xm∼N(μ1,σ12)且独立同分布,Y1,⋯,Yn∼N(μ2,σ22)Y_1, \cdots, Y_n\sim N(\mu_2, \sigma_2^2)Y1,⋯,Yn∼N(μ2,σ22)且独立同分布,且两组样本独立,则F=S1m2/σ12S2n2/σ22∼F(m−1,n−1)(14)F=\frac{S_{1m}^2/\sigma_1^2}{S_{2n}^2/\sigma_2^2}\sim F(m-1, n-1)\tag{14}F=S2n2/σ22S1m2/σ12∼F(m−1,n−1)(14)其中,S1m2=1m−1∑i=1m(Xi−Xˉ)2S_{1m}^2=\frac{1}{m-1}\sum\limits_{i=1}^{m}(X_i-\bar{X})^2S1m2=m−11i=1∑m(Xi−Xˉ)2,S2n2=1n−1∑i=1n(Yi−Yˉ)2S_{2n}^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(Y_i-\bar{Y})^2S2n2=n−11i=1∑n(Yi−Yˉ)2,特别的,如果σ1=σ2\sigma_1=\sigma_2σ1=σ2,则F=S1m2S2n2∼F(m−1,n−1)F=\frac{S_{1m}^2}{S_{2n}^2}\sim F(m-1, n-1)F=S2n2S1m2∼F(m−1,n−1).
综合2.22.22.2和2.32.32.3,可有如下定理:
设X1,⋯,Xm∼N(μ1,σ2)X_1, \cdots, X_m\sim N(\mu_1, \sigma^2)X1,⋯,Xm∼N(μ1,σ2)且独立同分布,Y1,⋯,Yn∼N(μ2,σ2)Y_1, \cdots, Y_n\sim N(\mu_2, \sigma^2)Y1,⋯,Yn∼N(μ2,σ2)且独立同分布,且全样本独立,则T=(Xˉ−Yˉ)−(μ1−μ2)(m−1)S1m2+(n−1)S2n2mn(m+n−2)m+n∼t(m+n−2)T=\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sqrt{(m-1)S^2_{1m}+(n-1)S^2_{2n}}}\sqrt{\frac{mn(m+n-2)}{m+n}}\sim t(m+n-2)T=(m−1)S1m2+(n−1)S2n2(Xˉ−Yˉ)−(μ1−μ2)m+nmn(m+n−2)∼t(m+n−2)
证明:
由X1,⋯,Xm∼N(μ1,σ2)X_1, \cdots, X_m\sim N(\mu_1, \sigma^2)X1,⋯,Xm∼N(μ1,σ2)且独立同分布,Y1,⋯,Yn∼N(μ2,σ2)Y_1, \cdots, Y_n\sim N(\mu_2, \sigma^2)Y1,⋯,Yn∼N(μ2,σ2)且独立同分布,且全样本独立可知,(m−1)S1m2+(n−1)S2n2σ2∼χ2(m+n−2)(*)\frac{(m-1)S_{1m}^2+(n-1)S_{2n}^2}{\sigma^2}\sim \chi^2(m+n-2)\tag{*}σ2(m−1)S1m2+(n−1)S2n2∼χ2(m+n−2)(*)
而Xˉ∼N(μ1,1mσ2)\bar X\sim N(\mu_1, \frac{1}{m}\sigma^2)Xˉ∼N(μ1,m1σ2),Yˉ∼N(μ2,1nσ2)\bar Y\sim N(\mu_2, \frac{1}{n}\sigma^2)Yˉ∼N(μ2,n1σ2),所以Xˉ−μ1∼N(0,1mσ2)\bar X-\mu_1\sim N(0, \frac{1}{m}\sigma^2)Xˉ−μ1∼N(0,m1σ2)Yˉ−μ2∼N(0,1nσ2)\bar Y-\mu_2\sim N(0, \frac{1}{n}\sigma^2)Yˉ−μ2∼N(0,n1σ2)
所以(Xˉ−μ1)−(Yˉ−μ2)=(Xˉ−Yˉ)−(μ1−μ2)∼N(0,1mσ2+1nσ2)(\bar X-\mu_1)-(\bar Y-\mu_2)=(\bar X-\bar Y)-(\mu_1-\mu_2)\sim N(0,\frac{1}{m}\sigma^2+\frac{1}{n}\sigma^2)(Xˉ−μ1)−(Yˉ−μ2)=(Xˉ−Yˉ)−(μ1−μ2)∼N(0,m1σ2+n1σ2)
所以(Xˉ−Yˉ)−(μ1−μ2)1mσ2+1nσ2∼N(0,1)(**)\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sqrt{\frac{1}{m}\sigma^2+\frac{1}{n}\sigma^2}}\sim N(0, 1)\tag{**}m1σ2+n1σ2(Xˉ−Yˉ)−(μ1−μ2)∼N(0,1)(**)
结合∗*∗式和∗∗**∗∗式即可证明
3. 指数型分布族(和广义线性模型有关)
设F={f(x,θ):θ∈Θ}\mathcal{F}=\{f(x,\theta):\theta \in \Theta\}F={f(x,θ):θ∈Θ}是某参数分布族,如果f(x,θ)f(x,\theta)f(x,θ)可以表示成f(x,θ)=c(θ)exp(∑i=1kci(θ)Ti(x))h(x)(15)f(x,\theta)=c(\theta)exp(\sum\limits_{i=1}^{k}{c_i(\theta)T_{i}(x)})h(x)\tag{15}f(x,θ)=c(θ)exp(i=1∑kci(θ)Ti(x))h(x)(15)则称此分布族为指数型分布族,其中kkk为正整数,c(θ)>0,h(x)>0c(\theta)\gt0, h(x)\gt0c(θ)>0,h(x)>0.
4. 点估计
4.1 极大似然估计:
- 似然函数:L(θ,x)=f(x,θ)L(\theta, x)=f(x, \theta)L(θ,x)=f(x,θ),其中,f(x,θ)f(x, \theta)f(x,θ)是样本的函数,L(θ,x)L(\theta, x)L(θ,x)是参数的函数
- 对数似然函数:l(θ,x)l(\theta, x)l(θ,x)或l(θ)=lnL(θ,x)l(\theta)=ln L(\theta, x)l(θ)=lnL(θ,x)
- 得分函数或似然方程:∂l(θ,x)∂θj=0,j=1,⋯,k\frac{\partial l(\theta, x)}{\partial \theta_j}=0, j=1,\cdots,k∂θj∂l(θ,x)=0,j=1,⋯,k,其中,θ∈Θ⊆Rk\theta\in\Theta\subseteq R^kθ∈Θ⊆Rk
- 似然估计的不变原则:如果g(θ)g(\theta)g(θ)是1-1映射,且θ^\hat{\theta}θ^是θ\thetaθ的极大似然估计,则g(θ^)g(\hat{\theta})g(θ^)是g(θ)g(\theta)g(θ)的极大似然估计
5. 区间估计
详见贝叶斯可信区间与置信区间
5.1 几个基本概念:
- 置信区间:设[θ^L(X),θ^U(X)\hat{\theta}_L(X), \hat{\theta}_U(X)θ^L(X),θ^U(X)]是参数θ\thetaθ的一个区间估计,如果对给定的α∈(0,1)\alpha\in(0, 1)α∈(0,1),有Pθ{θ^L(X)≤θ≤θ^U(X)}≥1−α,∀θ∈Θ(16)P_{\theta}\{\hat{\theta}_L(X)\le\theta\le\hat{\theta}_U(X)\}\ge1-\alpha, \forall \theta\in\Theta\tag{16}Pθ{θ^L(X)≤θ≤θ^U(X)}≥1−α,∀θ∈Θ(16)则称[θ^L(X),θ^U(X)\hat{\theta}_L(X), \hat{\theta}_U(X)θ^L(X),θ^U(X)]为θ\thetaθ的置信水平为1−α1-\alpha1−α的置信区间
- 置信下限:p{θ^L(X)≤θ}≥1−α(17)p\{\hat{\theta}_L(X)\le\theta\}\ge1-\alpha\tag{17}p{θ^L(X)≤θ}≥1−α(17)
- 置信上限:p{θ^U(X)≥θ}≥1−α(18)p\{\hat{\theta}_U(X)\ge\theta\}\ge1-\alpha\tag{18}p{θ^U(X)≥θ}≥1−α(18)
6. 假设检验——显著性检验
6.1 几个基本概念:
- 假设或统计假设:在统计中,我们需要根据样本去推断一个是否“正确”的命题,就称为一个假设或统计假设
- 检验:通过样本对一个假设做出“对”或“不对”的具体判断规则就称为该假设的一个检验
- 第一类错误(拒真):当原假设H0H_0H0成立,即θ∈Θ0\theta\in\Theta_0θ∈Θ0时,样本却落入了拒绝域WWW,此时,由样本我们采取了拒绝H0H_0H0的错误决策,称这样的错误为第一类错误
- 第二类错误(纳伪):当备择假设H1H_1H1成立,即θ∈Θ1\theta\in\Theta_1θ∈Θ1时,样本却落入了接受域W‾\overline{W}W,此时,由样本我们采取了接受H0H_0H0的错误决策,称这样的错误为第二类错误
- 显著性水平:对于检验ψ\psiψ和事先给定的α∈(0,1)\alpha\in(0,1)α∈(0,1),如果满足Pθ{X∈W}≤α,∀θ∈Θ0(19)P_{\theta}\{X\in W\}\le \alpha, \forall\theta\in\Theta_0\tag{19}Pθ{X∈W}≤α,∀θ∈Θ0(19)则称α\alphaα是检验ψ\psiψ的显著性水平或水平,也称ψ\psiψ为显著性水平α\alphaα的检验
6.2 求取某假设的显著性检验的步骤:
- 根据实际问题,建立统计假设H0↔H1H_0\leftrightarrow H_1H0↔H1;
- 选取一个合适的统计量T(X)T(X)T(X),使当H0H_0H0成立时,TTT的分布已知,且与参数θ\thetaθ无关(称此分布为统计量TTT的零分布);
- 根据H0H_0H0和H1H_1H1的特点,确定拒绝域WWW的区间形式;
- 对于给定的显著性水平α\alphaα,确定拒绝域WWW;
- 由样本观测值xxx,计算统计量T(X)T(X)T(X)的值T(x)T(x)T(x),由T(x)T(x)T(x)是否属于WWW,作出最终判断。
6.3 似然比检验:
- 似然比统计量:设X1,⋯,XnX_1, \cdots, X_nX1,⋯,Xn为来自分布族F={f(x,θ):θ∈Θ}\mathcal F=\{f(x,\theta):\theta\in\Theta\}F={f(x,θ):θ∈Θ}的IIDIIDIID样本,对于感兴趣的假设H0:θ∈Θ0↔H1:θ∈Θ1=Θ−Θ0H_0: \theta\in\Theta_0\leftrightarrow H_1:\theta\in\Theta_1=\Theta-\Theta_0H0:θ∈Θ0↔H1:θ∈Θ1=Θ−Θ0,令λ(X)=supθ∈Θ0f(X,θ)supθ∈Θf(X,θ)(20)\lambda(X)=\frac{sup_{\theta\in\Theta_0}f(X, \theta)}{sup_{\theta\in\Theta}f(X, \theta)}\tag{20}λ(X)=supθ∈Θf(X,θ)supθ∈Θ0f(X,θ)(20)则称统计量λ(X)\lambda(X)λ(X)为假设的似然比,有时也称广义似然比
- 似然比检验(LRT):采用(20)(20)(20)作为假设的检验统计量,且取其拒绝域为{λ(x)≤c}\{\lambda(x)\le c\}{λ(x)≤c},其中临界值ccc满足Pθ{λ(X)≤c}≤α,∀θ∈Θ0(21)P_{\theta}\{\lambda(X)\le c\}\le \alpha, \forall \theta \in \Theta_0 \tag{21}Pθ{λ(X)≤c}≤α,∀θ∈Θ0(21)则称此检验为显著性水平α\alphaα的似然比检验
6.4 p值:
详见:假设检验中p值的理解
参考:《数理统计教程》,王兆军,邹长亮 编著
数理统计复习笔记一——统计中常用的抽样分布(卡方分布,t分布,F分布)相关推荐
- 数理统计复习笔记五——假设检验之显著性检验
一.基本概念 在统计中,我们把需要用样本去推断"正确"与否的命题称为一个假设.当然,假设是可以关于参数的,也可以是关于分布的. 通过样本对一个假设作出"对"或& ...
- Linux中常用的文件目录,Linux学习笔记2——Linux中常用文件目录操作命令
ls 显示文件和目录列表 -l 列出文件的详细信息 -a 列出当前目录所有文件,包含隐藏文件 mkdir 创建目录 -p 父目录不存在情况下先生成父目录 cd 切换目录 touch 生成一个空文件 e ...
- 比较两组数据的差异用什么图更直观_试验数据统计中常用的 量,图,和线再也不担心文章的统计用图了!...
本文来源:小麦研究联盟 今天跟大家详细总结一下我们农业试验数据统计中常用的 量,图,和线. 如果不想看下边长篇大论,请看小编给您总结的懒人包: 标准差: 群体的标准差是群体中所有数据方差的平方根,它衡 ...
- 学习笔记【Spring中常用的设计模式】
文章目录 简介 一. Spring用到的设计模式类别 1. 创建型模式 2. 结构性模式 3. 行为型模式 二. 设计模式详解 1. 工厂模式 1.1 简单工厂模式 1.2 工厂方法模式 1.3 抽象 ...
- 统计中常用的拉丁字母读音
今天看统计学的书,居然感觉很陌生了,拉丁字母都不会读了,摘录一下就当复习 α( 阿而法) β( 贝塔) γ(伽马) δ(德尔塔) ε(艾普西龙) ζ(截塔) η(艾塔) θ(西塔) ι约塔) κ(卡帕 ...
- 机械学习04:概率统计中T检测、Z检测和F检测区别和案例
T检验.Z检验和F检验个人总结和案例说明: 1.Z检测案例:(方差已知)(H0:原假设: H1:备择假设) T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法.它是用T分布理论来推断 ...
- 概率论考点总结类型26 统计中的卡方分布 t分布F分布
- 傻瓜教学——C语言中常用的占位符%d,%c,%f,%p,%x,%s等的含义解释
C语言常见的格式输入输出%d,%c,%f,%p等的含义 我都给大家整理好了,大家随便用. 大家记得点赞,加关注.拒绝白嫖,制作不易. ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓表格如下↓↓↓↓ ...
- 干货丨重中之重:数据分析中常用指标及术语!
数据解读是数据分析师的基本功,如果不能充分理解数据分析中出现的各类指标及术语,数据分析工作将很难展开. 对于数据分析师来说,了解常用的分析指标和术语是做好数据解读的前提.下面,一起来了解下常用指标及术 ...
最新文章
- 《深入理解ES6》笔记——块级作用域绑定(1)
- paddle版fnet_google
- 如何判断一个网站是否被百度处罚中
- Python pip使用国内镜像
- cockroachdb mysql_CockroachDB学习笔记——[译]CockroachDB中的SQL:映射表中数据到键值存储...
- Socket网络编程--Libev库学习(3)
- Unity UGUI——UI基础,Canvas
- jsf ajax循环调用,每次JSF ajax回发后执行JavaScript
- java中的==和equals的区别
- angular之service、factory预provider区别
- OKR案例——不同类型的OKR实例
- 插入行政区划编码的sql代码
- Web服务器性能压力测试工具
- DMG Canvas 3 for Mac 共享版 – 优秀的DMG安装包制作软件
- 谈一谈机器学习的基本原理
- Oracle 数据库迁移
- saltstack实战--远程执行之返回(returner)
- jquery html添加背景图片,jquery动态更换设置背景图的方法
- php中escape和unescape
- HTML(二)列表、表格、表单元素
热门文章
- 向日葵使用方法与解决一些问题
- 发adb强制打开关闭webview应用,关闭后打开web显示白屏,默认关闭快霸。移除快霸。工模测试,蓝牙测试,前后摄像头测试没有成功失败按钮。
- 苹果内购服务器验证之receipt返回多组in_app思考
- 【数学建模笔记 29】数学建模的多元分析
- 吴恩达机器学习ex1 Python实现
- 对于有抱负的软件开发人员:采访是一条两条路
- uni-app实现地图车辆移动轨迹回放
- java jsp list_jsp遍历list集合
- 黑客讲述渗透Hacking Team全过程(详细解说)
- JavaWeb与JavaEE命名规则(规范)