概率论与数理统计笔记(第六章——参数估计)

对于统计专业来说,书本知识总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,主要参考用书是茆诗松老师编写的《概率论与数理统计教程》,其他知识待后续书籍补充。

文章目录

  • 概率论与数理统计笔记(第六章——参数估计)
    • 6.1 点估计的概念以及无偏性
      • 6.1.1 点估计及无偏性
      • 6.1.2 有效性
    • 6.2 矩估计以及相合性
      • 6.2.1 替换原理和矩法估计
      • 6.2.2 概率函数已知时末知参数的矩估计
      • 6.2.3 相合性
    • 6.3 最大似然估计与 EM\mathbf{E M}EM 算法
      • 6.3.1 最大似然估计
      • 6.3.2 EM 算法
      • 6.3.3 渐近正态性
    • 6.4 最小方差无偏估计
      • 6.4.1 均方误差
      • 6.4.2 最小方差无偏估计
      • 6.4.3 充分性原则
      • 6.4.4 Cramer-Rao 不等式
    • 6.5 贝叶斯估计
      • 6.5.1 统计推断的基础
      • 6.5.2 贝叶斯公式的密度函数形式
      • 6.5.3 贝叶斯估计
      • 6.5.4 共轭先验分布
    • 6.6 区间估计
      • 6.6.1 区间估计的概念
      • 6.6.2 枢轴量法
      • 6.6.3 单个正态总体参数的置信区间
      • 6.6.4 大样本置信区间
      • 6.6.5 样本量的确定
      • 6.6.6 两个正态总体下的置信区间

一般场合, 常用 θ\thetaθ 表示参数, 参数 θ\thetaθ 所有可能取值组成的集合称为参数空间, 常用 Θ\ThetaΘ 表示.

6.1 点估计的概念以及无偏性

6.1.1 点估计及无偏性

定义 6.1.1
设 x1,⋯,xnx_1, \cdots, x_nx1​,⋯,xn​ 是来自总体的一个样本, 用于估计末知参数 θ\thetaθ 的统计量 θ^=θ^(x1,⋯,xn)\hat{\theta}=\hat{\theta}\left(x_1, \cdots, x_n\right)θ^=θ^(x1​,⋯,xn​) 称为 θ\thetaθ 的估计量, 或称为 θ\thetaθ 的点估计, 简称估计.

定义 6.1.2
设 θ^=θ^(x1,⋯,xn)\hat{\theta}=\hat{\theta}\left(x_1, \cdots, x_n\right)θ^=θ^(x1​,⋯,xn​) 是 θ\thetaθ 的一个估计, θ\thetaθ 的参数空间为 Θ\ThetaΘ, 若对任意的 θ∈Θ\theta \in \Thetaθ∈Θ, 有
Eθ(θ^)=θ,E_\theta(\hat{\theta})=\theta, Eθ​(θ^)=θ,
则称 θ^\hat{\theta}θ^ 是 θ\thetaθ 的无偏估计, 否则称为有偏估计.并不是所有的参数都存在无偏估计, 当参数存在无偏估计时, 我们称该参数是可估的, 否则称它是不可估的.

6.1.2 有效性

定义 6.1.3 设 θ^1,θ^2\hat{\theta}_1, \hat{\theta}_2θ^1​,θ^2​ 是 θ\thetaθ 的两个无偏估计, 如果对任意的 θ∈Θ\theta \in \Thetaθ∈Θ 有
Var⁡(θ^1)⩽Var⁡(θ^2),\operatorname{Var}\left(\hat{\theta}_1\right) \leqslant \operatorname{Var}\left(\hat{\theta}_2\right), Var(θ^1​)⩽Var(θ^2​),
且至少有一个 θ∈Θ\theta \in \Thetaθ∈Θ 使得上述不等号严格成立, 则称 θ^1\hat{\theta}_1θ^1​ 比 θ^2\hat{\theta}_2θ^2​ 有效.

6.2 矩估计以及相合性

6.2.1 替换原理和矩法估计

矩法估计的统计思想 (替换原理) 十分简单明确, 众人都能接受, 使用场合甚广. 它的实质是用经验分布函数去替换总体分布, 其理论基础是格里纹科定理.

6.2.2 概率函数已知时末知参数的矩估计

设总体具有已知的概率函数 p(x;θ1,⋯,θk),(θ1,⋯,θk)∈Θp\left(x ; \theta_1, \cdots, \theta_k\right),\left(\theta_1, \cdots, \theta_k\right) \in \Thetap(x;θ1​,⋯,θk​),(θ1​,⋯,θk​)∈Θ 是末知参数或参数向量, x1,⋯,xnx_1, \cdots, x_nx1​,⋯,xn​ 是样本. 假定总体的 kkk 阶原点矩 μk\mu_kμk​ 存在, 则对所有的 jjj, 0<j<k,μj0<j<k, \mu_j0<j<k,μj​ 都存在, 若假设 θ1,⋯,θk\theta_1, \cdots, \theta_kθ1​,⋯,θk​ 能够表示成 μ1,⋯,μk\mu_1, \cdots, \mu_kμ1​,⋯,μk​ 的函数 θj=θj(μ1,⋯,μk)\theta_j=\theta_j\left(\mu_1, \cdots, \mu_k\right)θj​=θj​(μ1​,⋯,μk​), 则可给出诸 θj\theta_jθj​ 的矩估计:
θ^j=θi(a1,⋯,ak),j=1,⋯,k,\hat{\theta}_j=\theta_i\left(a_1, \cdots, a_k\right), \quad j=1, \cdots, k, θ^j​=θi​(a1​,⋯,ak​),j=1,⋯,k,

其中 a1,⋯,aia_1, \cdots, a_ia1​,⋯,ai​ 是前 kkk 阶样本原点矩 aj=1n∑i=1nxiJa_j=\frac{1}{n} \sum_{i=1}^n x_i^Jaj​=n1​∑i=1n​xiJ​. 进一步, 如果我们要估计 θ1,⋯,θk\theta_1, \cdots, \theta_kθ1​,⋯,θk​ 的函数 η=g(θ1,⋯,θk)\eta=g\left(\theta_1, \cdots, \theta_k\right)η=g(θ1​,⋯,θk​), 则可直接得到 η\etaη 的矩估计
η^=g(θ^1,⋯,θ^k), \hat{\eta}=g\left(\hat{\theta}_1, \cdots, \hat{\theta}_k\right) \text {, } η^​=g(θ^1​,⋯,θ^k​),

6.2.3 相合性

定义 6.2.1 设 θ∈Θ\theta \in \Thetaθ∈Θ 为末知参数, θ^n=θ^n(x1,⋯,xn)\hat{\theta}_n=\hat{\theta}_n\left(x_1, \cdots, x_n\right)θ^n​=θ^n​(x1​,⋯,xn​) 是 θ\thetaθ 的一个估计量, nnn 是样本容量, 若对任何一个 ε>0\varepsilon>0ε>0, 有
lim⁡n→∞P(∣θ^n−θ∣⩾ε)=0,\lim _{n \rightarrow \infty} P\left(\left|\hat{\theta}_n-\theta\right| \geqslant \varepsilon\right)=0, n→∞lim​P(​θ^n​−θ​⩾ε)=0,
则称 θ^n\hat{\theta}_nθ^n​ 为参数 θ\thetaθ 的相合估计.
相合性被认为是对估计的一个最基本要求,。

定理 6.2.1 设 θ^n=θ^n(x1,⋯,xn)\hat{\theta}_{\mathrm{n}}=\hat{\theta}_n\left(x_1, \cdots, x_n\right)θ^n​=θ^n​(x1​,⋯,xn​) 是 θ\thetaθ 的一个估计量, 若
lim⁡n→∞E(θ^n)=θ,lim⁡n→∞Var⁡(θ^n)=0,\lim _{n \rightarrow \infty} E\left(\hat{\theta}_n\right)=\theta, \quad \lim _{n \rightarrow \infty} \operatorname{Var}\left(\hat{\theta}_n\right)=0, n→∞lim​E(θ^n​)=θ,n→∞lim​Var(θ^n​)=0,
则 θ^n\hat{\theta}_nθ^n​ 是 θ\thetaθ 的相合估计.

定理 6.2.2 若 θ^n1,⋯,θ^nk\hat{\theta}_{n 1}, \cdots, \hat{\theta}_{n k}θ^n1​,⋯,θ^nk​ 分别是 θ1,⋯,θk\theta_1, \cdots, \theta_kθ1​,⋯,θk​ 的相合估计, η=g(θ1,⋯,θk)\eta=g\left(\theta_1, \cdots, \theta_k\right)η=g(θ1​,⋯,θk​) 是 θ1,⋯,θk\theta_1, \cdots, \theta_kθ1​,⋯,θk​ 的连续函数, 则 η^n=g(θ^n1,⋯,θ^nk)\hat{\eta}_n=g\left(\hat{\theta}_{n 1}, \cdots, \hat{\theta}_{n k}\right)η^​n​=g(θ^n1​,⋯,θ^nk​) 是 η\etaη 的相合估计.

6.3 最大似然估计与 EM\mathbf{E M}EM 算法

6.3.1 最大似然估计

定义 6.3.1 设总体的概率函数为 p(x;θ),θ∈Θp(x ; \theta), \theta \in \Thetap(x;θ),θ∈Θ, 其中 θ\thetaθ 是一个末知参数或几个末知参数组成的参数向量, Θ\ThetaΘ 是参数空间, x1,⋯,xnx_1, \cdots, x_nx1​,⋯,xn​ 是来自该总体的样本, 将样本的联合概率函数看成 θ\thetaθ 的函数, 用 L(θ;x1,⋯,xn)L\left(\theta ; x_1, \cdots, x_n\right)L(θ;x1​,⋯,xn​) 表示, 简记为 L(θ)L(\theta)L(θ),
L(θ)=L(θ;x1,⋯,xn)=p(x1;θ)p(x2;θ)⋯p(xn;θ),L(\theta)=L\left(\theta ; x_1, \cdots, x_n\right)=p\left(x_1 ; \theta\right) p\left(x_2 ; \theta\right) \cdots p\left(x_n ; \theta\right), L(θ)=L(θ;x1​,⋯,xn​)=p(x1​;θ)p(x2​;θ)⋯p(xn​;θ),
L(θ)L(\theta)L(θ) 称为样本的似然函数. 如果某统计量 θ^=θ^(x1,⋯,xn)\hat{\theta}=\hat{\theta}\left(x_1, \cdots, x_n\right)θ^=θ^(x1​,⋯,xn​) 满足
L(θ^)=max⁡θ∈θL(θ),L(\hat{\theta})=\max _{\theta \in \theta} L(\theta), L(θ^)=θ∈θmax​L(θ),
则称 θ^\hat{\theta}θ^ 是 θ\thetaθ 的最大似然估计,简记为 MLE (maximum likelihood estimate).

最大似然估计有一个简单而有用的性质: 如果 θ^\hat{\theta}θ^ 是 θ\thetaθ 的最大似然估计, 则对 任一函数 g(θ)g(\theta)g(θ), 其最大似然估计为 g(θ^)g(\hat{\theta})g(θ^). 该性质称为最大似然估计的不变性,

6.3.2 EM 算法

MLE 是一种非常有效的参数估计方法,但当分布中有多余参数或数据为截尾或缺失时, 其 MLE 的求取是比较困难的. 于是 Dempster 等人于 1977 年提出了 EM 算法, 其出发点是把求 MLE 的过程分两步走, 第一步求期望, 以便把多余的部分去掉,第二步求极大值.

6.3.3 渐近正态性

定义 6.3.2
参数 θ\thetaθ 的相合估计 θ^n\hat{\theta}_nθ^n​ 称为渐近正态的, 若存在趋于 0 的非负常数序列 σn(θ)\sigma_n(\theta)σn​(θ), 使得 θ^n−θσn(θ)\frac{\hat{\theta}_n-\theta}{\sigma_n(\theta)}σn​(θ)θ^n​−θ​ 依分布收敛于标准正态分布. 这时也称 θ^n\hat{\theta}_nθ^n​ 服从渐近正态分布 N(θ,σn2(θ))N\left(\theta, \sigma_n^2(\theta)\right)N(θ,σn2​(θ)), 记为 θ^n∼AN(θ,σn2(θ)).σn2(θ)\hat{\theta}_n \sim A N\left(\theta, \sigma_n^2(\theta)\right) . \sigma_n^2(\theta)θ^n​∼AN(θ,σn2​(θ)).σn2​(θ) 称为 θ^n\hat{\theta}_nθ^n​ 的渐近方差.

定理 6.3.1 设总体 XXX 有密度函数 p(x;θ),θ∈Θ,Θp(x ; \theta), \theta \in \Theta, \Thetap(x;θ),θ∈Θ,Θ 为非退化区间, 假定
(1) 对任意的 xxx, 偏导数 ∂ln⁡p∂θ,∂2ln⁡p∂θ2\frac{\partial \ln p}{\partial \theta}, \frac{\partial^2 \ln p}{\partial \theta^2}∂θ∂lnp​,∂θ2∂2lnp​ 和 ∂3ln⁡p∂θ3\frac{\partial^3 \ln p}{\partial \theta^3}∂θ3∂3lnp​ 对所有 θ∈Θ\theta \in \Thetaθ∈Θ 都存在;
(2) ∀θ∈Θ\forall \theta \in \Theta∀θ∈Θ, 有
∣∂p∂θ∣<F1(x),∣∂2p∂θ2∣<F2(x),∣∂3ln⁡p∂θ3∣<F3(x),\left|\frac{\partial p}{\partial \theta}\right|<F_1(x), \quad\left|\frac{\partial^2 p}{\partial \theta^2}\right|<F_2(x), \quad\left|\frac{\partial^3 \ln p}{\partial \theta^3}\right|<F_3(x), ​∂θ∂p​​<F1​(x),​∂θ2∂2p​​<F2​(x),​∂θ3∂3lnp​​<F3​(x),
其中函数 F1(x),F2(x),F3(x)F_1(x), F_2(x), F_3(x)F1​(x),F2​(x),F3​(x) 满足
∫−∞∞F1(x)dx<∞,∫−∞∞F2(x)dx<∞,sup⁡θ∈Θ∫−∞∞F3(x)p(x;θ)dx<∞;\begin{gathered} \int_{-\infty}^{\infty} F_1(x) \mathrm{d} x<\infty, \quad \int_{-\infty}^{\infty} F_2(x) \mathrm{d} x<\infty, \\ \sup _{\theta\in\Theta} \int_{-\infty}^{\infty} F_3(x) p(x ; \theta) \mathrm{d} x<\infty ; \end{gathered} ∫−∞∞​F1​(x)dx<∞,∫−∞∞​F2​(x)dx<∞,θ∈Θsup​∫−∞∞​F3​(x)p(x;θ)dx<∞;​
(3) ∀θ∈Θ,0<I(θ)≡∫−∞∞(∂ln⁡p∂θ)2p(x;θ)dx<∞\forall \theta \in \Theta, 0<I(\theta) \equiv \int_{-\infty}^{\infty}\left(\frac{\partial \ln p}{\partial \theta}\right)^2 p(x ; \theta) \mathrm{d} x<\infty∀θ∈Θ,0<I(θ)≡∫−∞∞​(∂θ∂lnp​)2p(x;θ)dx<∞.
若 x1,⋯,xnx_1, \cdots, x_nx1​,⋯,xn​ 是来自该总体的样本, 则存在末知参数 θ\thetaθ 的最大似然估计 θ^n=\hat{\theta}_n=θ^n​= θ^n(x1,⋯,xn)\hat{\theta}_n\left(x_1, \cdots, x_n\right)θ^n​(x1​,⋯,xn​), 且 θ^n\hat{\theta}_nθ^n​ 具有相合性和渐近正态性, θ^n∼AN(θ,1nI(θ))\hat{\theta}_n \sim A N\left(\theta, \frac{1}{n I(\theta)}\right)θ^n​∼AN(θ,nI(θ)1​).

6.4 最小方差无偏估计

6.4.1 均方误差

相合性和渐近正态性是在大样本场合下评价估计好坏的两个重要标准, 在样本量不是很大时, 人们更加倾向于使用一些基于小样本的评价标准。评价一个点估计的好坏使用的度量指标总是点估计值 θ^\hat{\theta}θ^ 与参数真值 θ\thetaθ 的距离的函数,
MSE⁡(θ^)=E(θ^−θ)2=E[(θ^−Eθ^)+(Eθ^−θ)]2=E(θ^−Eθ^)2+(Eθ^−θ)2+2E[(θ^−Eθ^)(Eθ^−θ)]=Var⁡(θ^)+(Eθ^−θ)2.\begin{aligned} &\operatorname{MSE}(\hat{\theta})=E(\hat{\theta}-\theta)^2\\ & =E[(\hat{\theta}-E \hat{\theta})+(E \hat{\theta}-\theta)]^2 \\ & =E(\hat{\theta}-E \hat{\theta})^2+(E \hat{\theta}-\theta)^2+2 E[(\hat{\theta}-E \hat{\theta})(E \hat{\theta}-\theta)] \\ & =\operatorname{Var}(\hat{\theta})+(E \hat{\theta}-\theta)^2 . \end{aligned} ​MSE(θ^)=E(θ^−θ)2=E[(θ^−Eθ^)+(Eθ^−θ)]2=E(θ^−Eθ^)2+(Eθ^−θ)2+2E[(θ^−Eθ^)(Eθ^−θ)]=Var(θ^)+(Eθ^−θ)2.​
因此, 均方误差由点估计的方差与偏差 ∣Eθ^−θ∣|E \hat{\theta}-\theta|∣Eθ^−θ∣ 的平方两部分组成.

定义 6.4.1
设有样本 x1,⋯,xnx_1, \cdots, x_nx1​,⋯,xn​, 对待估参数 θ\thetaθ, 设有一个估计类,称 θ^(x1,⋯,xn)\hat{\theta}\left(x_1, \cdots, x_n\right)θ^(x1​,⋯,xn​) 是该估计类中 θ\thetaθ 的一致最小均方误差估计, 如果对该估计类中另外任意一个 θ\thetaθ 的估计 θ~\tilde{\theta}θ~, 在参数空间 Θ\ThetaΘ 上都有
MSE⁡θ(θ^)⩽MSE⁡θ(θ~).\operatorname{MSE}_\theta(\hat{\theta}) \leqslant \operatorname{MSE}_\theta(\widetilde{\theta}) . MSEθ​(θ^)⩽MSEθ​(θ).

6.4.2 最小方差无偏估计

定义 6.4.2
对参数估计问题, 设 θ^\hat{\theta}θ^ 是 θ\thetaθ 的一个无偏估计, 如果对另外任意一个 θ\thetaθ 的无偏估计 θ~\tilde{\theta}θ~, 在参数空间 Θ\ThetaΘ 上都有
Var⁡θ(θ^)⩽Var⁡θ(θ~),\operatorname{Var}_\theta(\hat{\theta}) \leqslant \operatorname{Var}_\theta(\tilde{\theta}), Varθ​(θ^)⩽Varθ​(θ~),
则称 θ^\hat{\theta}θ^ 是 θ\thetaθ 的一致最小方差无偏估计, 简记为 UMVUE.

定理 6.4.1 设 X=(x1,⋯,xn)X=\left(x_1, \cdots, x_n\right)X=(x1​,⋯,xn​) 是来自某总体的一个样本, θ^=θ^(X)\hat{\theta}=\hat{\theta}(X)θ^=θ^(X) 是 θ\thetaθ 的 一个无偏估计, Var⁡(θ^)<∞\operatorname{Var}(\hat{\theta})<\inftyVar(θ^)<∞. 则 θ^\hat{\theta}θ^ 是 θ\thetaθ 的 UMVUE 的充要条件是, 对任意一个满足 E(φ(X))=0E(\varphi(X))=0E(φ(X))=0 和 Var⁡(φ(X))<∞\operatorname{Var}(\varphi(X))<\inftyVar(φ(X))<∞ 的 φ(X)\varphi(X)φ(X), 都有
Cov⁡θ(θ^,φ)=0,∀θ∈Θ.\operatorname{Cov}_\theta(\hat{\theta}, \varphi)=0, \quad \forall \theta \in \Theta . Covθ​(θ^,φ)=0,∀θ∈Θ.

6.4.3 充分性原则

定理 6.4.2 设总体概率函数是 p(x;θ),x1,⋯,xnp(x ; \theta), x_1, \cdots, x_np(x;θ),x1​,⋯,xn​ 是其样本, T=T(x1,⋯T=T\left(x_1, \cdots\right.T=T(x1​,⋯, xn)\left.x_n\right)xn​) 是 θ\thetaθ 的充分统计旺, 则对 θ\thetaθ 的任一无偏估计 θ^=θ^(x1,⋯,xn)\hat{\theta}=\hat{\theta}\left(x_1, \cdots, x_n\right)θ^=θ^(x1​,⋯,xn​), 令 θ~=E(θ^∣T)\tilde{\theta}=E(\hat{\theta} \mid T)θ~=E(θ^∣T), 则 θ~\tilde{\theta}θ~ 也是 θ\thetaθ 的无偏估计, 且
Var⁡(θ~)⩽Var⁡(θ^).\operatorname{Var}(\tilde{\theta}) \leqslant \operatorname{Var}(\hat{\theta}) . Var(θ~)⩽Var(θ^).

6.4.4 Cramer-Rao 不等式

定义 6.4.3
设总体的概率函数 p(x;θ),θ∈Θp(x ; \theta), \theta \in \Thetap(x;θ),θ∈Θ 满足下列条件:
(1) 参数空间 Θ\ThetaΘ 是直线上的一个开区间;
(2) 支撑 S={x:p(x;θ)>0}S=\{x: p(x ; \theta)>0\}S={x:p(x;θ)>0} 与 θ\thetaθ 无关;
(3) 导数 ∂∂θp(x;θ)\frac{\partial}{\partial \theta} p(x ; \theta)∂θ∂​p(x;θ) 对一切 θ∈Θ\theta \in \Thetaθ∈Θ 都存在;
(4) 对 p(x;θ)p(x ; \theta)p(x;θ), 积分与微分运算可交换次序, 即
∂∂θ∫−∞∞p(x;θ)dx=∫−∞∞∂∂θp(x;θ)dx;\frac{\partial}{\partial \theta} \int_{-\infty}^{\infty} p(x ; \theta) \mathrm{d} x=\int_{-\infty}^{\infty} \frac{\partial}{\partial \theta} p(x ; \theta) \mathrm{d} x ; ∂θ∂​∫−∞∞​p(x;θ)dx=∫−∞∞​∂θ∂​p(x;θ)dx;
(5) 期望 E[∂∂θln⁡p(x;θ)]2E\left[\frac{\partial}{\partial \theta} \ln p(x ; \theta)\right]^2E[∂θ∂​lnp(x;θ)]2 存在,
则称I(θ)=E[∂∂θln⁡p(x;θ)]2I(\theta)=E\left[\frac{\partial}{\partial \theta} \ln p(x ; \theta)\right]^2 I(θ)=E[∂θ∂​lnp(x;θ)]2
为总体分布的费希尔信息量.

定理 6.4.3 (Cramer-Rao 不等式) 设总体分布 p(x;θ)p(x ; \theta)p(x;θ) 满足定义 6.4.3 的 条件, x1,⋯,xnx_1, \cdots, x_nx1​,⋯,xn​ 是来自该总体的样本, T=T(x1,⋯,xn)T=T\left(x_1, \cdots, x_n\right)T=T(x1​,⋯,xn​) 是 g(θ)g(\theta)g(θ) 的任一个无偏估计, g′(θ)=∂g(θ)∂θg^{\prime}(\theta)=\frac{\partial g(\theta)}{\partial \theta}g′(θ)=∂θ∂g(θ)​ 存在, 且对 Θ\ThetaΘ 中一切 θ\thetaθ, 对
g(θ)=∫−∞∞⋯∫−∞∞T(x1,⋯,xn)∏i=1np(xi;θ)dx1⋯dxng(\theta)=\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} T\left(x_1, \cdots, x_n\right) \prod_{i=1}^n p\left(x_i ; \theta\right) \mathrm{d} x_1 \cdots \mathrm{d} x_n g(θ)=∫−∞∞​⋯∫−∞∞​T(x1​,⋯,xn​)i=1∏n​p(xi​;θ)dx1​⋯dxn​
的微商可在积分号下进行, 即
g′(θ)=∫−∞∞⋯∫−∞∞T(x1,⋯,xn)∂∂θ(∏i=1np(xi;θ))dx1⋯dxn=∫−∞∞⋯∫−∞∞T(x1,⋯,xn)[∂∂θln⁡∏i=1np(xi;θ)]∏i=1np(xi;θ)dx1⋯dxn.(6.4.4)\begin{aligned} g^{\prime}(\theta) & =\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} T\left(x_1, \cdots, x_n\right) \frac{\partial}{\partial \theta}\left(\prod_{i=1}^n p\left(x_i ; \theta\right)\right) \mathrm{d} x_1 \cdots \mathrm{d} x_n \\ & =\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} T\left(x_1, \cdots, x_n\right)\left[\frac{\partial}{\partial \theta} \ln \prod_{i=1}^n p\left(x_i ; \theta\right)\right] \prod_{i=1}^n p\left(x_i ; \theta\right) \mathrm{d} x_1 \cdots \mathrm{d} x_n .(6.4 .4) \end{aligned} g′(θ)​=∫−∞∞​⋯∫−∞∞​T(x1​,⋯,xn​)∂θ∂​(i=1∏n​p(xi​;θ))dx1​⋯dxn​=∫−∞∞​⋯∫−∞∞​T(x1​,⋯,xn​)[∂θ∂​lni=1∏n​p(xi​;θ)]i=1∏n​p(xi​;θ)dx1​⋯dxn​.(6.4.4)​
对离散总体, 则将上述积分改为求和符号后, 等式仍然成立. 则有
Var⁡(T)⩾[g′(θ)]2/(nI(θ)). (6.4.5) \operatorname{Var}(T) \geqslant\left[g^{\prime}(\theta)\right]^2 /(n I(\theta)) \text {. (6.4.5) } Var(T)⩾[g′(θ)]2/(nI(θ)). (6.4.5) 
(6. 4. 5) 称为克拉默-拉奥 (C-R) 不等式, [g′(θ)]2/(nI(θ))\left[g^{\prime}(\theta)\right]^2 /(n I(\theta))[g′(θ)]2/(nI(θ)) 称为 g(θ)g(\theta)g(θ) 的无偏估计的方差的 C-R 下界, 简称 g(θ)g(\theta)g(θ) 的 C-R 下界. 特别, 对 θ\thetaθ 的无偏估计 θ^\hat{\theta}θ^, 有 Var⁡(θ^)⩾(nI(θ))−1\operatorname{Var}(\hat{\theta}) \geqslant(n I(\theta))^{-1}Var(θ^)⩾(nI(θ))−1.

6.5 贝叶斯估计

6.5.1 统计推断的基础

(1)总体信息
总体信息即总体分布或总体所属分布族提供的信息.
(2) 样本信息
样本信息即抽取样本所得观测值提供的信息.
(3) 先验信息
先验信息即是抽样 (试验)之前有关统计问题的一些信息. 一般说来, 先验信息来源于经验和历史资料.
基于上述三种信息进行统计推断的统计学称为贝叶斯统计学.
贝叶斯学派的基本观点是: 任一末知量 θ\thetaθ 都可看作随机变量, 可用一个概率分布去描述, 这个分布称为先验分布; 在获得样本之后, 总体分布、样本与先验分布通过贝叶斯公式结合起来得到一个关于末知量 θ\thetaθ 的新分布一一后验分布; 任 何关于 θ\thetaθ 的统计推断都应该基于 θ\thetaθ 的后验分布进行.

6.5.2 贝叶斯公式的密度函数形式

(1) 总体依赖于参数 θ\thetaθ 的概率函数在经典统计中记为 p(x;θ)p(x ; \theta)p(x;θ), 它表示参数 空间 Θ\ThetaΘ 中不同的 θ\thetaθ 对应不同的分布. 在贝叶斯统计中应记为 p(x∣θ)p(x \mid \theta)p(x∣θ), 它表示在随机变量 θ\thetaθ 取某个给定值时总体的条件概率函数.
(2) 根据参数 θ\thetaθ 的先验信息确定先验分布 π(θ)\pi(\theta)π(θ).
(3) 从贝叶斯观点看, 样本 X=(x1,⋯,xn)X=\left(x_1, \cdots, x_n\right)X=(x1​,⋯,xn​) 的产生要分两步进行. 首先设想从先验分布 π(θ)\pi(\theta)π(θ) 产生一个样本 θ0\theta_0θ0​. 这一步是 “老天爷” 做的, 人们是看不到的, 故用“设想”二字. 第二步从 p(X∣θ0)p\left(\boldsymbol{X} \mid \theta_0\right)p(X∣θ0​) 中产生一组样本. 这时样本 X=(x1,⋯,xn)\boldsymbol{X}=\left(x_1, \cdots, x_n\right)X=(x1​,⋯,xn​) 的联合条件概率函数为
p(X∣θ0)=p(x1,⋯,xn∣θ0)=∏i=1np(xi∣θ0),p\left(\boldsymbol{X} \mid \theta_0\right)=p\left(x_1, \cdots, x_n \mid \theta_0\right)=\prod_{i=1}^n p\left(x_i \mid \theta_0\right), p(X∣θ0​)=p(x1​,⋯,xn​∣θ0​)=i=1∏n​p(xi​∣θ0​),
这个分布综合了总体信息和样本信息.
(4) 由于 θ0\theta_0θ0​ 是设想出来的, 仍然是末知的, 它是按先验分布 π(θ)\pi(\theta)π(θ) 产生的. 为把先验信息综合进去, 不能只考虑 θ0\theta_0θ0​, 对 θ\thetaθ 的其他值发生的可能性也要加以考虑, 故要用 π(θ)\pi(\theta)π(θ) 进行综合. 这样一来, 样本 XXX 和参数 θ\thetaθ 的联合分布为
h(X,θ)=p(X∣θ)π(θ).h(X, \theta)=p (X | \theta ) \pi(\theta) . h(X,θ)=p(X∣θ)π(θ).
这个联合分布把总体信息、样本信息和先验信息三种可用信息都综合进去了.
(5) 我们的目的是要对末知参数 θ\thetaθ 作统计推断. 在没有样本信息时, 我们只 能依据先验分布对 θ\thetaθ 作出推断. 在有了样本观测值 X=(x1,⋯,xn)X=\left(x_1, \cdots, x_n\right)X=(x1​,⋯,xn​) 之后, 我们应依据 h(X,θ)h(X, \theta)h(X,θ) 对 θ\thetaθ 作出推断. 若把 h(X,θ)h(X, \theta)h(X,θ) 作如下分解:
h(X,θ)=π(θ∣X)m(X),h(\boldsymbol{X}, \theta)=\pi(\theta \mid \boldsymbol{X}) m(\boldsymbol{X}), h(X,θ)=π(θ∣X)m(X),
其中 m(X)m(X)m(X) 是 X\boldsymbol{X}X 的边际概率函数
m(X)=∫θh(X,θ)dθ=∫θp(X∣θ)π(θ)dθ,m(\boldsymbol{X})=\int_\theta h(\boldsymbol{X}, \theta) \mathrm{d} \theta=\int_{\boldsymbol{\theta}} p(\boldsymbol{X} \mid \theta) \pi(\theta) \mathrm{d} \theta, m(X)=∫θ​h(X,θ)dθ=∫θ​p(X∣θ)π(θ)dθ,
它与 θ\thetaθ 无关, 或者说 m(X)m(\boldsymbol{X})m(X) 中不含 θ\thetaθ 的任何信息. 因此能用来对 θ\thetaθ 作出推断的仅是条件分布 π(θ∣X)\pi(\theta \mid \boldsymbol{X})π(θ∣X), 它的计算公式是
π(θ∣X)=h(X,θ)m(X)=p(X∣θ)π(θ)∫θp(X∣θ)π(θ)dθ.\pi(\theta \mid \boldsymbol{X})=\frac{h(\boldsymbol{X}, \theta)}{m(\boldsymbol{X})}=\frac{p(\boldsymbol{X} \mid \theta) \pi(\theta)}{\int_\theta p(\boldsymbol{X} \mid \theta) \pi(\theta) \mathrm{d} \theta} . π(θ∣X)=m(X)h(X,θ)​=∫θ​p(X∣θ)π(θ)dθp(X∣θ)π(θ)​.
这个条件分布称为 θ\thetaθ 的后验分布, 它集中了总体、样本和先验中有关 θ\thetaθ 的一切信 息.

6.5.3 贝叶斯估计

由后验分布 π(θ∣X)\pi(\theta \mid X)π(θ∣X) 估计 θ\thetaθ 有三种常用的方法:

  • 使用后验分布的密度函数最大值点作为 θ\thetaθ 的点估计的最大后验估计.
  • 使用后验分布的中位数作为 θ\thetaθ 的点估计的后验中位数估计.
  • 使用后验分布的均值作为 θ\thetaθ 的点估计的后验期望估计.

用得最多的是后验期望估计,它一般也简称为贝叶斯估计, 记为 θ^B\hat{\theta}_Bθ^B​.

6.5.4 共轭先验分布

定义 6.5.1
设 θ\thetaθ 是总体分布 p(x;θ)p(x ; \theta)p(x;θ) 中的参数, π(θ)\pi(\theta)π(θ) 是其先验分布, 若对任意来自 p(x;θ)p(x ; \theta)p(x;θ) 的样本观测值得到的后验分布 π(θ∣X)\pi(\theta \mid X)π(θ∣X) 与 π(θ)\pi(\theta)π(θ) 属于同一个分布族, 则称该分布族是 θ\thetaθ 的共轭先验分布 (族).

6.6 区间估计

6.6.1 区间估计的概念

定义 6.6.1
设 θ\thetaθ 是总体的一个参数, 其参数空间为 Θ,x1,⋯,xn\Theta, x_1, \cdots, x_nΘ,x1​,⋯,xn​ 是来自该总体的样本, 对给定的一个 α(0<α<1)\alpha(0<\alpha<1)α(0<α<1), 假设有两个统计量 θ^L=θ^L(x1,⋯,xn)\hat{\theta}_L=\hat{\theta}_L\left(x_1, \cdots, x_n\right)θ^L​=θ^L​(x1​,⋯,xn​) 和 θ^U=θ^U(x1,⋯,xn)\hat{\theta}_U=\hat{\theta}_U\left(x_1, \cdots, x_n\right)θ^U​=θ^U​(x1​,⋯,xn​), 若对任意的 θ∈Θ\theta \in \Thetaθ∈Θ, 有
Pθ(θ^L⩽θ⩽θ^v)⩾1−α,P_\theta\left(\hat{\theta}_L \leqslant \theta \leqslant \hat{\theta}_v\right) \geqslant 1-\alpha, Pθ​(θ^L​⩽θ⩽θ^v​)⩾1−α,
则称随机区间 [θ^L,θ^U]\left[\hat{\theta}_L, \hat{\theta}_U\right][θ^L​,θ^U​] 为 θ\thetaθ 的置信水平为 1−α1-\alpha1−α 的置信区间, 或简称 [θ^L,θ^U]\left[\hat{\theta}_L, \hat{\theta}_U\right][θ^L​,θ^U​] 是 θ\thetaθ 的 1−α1-\alpha1−α 置信区间, θ^L\hat{\theta}_Lθ^L​ 和 θ^U\hat{\theta}_Uθ^U​ 分别称为 θ\thetaθ 的 (双侧) 置信下限置信上限.

定义 6.6.2
沿用 定义 6.6.1 的记号, 如对给定的 α(0<α<1)\alpha(0<\alpha<1)α(0<α<1), 对任意的 θ∈Θ\theta \in \Thetaθ∈Θ, 有
Pθ(θ^L⩽θ⩽θ^v)=1−α,P_\theta\left(\hat{\theta}_L \leqslant \theta \leqslant \hat{\theta}_v\right)=1-\alpha, Pθ​(θ^L​⩽θ⩽θ^v​)=1−α,
则称 [θ^L,θ^U]\left[\hat{\theta}_L, \hat{\theta}_U\right][θ^L​,θ^U​] 为 θ\thetaθ 的 1−α1-\alpha1−α 同等置信区间.

定义 6.6.3
设 θ^L=θ^L(x1,⋯,xn)\hat{\theta}_L=\hat{\theta}_L\left(x_1, \cdots, x_n\right)θ^L​=θ^L​(x1​,⋯,xn​) 是统计量, 对给定的 α∈(0,1)\alpha \in(0,1)α∈(0,1) 和任意的 θ∈Θ\theta \in \Thetaθ∈Θ, 有
Pθ(θ^L⩽θ)⩾1−α,∀θ∈Θ,P_\theta\left(\hat{\theta}_L \leqslant \theta\right) \geqslant 1-\alpha, \quad \forall \theta \in \Theta, Pθ​(θ^L​⩽θ)⩾1−α,∀θ∈Θ,
则称 θ^L\hat{\theta}_Lθ^L​ 为 θ\thetaθ 的置信水平为 1−α1-\alpha1−α 的 (单侧) 置信下限. 假如等号对一切 θ∈Θ\theta \in \Thetaθ∈Θ 成立, 则称 θ^L\hat{\theta}_Lθ^L​ 为 θ\thetaθ 的 1−α1-\alpha1−α 同等置信下限.

定义 6.6.4
设 θ^U=θ^U(x1,⋯,xn)\hat{\theta}_U=\hat{\theta}_U\left(x_1, \cdots, x_n\right)θ^U​=θ^U​(x1​,⋯,xn​) 是统计量, 对给定的 α∈(0,1)\alpha \in(0,1)α∈(0,1) 和任意的 θ∈Θ\theta \in \Thetaθ∈Θ, 有
Pθ(θ^U⩾θ)⩾1−α,P_\theta\left(\hat{\theta}_U \geqslant \theta\right) \geqslant 1-\alpha, Pθ​(θ^U​⩾θ)⩾1−α,
则称 θ^U\hat{\theta}_Uθ^U​ 为 θ\thetaθ 的置信水平为 1−α1-\alpha1−α 的(单侧) 置信上限. 若等号对一切 θ∈Θ\theta \in \Thetaθ∈Θ 成立, 则称 θ^U\hat{\theta}_Uθ^U​ 为 θ\thetaθ 的 1−α1-\alpha1−α 同等置信上限.

6.6.2 枢轴量法

构造末知参数 θ\thetaθ 的置信区间的最常用的方法是枢轴量法, 其步聚可以概括为如下三步:

  1. 设法构造一个样本和 θ\thetaθ 的函数 G=G(x1,⋯,xn,θ)G=G\left(x_1, \cdots, x_{\mathrm{n}}, \theta\right)G=G(x1​,⋯,xn​,θ) 使得 GGG 的分布不依赖于末知参数. 一般称具有这种性质的 GGG 为枢轴量.
  2. 适当地选择两个常数 c,dc, dc,d, 使对给定的 α(0<α<1)\alpha(0<\alpha<1)α(0<α<1), 有
    P(c⩽G⩽d)=1−α.P(c \leqslant G \leqslant d)=1-\alpha . P(c⩽G⩽d)=1−α.
    在离散场合, 上式等号改为大于等于 (⩾)(\geqslant)(⩾).
  3. 假如能将 c⩽G⩽dc \leqslant G \leqslant dc⩽G⩽d 进行不等式等价变形化为 θ^L⩽θ⩽θ^U\hat{\theta}_L\leqslant \theta \leqslant \hat{\theta}_Uθ^L​⩽θ⩽θ^U​, 则有
    Pθ(θ^L⩽θ⩽θ^U)=1−α,P_{\theta}\left(\hat{\theta}_L \leqslant \theta \leqslant \hat{\theta}_U\right)=1-\alpha, Pθ​(θ^L​⩽θ⩽θ^U​)=1−α,
    这表明 [θ^L,θ^U]\left[\hat{\theta}_L, \hat{\theta}_{U}\right][θ^L​,θ^U​] 是 θ\thetaθ 的 1−α1-\alpha1−α 同等置信区间.

枢轴量的寻找一般从 θ\thetaθ 的点估计出发. 而满足的 c,dc, dc,d 可以有很多, 选择的目的是平均长度 Eθ(θ^U−θ^L)E_\theta\left(\hat{\theta}_U-\hat{\theta}_L\right)Eθ​(θ^U​−θ^L​) 尽可能短. 假如可以找到这样的 c,dc, dc,d 使 Eθ(θ^U−θ^L)E_\theta\left(\hat{\theta}_U-\hat{\theta}_L\right)Eθ​(θ^U​−θ^L​) 达到最短当然是最好的, 不过在不少场合很难做到这一点. 故常这样选择 ccc 和 ddd, 使得两个尾部概率各为 α/2\alpha / 2α/2, 即
Pθ(G<c)=Pθ(G>d)=α/2,P_\theta(G<c)=P_\theta(G>d)=\alpha / 2, Pθ​(G<c)=Pθ​(G>d)=α/2,
这样得到的置信区间称为等尾置信区间. 实用的置信区间大都是等尾置信区间.

6.6.3 单个正态总体参数的置信区间

正态总体 N(μ,σ2)N\left(\mu, \sigma^2\right)N(μ,σ2) 是最常见的分布, 本小节中我们讨论它的两个参数的置信区间.
一、 σ\sigmaσ 已知时 μ\muμ 的置信区间
在这种情况下, 由于 μ\muμ 的点估计为 xˉ\bar{x}xˉ, 其分布为 N(μ,σ2/n)N\left(\mu, \sigma^2 / n\right)N(μ,σ2/n), 因此枢轴量可选为 G=xˉ−μσ/n∼N(0,1),cG=\frac{\bar{x}-\mu}{\sigma / \sqrt{n}} \sim N(0,1), cG=σ/n​xˉ−μ​∼N(0,1),c 和 ddd 应满足 P(c⩽G⩽d)=Φ(d)−Φ(c)=1−αP(c \leqslant G \leqslant d)=\Phi(d)-\Phi(c)=1-\alphaP(c⩽G⩽d)=Φ(d)−Φ(c)=1−α, 经过不等式变形可得Pμ(xˉ−dσ/n⩽μ⩽xˉ−cσ/n)=1−α,P_\mu(\bar{x}-d \sigma / \sqrt{n} \leqslant \mu \leqslant \bar{x}-c \sigma / \sqrt{n})=1-\alpha, Pμ​(xˉ−dσ/n​⩽μ⩽xˉ−cσ/n​)=1−α,
由此给出了 μ\muμ 的 1−α1-\alpha1−α 同等置信区间为
[xˉ−u1−a/2σ/n,xˉ+u1−α/2σ/n].\left[\bar{x}-u_{1-\mathrm{a}/2} \sigma / \sqrt{n}, \quad \bar{x}+u_{1-\alpha / 2} \sigma / \sqrt{n}\right] . [xˉ−u1−a/2​σ/n​,xˉ+u1−α/2​σ/n​].

二、 σ\sigmaσ 末知时 μ\muμ 的置信区间
这时可用 ttt 统计量, 因为 t=n(xˉ−μ)s∼t(n−1)t=\frac{\sqrt{n}(\bar{x}-\mu)}{s} \sim t(n-1)t=sn​(xˉ−μ)​∼t(n−1), 因此 ttt 可以用来作为枢轴量, 可得到 μ\muμ 的 1−α1-\alpha1−α 置信区间为
xˉ±t1−α/2(n−1)s/n\bar{x} \pm t_{1-\alpha / 2}(n-1) s / \sqrt{n} xˉ±t1−α/2​(n−1)s/n​
此处 s2=1n−1∑i=1n(xi−xˉ)2s^2=\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2s2=n−11​∑i=1n​(xi​−xˉ)2 是 σ2\sigma^2σ2 的无偏估计.

三、 σ2\sigma^2σ2 的置信区间
我们只在 μ\muμ 末知的条件下讨论 σ2\sigma^2σ2 的置信区间. 在 5.35.35.3 中我们已经证明 (n−1)s2σ2∼χ2(n−1)\frac{(n-1) s^2}{\sigma^2} \sim \chi^2(n-1)σ2(n−1)s2​∼χ2(n−1), 给出 σ2\sigma^2σ2 的 1−α1-\alpha1−α 置信区间为
[(n−1)s2/χ1−α/22(n−1),(n−1)s2/χn/22(n−1)]. \left[(n-1) s^2 / \chi_{1-\alpha / 2}^2(n-1), \quad(n-1) s^2 / \chi_{n / 2}^2(n-1)\right] \text {. } [(n−1)s2/χ1−α/22​(n−1),(n−1)s2/χn/22​(n−1)]. 
将两端开方即得到标准差 σ\sigmaσ 的 1−α1-\alpha1−α 置信区间.

6.6.4 大样本置信区间

设 x1,⋯,xnx_1, \cdots, x_nx1​,⋯,xn​ 是来自二点分布 b(1,p)b(1, p)b(1,p) 的样本, 现要求 ppp 的 1−α1-\alpha1−α 置信区间. 由中心极限定理知, 样本均值 xˉ\bar{x}xˉ 的渐近分布为 N(p,p(1−p)n)N\left(p, \frac{p(1-p)}{n}\right)N(p,np(1−p)​), 因此有
u=xˉ−pp(1−p)/n∼˙N(0,1).u=\frac{\bar{x}-p}{\sqrt{p(1-p) / n}} \dot{\sim}N(0,1) . u=p(1−p)/n​xˉ−p​∼˙N(0,1).
可将置信区间近似为
[xˉ−u1−α/2xˉ(1−xˉ)n,xˉ+u1−α/2xˉ(1−xˉ)n]. \left[\bar{x}-u_{1-\alpha / 2} \sqrt{\frac{\bar{x}(1-\bar{x})}{n}}, \bar{x}+u_{1-\alpha / 2} \sqrt{\frac{\bar{x}(1-\bar{x})}{n}}\right] \text {. } [xˉ−u1−α/2​nxˉ(1−xˉ)​​,xˉ+u1−α/2​nxˉ(1−xˉ)​​].

6.6.5 样本量的确定

根据之前构建的置信区间长度判断。

6.6.6 两个正态总体下的置信区间

设 x1,⋯,xmx_1, \cdots, x_mx1​,⋯,xm​ 是来自 N(μ1,σ12)N\left(\mu_1, \sigma_1^2\right)N(μ1​,σ12​) 的样本, y1,⋯,yny_1, \cdots, y_ny1​,⋯,yn​ 是来自 N(μ2,σ22)N\left(\mu_2, \sigma_2^2\right)N(μ2​,σ22​) 的样本, 且两个样本相互独立. xˉ\bar{x}xˉ 与 yˉ\bar{y}yˉ​ 分别是它们的样本均值, sx2=1m−1∑i=1n(xi−xˉ)2s_x^2=\frac{1}{m-1} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2sx2​=m−11​∑i=1n​(xi​−xˉ)2 和 sy2=1n−1∑i=1n(yi−yˉ)2s_y^2=\frac{1}{n-1} \sum_{i=1}^n\left(y_i-\bar{y}\right)^2sy2​=n−11​∑i=1n​(yi​−yˉ​)2 分别是它们的样本方差. 下面讨论两个均值差和两个方差比的䍜信区间.
一、 μ1−μ2\mu_1-\mu_2μ1​−μ2​ 的置信区间

  • 1. σ12\sigma_1^2σ12​ 和 σ22\sigma_2^2σ22​ 已知时
    此时有 xˉ−yˉ∼N(μ1−μ2,σ12m+σ22n)\bar{x}-\bar{y} \sim N\left(\mu_1-\mu_2, \frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}\right)xˉ−yˉ​∼N(μ1​−μ2​,mσ12​​+nσ22​​), 取枢轴量为u=xˉ−yˉ−(μ1−μ2)σ12m+σ22n∼N(0,1),u=\frac{\bar{x}-\bar{y}-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} \sim N(0,1), u=mσ12​​+nσ22​​​xˉ−yˉ​−(μ1​−μ2​)​∼N(0,1),
    沿用前面多次用过的方法可以得到 μ1−μ2\mu_1-\mu_2μ1​−μ2​ 的 1−α1-\alpha1−α 置信区间为
    xˉ−yˉ±u1−α/2σ12m+σ22n\bar{x}-\bar{y} \pm u_{1-\alpha / 2} \sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}} xˉ−yˉ​±u1−α/2​mσ12​​+nσ22​​​

  • 2. σ12=σ22=σ2\sigma_1^2=\sigma_2^2=\sigma^2σ12​=σ22​=σ2 末知时此时有
    xˉ−yˉ∼N(μ1−μ2,(1m+1n)σ2),(m−1)s;2+(n−1)sy2σ2∼χ2(m+n−2),\begin{gathered} \bar{x}-\bar{y} \sim N\left(\mu_1-\mu_2,\left(\frac{1}{m}+\frac{1}{n}\right) \sigma^2\right), \\ \frac{(m-1) s_{;}^2+(n-1) s_y^2}{\sigma^2} \sim \chi^2(m+n-2), \end{gathered} xˉ−yˉ​∼N(μ1​−μ2​,(m1​+n1​)σ2),σ2(m−1)s;2​+(n−1)sy2​​∼χ2(m+n−2),​
    由于 xˉ,yˉ,sx2,sy2\bar{x}, \bar{y}, s_x^2, s_y^2xˉ,yˉ​,sx2​,sy2​ 相互独立, 故可构造如下服从 ttt 分布 t(m+n−2)t(m+n-2)t(m+n−2) 的枢轴量
    t=mn(m+n−2)m+nxˉ−yˉ−(μ1−μ2)(m−1)sx2+(n−1)sy2∼t(m+n−2).t=\sqrt{\frac{m n(m+n-2)}{m+n}} \frac{\bar{x}-\bar{y}-\left(\mu_1-\mu_2\right)}{\sqrt{(m-1) s_x^2+(n-1) s_y^2}} \sim t(m+n-2) . t=m+nmn(m+n−2)​​(m−1)sx2​+(n−1)sy2​​xˉ−yˉ​−(μ1​−μ2​)​∼t(m+n−2).
    记 sw2=(m−1)sx2+(n−1)sy2m+n−2s_w^2=\frac{(m-1) s_x^2+(n-1) s_y^2}{m+n-2}sw2​=m+n−2(m−1)sx2​+(n−1)sy2​​, 则 μ1−μ2\mu_1-\mu_2μ1​−μ2​ 的置信区间为
    xˉ−yˉ±m+nmnswt1−a/2(m+n−2)\bar{x}-\bar{y} \pm \sqrt{\frac{m+n}{m n}} s_w t_{1-a / 2}(m+n-2) xˉ−yˉ​±mnm+n​​sw​t1−a/2​(m+n−2)

  • 3. σ22/σ12=c\sigma_2^2 / \sigma_1^2=cσ22​/σ12​=c 已知时
    此时的处理方法与 2 中完全类似, 只需注意到
    记 s2=(m−1)sx2+(n−1)sy2/cm+n−2s^2=\frac{(m-1) s_x^2+(n-1) s_y^2 / c}{m+n-2}s2=m+n−2(m−1)sx2​+(n−1)sy2​/c​, 则 μ1−μ2\mu_1-\mu_2μ1​−μ2​ 的 1−α1-\alpha1−α 置信区间为
    xˉ−yˉ±mc+nmnswt1−α/2(m+n−2),\bar{x}-\bar{y} \pm \sqrt{\frac{m c+n}{m n}} s_w t_{1-\alpha / 2}(m+n-2), xˉ−yˉ​±mnmc+n​​sw​t1−α/2​(m+n−2),

  • 4. 当 mmm 和 nnn 都很大时的近似置信区间
    若对 σ12,σ22\sigma_1^2, \sigma_2^2σ12​,σ22​ 没有什么信息, 当 m,nm, nm,n 都很大时, 由中心极限定理知
    xˉ−yˉ−(μ1−μ2)s2m+s2n∼˙N(0,1).\frac{\bar{x}-\bar{y}-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{s^2}{m}+\frac{s^2}{n}}} \dot{\sim} N(0,1) . ms2​+ns2​​xˉ−yˉ​−(μ1​−μ2​)​∼˙N(0,1).
    由此可给出 μ1−μ2\mu_1-\mu_2μ1​−μ2​ 的 1−α1-\alpha1−α 近似置信区间为
    xˉ−yˉ±u1−α/2s2m+s2n.\bar{x}-\bar{y} \pm u_{1-\alpha / 2} \sqrt{\frac{s^2}{m}+\frac{s^2}{n}} . xˉ−yˉ​±u1−α/2​ms2​+ns2​​.

  • 5. 一般情况下的近似置信区间
    若对 σ12,σ22\sigma_1^2, \sigma_2^2σ12​,σ22​ 没有什么信息, m,nm, nm,n 也不很大,求 μ1−μ2\mu_1-\mu_2μ1​−μ2​ 的精确置信区间, 这里介绍一种近似方法: 令 s02=sx2/m+sy2/ns_0^2=s_x^2 / m+s_y^2 / ns02​=sx2​/m+sy2​/n, 取近似枢轴量
    T=[xˉ−yˉ−(μ1−μ2)]/s0,T=\left[\bar{x}-\bar{y}-\left(\mu_1-\mu_2\right)\right] / s_0, T=[xˉ−yˉ​−(μ1​−μ2​)]/s0​,
    此时 TTT 既不服从 N(0,1)N(0,1)N(0,1) 也不服从 ttt 分布. 但近似服从自由度为 lll 的 ttt 分布, 其中 lll 由公式
    l=s04sx4m2(m−1)+sy4n2(n−1)l=\frac{s_0^4}{\frac{s_x^4}{m^2(m-1)}+\frac{s_y^4}{n^2(n-1)}} l=m2(m−1)sx4​​+n2(n−1)sy4​​s04​​
    决定, lll 一般不为整数, 可以取与 lll 最接近的整数代替之. 于是, 近似地有 T∼T \simT∼ t(l)t(l)t(l), 从而可得 μ1−μ2\mu_1-\mu_2μ1​−μ2​ 的 1- α\alphaα 近似置信区间为
    xˉ−yˉ±s0t1−a/2(l). \bar{x}-\bar{y} \pm s_0 t_{1-a / 2}(l) \text {. } xˉ−yˉ​±s0​t1−a/2​(l).

二、 σ12/σ22\sigma_1^2 / \sigma_2^2σ12​/σ22​ 的置信区间
由于 (m−1)sx2/σ12∼χ2(m−1),(n−1)sy2/σ22∼χ2(n−1)(m-1) s_x^2 / \sigma_1^2 \sim \chi^2(m-1),(n-1) s_y^2 / \sigma_2^2 \sim \chi^2(n-1)(m−1)sx2​/σ12​∼χ2(m−1),(n−1)sy2​/σ22​∼χ2(n−1), 且 sx2s_x^2sx2​ 与 sy2s_y^2sy2​ 相互独立, 故 可仿照 FFF 变量构造如下权轴量:
F=si2/σ12sy2/σ22∼F(m−1,n−1),F=\frac{s_i^2 / \sigma_1^2}{s_y^2 / \sigma_2^2} \sim F(m-1, n-1), F=sy2​/σ22​si2​/σ12​​∼F(m−1,n−1),
对给定的置信水平 1- α\alphaα, 由
P(Fa/2(m−1,n−1)⩽sx2sy2⋅σ22σ12⩽F1−a/2(m−1,n−1))=1−α,P\left(F_{a / 2}(m-1, n-1) \leqslant \frac{s_x^2}{s_y^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \leqslant F_{1-a/2}(m-1, n-1)\right)=1-\alpha, P(Fa/2​(m−1,n−1)⩽sy2​sx2​​⋅σ12​σ22​​⩽F1−a/2​(m−1,n−1))=1−α,
经不等式变形即给出 σ12/σ22\sigma_1^2 / \sigma_2^2σ12​/σ22​ 的如下的 1−α1-\alpha1−α 置信区间:
[sx2sy2⋅1F1−α/2(m−1,n−1),ss2sy2⋅1Fα/2(m−1,n−1)].\left[\frac{s_x^2}{s_y^2} \cdot \frac{1}{F_{1-\alpha / 2}(m-1, n-1)}, \frac{s_s^2}{s_y^2} \cdot \frac{1}{F_{\alpha / 2}(m-1, n-1)}\right] . [sy2​sx2​​⋅F1−α/2​(m−1,n−1)1​,sy2​ss2​​⋅Fα/2​(m−1,n−1)1​].

概率论与数理统计系列笔记之第六章——参数估计相关推荐

  1. 概率论与数理统计系列笔记之第五章——统计量及其分布

    概率论与数理统计笔记(第五章--统计量及其分布) 对于统计专业来说,书本知识总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,主要参考用书是茆诗松老师编写的<概率论与数理统计教程&g ...

  2. 概率论与数理统计系列笔记之第四章——大数定理与中心极限定理

    概率论与数理统计笔记(第四章 大数定理与中心极限定理) 对于统计专业来说,书本知识总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,主要参考用书是茆诗松老师编写的<概率论与数理统计教 ...

  3. 概率论||期末考试复习手写笔记-第五六七章(知识点+例题)第五章 常用统计分布 第六章 参数估计 第七章 假设检验

    第五章  常用统计分布 考点一:常用统计量 考点二:三大统计分布 考点三:抽样分布(单正态总体+双正态总体) 第六章 参数估计 考点一: 估计量的评价标准(无偏性+有效性+相合性) 考点二:点估计的常 ...

  4. 系统架构师学习笔记_第六章(下)_连载

    系统架构师学习笔记_第六章(下)_连载 6.3 基于 UML 的软件开发过程 6.3.1  开发过程概述 UML 是独立于软件开发过程的,能够在几乎任何一种软件开发过程中使用.迭代的渐进式软件开发过程 ...

  5. PMBOK(第六版) 学习笔记 ——《第六章 项目进度管理》

    系列文章目录 PMBOK(第六版) 学习笔记 --<第一章 引论> PMBOK(第六版) 学习笔记 --<第二章 项目运行环境> PMBOK(第六版) 学习笔记 --<第 ...

  6. 机器学习理论《统计学习方法》学习笔记:第六章 逻辑斯谛回归与最大熵模型

    机器学习理论<统计学习方法>学习笔记:第六章 逻辑斯谛回归与最大熵模型 6 逻辑斯谛回归与最大熵模型 6.1 逻辑斯谛回归模型 6.1.1 逻辑斯谛分布 6.1.2 二项逻辑斯蒂回归模型 ...

  7. [转]《精通Javascript》笔记:第六章(事件)

    <精通Javascript>笔记:第六章(事件) Published by sansan at 11:41 am under 前端|Front-End 事件模型:捕获和冒泡 通过oneve ...

  8. [go学习笔记.第十六章.TCP编程] 3.项目-海量用户即时通讯系统-redis介入,用户登录,注册

    1.实现功能-完成用户登录 在redis手动添加测试用户,并画出示意图以及说明注意事项(后续通过程序注册用户) 如:输入用户名和密码,如果在redis中存在并正确,则登录,否则退出系统,并给出相应提示 ...

  9. 李弘毅机器学习笔记:第六章—Logistic Regression

    李弘毅机器学习笔记:第六章-Logistic Regression logistic回归 Step1 逻辑回归的函数集 Step2 定义损失函数 Step3 寻找最好的函数 损失函数:为什么不学线性回 ...

最新文章

  1. thymeleaf 的常见属性
  2. 我的第一个VUE示例
  3. 题目1105:字符串的反码
  4. Hive中的一种假NULL
  5. rax+react hook 实现分页效果
  6. 动态规划——最长公共子序列长度
  7. 基于阿里云Serverless架构下函数计算的最新应用场景详解(二)
  8. 多机器人路径规划的代码_知荐 | 地平线机器人算法工程师总结六大路径规划算法...
  9. detectron2训练自己的数据集_TensorFlow2学习十五、使用VGG16模型训练自己的数据集...
  10. NMath应用教程:如何通过代码访问底层数据和应用函数
  11. c语言中printf读入方向,C语言习题答案.doc
  12. 51单片机对直流电机的控制
  13. 浙江省计算机二级理论知识,2020年浙江省高校计算机二级MS Office考试大纲
  14. modelica语言学习心得
  15. mysql查询语句创建临时表_MySQL 临时表_mysql临时表创建_mysql临时表创建
  16. burpsuite代理
  17. 服务器连接异常系统无法登录,Win10系统电脑无法登录LOL提示服务器连接异常的原因及解决方法...
  18. JVM (二) 垃圾回收机制概念+垃圾回收器种类
  19. jquery append()方法与html()方法用法区别
  20. input输入框type参数

热门文章

  1. 一键备份还原ghost_一键ghost硬盘版_onekey ghost_一键还原精灵
  2. c语言最大数最小数平均数,C语言编程 求两个数的平均值方法(三种方法)
  3. 酒精测试仪检测方法分析
  4. 短序列比对利器-bwa
  5. 软件测试中重点测什么,在软件测试中,测试员到底扮演着一个什么样的角色?...
  6. 给中国学生的第三封信(李开复)
  7. word文档参考文献如何自动编号
  8. 深入理解 vue DOM 更新时机
  9. 【报告分享】2021中国锂电行业发展-德勤(附下载)
  10. sae中如何rewrite