伯努利分布的参数估计

设事件AAA发生的概率为θ\thetaθ，为了估计θ\thetaθ，进行了nnn次独立观察，其中事件A出现的次数为mmm。

统计量

样本均值：

x‾=1n∑i=1nxi=mn\overline{x} = \frac{1}{n}\sum_{i=1}^nx_i = \frac{m}{n}x=n1∑i=1nxi=nm

样本方差：

sn2=1n∑i=1n(xi−x‾)2s_n^2 = \frac{1}{n} \sum_{i=1}^n(x_i - \overline{x})^2sn2=n1∑i=1n(xi−x)2

=1n∑i=1n(xi2−2xix‾+x‾2)=\frac{1}{n}\sum_{i=1}^n(x_i^2 - 2x_i\overline{x} + \overline{x}^2)=n1∑i=1n(xi2−2xix+x2)

=1n(∑i=1nxi2−2x‾∑i=1nxi+∑i=1nx‾2)=\frac{1}{n}(\sum_{i=1}^nx_i^2 - 2\overline{x}\sum_{i=1}^nx_i + \sum_{i=1}^n\overline{x}^2)=n1(∑i=1nxi2−2x∑i=1nxi+∑i=1nx2)

=1n(m−2mx‾+nx‾2)=\frac{1}{n}(m - 2m\overline{x} + n\overline{x}^2)=n1(m−2mx+nx2)

=1n(m−2mmn+nm2n2)=\frac{1}{n}(m - 2m\frac{m}{n} + n\frac{m^2}{n^2})=n1(m−2mnm+nn2m2)

=mn(1−mn)=\frac{m}{n}(1 - \frac{m}{n})=nm(1−nm)

=x‾(1−x‾)=\overline{x}(1-\overline{x})=x(1−x)

大样本情况下的区间估计

大样本情况下，样本均值x‾\overline{x}x的渐近分布为N(θ,σ2/n)N(\theta, \sigma^2/n)N(θ,σ2/n)。因此有x‾−θσ/n∼N(0,1)\frac{\overline{x}-\theta}{\sigma/\sqrt{n}} \sim N(0, 1)σ/nx−θ∼N(0,1)

p(∣x‾−θσ/n∣≤Zα/2)=1−αp(|\frac{\overline{x}-\theta}{\sigma/\sqrt{n}}| \le Z_{\alpha/2}) = 1-\alphap(∣σ/nx−θ∣≤Zα/2)=1−α

p(x‾−Zα/2σn≤θ≤x‾+Zα/2σn)=1−αp(\overline{x}-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le\theta\le \overline{x}+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}) = 1 - \alphap(x−Zα/2nσ≤θ≤x+Zα/2nσ)=1−α

在总体标准差σ\sigmaσ未知情况下，用样本标准差sns_nsn代替，得到：

p(x‾−Zα/2x‾(1−x‾)n≤μ≤x‾+Zα/2x‾(1−x‾)n)=1−αp(\overline{x}-Z_{\alpha/2}\sqrt{\frac{\overline{x}(1-\overline{x})}{n}}\le\mu\le \overline{x}+Z_{\alpha/2}\sqrt{\frac{\overline{x}(1-\overline{x})}{n}}) = 1 - \alphap(x−Zα/2nx(1−x)≤μ≤x+Zα/2nx(1−x))=1−α

得到置信度为1−α1-\alpha1−α的区间估计[x‾−Zα/2x‾(1−x‾)n,x‾+Zα/2x‾(1−x‾)n][\overline{x}-Z_{\alpha/2}\sqrt{\frac{\overline{x}(1-\overline{x})}{n}}, \overline{x}+Z_{\alpha/2}\sqrt{\frac{\overline{x}(1-\overline{x})}{n}}][x−Zα/2nx(1−x),x+Zα/2nx(1−x)]

贝叶斯估计

贝叶斯学派最基本的观点是：任一未知量θ\thetaθ都可看做随机变量，可用一个概率分布去描述，这个分布称为先验分布。设 θ\thetaθ 的先验分布为Be(a,b)Be(a, b)Be(a,b)分布：

KaTeX parse error: No such environment: equation at position 7: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \pi(\theta)=\l…

p(x∣θ)=(nx)θx(1−θ)n−x,x=0,1,...,np(x|\theta)=(\frac{n}{x})\theta^x(1-\theta)^{n-x}, x=0,1,...,np(x∣θ)=(xn)θx(1−θ)n−x,x=0,1,...,n

h(x,θ)=p(x∣θ)π(θ)=(nx)Γ(a+b)Γ(a)Γ(b)θa+x−1(1−θ)n+b−x−1,x=0,1,...,n;0<θ<1h(x,\theta) = p(x|\theta)\pi(\theta) = (\frac{n}{x})\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\theta^{a+x-1}(1-\theta)^{n + b -x-1}, x=0,1,...,n;0<\theta < 1h(x,θ)=p(x∣θ)π(θ)=(xn)Γ(a)Γ(b)Γ(a+b)θa+x−1(1−θ)n+b−x−1,x=0,1,...,n;0<θ<1

π(θ∣x)=h(x,θ)∫o1h(x,θ)dθ=Γ(a+b+n)Γ(a+x)Γ(b+n−x)θa+x−1(1−θ)b+n−x−1,0<θ<1\pi(\theta|x) = \frac{h(x,\theta)}{\int_{o}^1h(x,\theta)d\theta} = \frac{\Gamma(a+b+n)}{\Gamma(a+x)\Gamma(b+n-x)}\theta^{a+x-1}(1-\theta)^{b+n-x-1},0<\theta<1π(θ∣x)=∫o1h(x,θ)dθh(x,θ)=Γ(a+x)Γ(b+n−x)Γ(a+b+n)θa+x−1(1−θ)b+n−x−1,0<θ<1

可以看出后验分布为Be(a+x,b+n−x)Be(a+x, b+n-x)Be(a+x,b+n−x)，结合了先验分布，样本信息，总体信息。

(1). 假设我们对θ\thetaθ有一些了解，比如历史数据中观察到若干个值θ1,θ2,...,θn\theta_1,\theta_2,...,\theta_nθ1,θ2,...,θn。由此可算得先验均值和先验方差：

θ‾=1n∑i=1nθi\overline{\theta}=\frac{1}{n}\sum_{i=1}^n\theta_iθ=n1∑i=1nθi

sn2=1n∑i=1n(θi−θ‾)2s_{n}^2=\frac{1}{n}\sum_{i=1}^n(\theta_i-\overline{\theta})^2sn2=n1∑i=1n(θi−θ)2

由于beta分布的均值为方差分别为：

E(θ)=aa+bE(\theta)=\frac{a}{a+b}E(θ)=a+ba

Var(θ)=ab(a+b)2(a+b+1)Var(\theta)=\frac{ab}{(a+b)^2(a+b+1)}Var(θ)=(a+b)2(a+b+1)ab

则令

E^(θ)=θ‾,Var^(θ)=sn2\hat{E}(\theta) = \overline{\theta}, \hat{Var}(\theta)=s_n^2E^(θ)=θ,Var^(θ)=sn2

得到a和b的矩估计值：

a^=θ‾[(1−θ‾)θ‾sn2−1]\hat{a} = \overline{\theta}[\frac{(1-\overline{\theta})\overline{\theta}}{s_n^2}-1]a^=θ[sn2(1−θ)θ−1]

b^=(1−θ‾)[(1−θ‾)θ‾sn2−1]\hat{b}=(1-\overline{\theta})[\frac{(1-\overline{\theta})\overline{\theta}}{s_n^2} - 1]b^=(1−θ)[sn2(1−θ)θ−1]

(2). 假设我们对θ\thetaθ了解很少，可以假设θ\thetaθ的先验分布为0，1之间的均匀分布，也就是θ∼U(0,1)=Be(1,1)\theta \sim U(0, 1) = Be(1, 1)θ∼U(0,1)=Be(1,1):

π(θ∣x)=Γ(n+2)Γ(1+x)Γ(1+n−x)θ1+x−1(1−θ)1+n−x−1,0<θ<1\pi(\theta|x)=\frac{\Gamma(n+2)}{\Gamma(1+x)\Gamma(1+n-x)}\theta^{1+x-1}(1-\theta)^{1+n-x-1},0<\theta<1π(θ∣x)=Γ(1+x)Γ(1+n−x)Γ(n+2)θ1+x−1(1−θ)1+n−x−1,0<θ<1

贝叶斯统计学与经典统计学的差别自安于是否利用了先验信息。贝叶斯统计在重视总体信息和样本信息的同时，加入了先验信息的收集、挖掘和加工，使它量化，形成先验分布，加入先验分布，以提高统计推断的质量。