参数的点估计问题与矩估计法

机器学习的许多公式推导都涉及了数理统计的内容，特别是参数估计对理解机器学习很重要。这里三篇文章就对三种参数估计方法进行简单介绍。

对一些数理统计的基本概念的介绍，可参考之前的文章“数理统计学的基本概念”。

参数的点估计问题

设有一个统计总体，以f(x;θ1,⋯,θk)f(x;θ1,⋯,θk)f(x;\theta_1,\cdots,\theta_k)记其概率密度函数（若总体分布为连续型的）或其概率函数（若其总体分布为离散型的）。避免重复交代这两种情况，我们约定称f(x;θ1,⋯,θk)f(x;θ1,⋯,θk)f(x;\theta_1,\cdots,\theta_k)为“总体分布”，其具体含义视其为连续型或离散型而定。这个分布包含k个位置参数θ1,⋯,θkθ1,⋯,θk\theta_1,\cdots,\theta_k。例如，对正态总体分布N(μ,δ2)N(μ,δ2)N(\mu,\delta^2)，有θ1=μθ1=μ\theta_1=\mu，θ2=δ2θ2=δ2\theta_2=\delta^2，而

f(x;θ1,θ2)=(2πθ2‾‾‾‾‾√)−1exp(−12θ2(x−θ1)2)(−∞<x<∞)f(x;θ1,θ2)=(2πθ2)−1exp⁡(−12θ2(x−θ1)2)(−∞<x<∞)

f(x;\theta_1,\theta_2)=(\sqrt{2\pi\theta_2})^{-1}\exp(-\frac{1}{2\theta_2}(x-\theta_1)^2)\qquad (-\infty\lt x\lt\infty)
若总体有二项分布 B(n,p)B(n,p)B(n,p)，则 θ1=pθ1=p\theta_1=p，而

f(x;θ1)=(nx)θx1(1−θ1)n−k(x=0,1,⋯,n)f(x;θ1)=(nx)θ1x(1−θ1)n−k(x=0,1,⋯,n)

f(x;\theta_1)=\binom{n}{x}\theta_1^x(1-\theta_1)^{n-k}\qquad (x=0,1,\cdots,n)
当k=1，即只有一个参数时，就用 θθ\theta代替 θ1θ1\theta_1

参数估计问题的一般提法是：设有了从总体中抽出样本X1,⋯,XnX1,⋯,XnX_1,\cdots,X_n（独立同分布），要依据这些样本去对参数θ1,⋯,θkθ1,⋯,θk\theta_1,\cdots,\theta_k的未知值做出估计。当然我们也可以只要求估计θ1,⋯,θkθ1,⋯,θk\theta_1,\cdots,\theta_k中的一部分，或估计他们的某个已知函数g(θ1,⋯,θk)g(θ1,⋯,θk)g(\theta_1,\cdots,\theta_k)。例如，为要估计θ1θ1\theta_1，我们需要构造出适当的统计量θ1^=θ1^(X1,⋯,Xn)θ1^=θ1^(X1,⋯,Xn)\hat{\theta_1}=\hat{\theta_1}(X_1,\cdots,X_n)。每当有了样本X1,⋯,XnX1,⋯,XnX_1,\cdots,X_n，就代入函数θ1^(X1,⋯,Xn)θ1^(X1,⋯,Xn)\hat{\theta_1}(X_1,\cdots,X_n)中计算出一个值，用来作为θ1θ1\theta_1的估计值。为着这样的特定目的而构造的统计量θ1^θ1^\hat{\theta_1}叫做θ1θ1\theta_1的估计量。由于未知参数θ1θ1\theta_1是数轴上的一个点，用θ1^θ1^\hat{\theta_1}去估计θ1θ1\theta_1，等于用一个点估计另一个点，所以这样的估计叫做点估计，以别与区间估计。

矩估计法

矩估计法的思想比较简单：设总体分布为f(x;θ1,⋯,θk)f(x;θ1,⋯,θk)f(x;\theta_1,\cdots,\theta_k)，则它的矩（原点矩和中心矩都可以，此处以原点矩为例）

αm=∫∞−∞xmf(x;θ1,⋯,θk)dx(或∑ixmi)f(x;θ1,⋯,θk)）αm=∫−∞∞xmf(x;θ1,⋯,θk)dx(或∑ixim)f(x;θ1,⋯,θk)）

\alpha_m=\int_{-\infty}^{\infty}x^mf(x;\theta_1,\cdots,\theta_k)dx\qquad(或\sum_{i}x_i^m)f(x;\theta_1,\cdots,\theta_k)）
依赖于 θ1,⋯,θkθ1,⋯,θk\theta_1,\cdots,\theta_k。另一方面，至少在样本大小n较大时，样本原点矩 amama_m应该接近于 αmαm\alpha_m。于是

αm=αm(θ1,⋯,θk)≈am=∑i=1nXmi/nαm=αm(θ1,⋯,θk)≈am=∑i=1nXim/n

\alpha_m=\alpha_m(\theta_1,\cdots,\theta_k)\approx a_m=\sum_{i=1}^{n}X_i^m/n
取 m=1,⋯,km=1,⋯,km=1,\cdots,k，并将上面的近似式改成等式，就得到一个方程组：

αm(θ1,⋯,θk)=am(m=1,⋯,k)αm(θ1,⋯,θk)=am(m=1,⋯,k)

\alpha_m(\theta_1,\cdots,\theta_k)=a_m\qquad (m=1,\cdots,k)
解此方程组，得起根 θ1^(X1,⋯,Xn)(i=1,⋯,k)θ1^(X1,⋯,Xn)(i=1,⋯,k)\hat{\theta_1}(X_1,\cdots,X_n)\quad(i=1,\cdots,k)，就以 θ̂ iθ^i\hat\theta_i作为 θiθi\theta_i的估计 (i=1,⋯,k)(i=1,⋯,k)(i=1,\cdots,k)。如果要估计的是 θ1,⋯,θkθ1,⋯,θk\theta_1,\cdots,\theta_k的某函数 g(θ1,⋯,θk)g(θ1,⋯,θk)g(\theta_1,\cdots,\theta_k)，则用 ĝ (X1,⋯,Xn)=g(θ̂ 1,⋯,θ̂ k)g^(X1,⋯,Xn)=g(θ^1,⋯,θ^k)\hat g(X_1,\cdots,X_n)=g(\hat \theta_1,\cdots,\hat \theta_k)去估计它。这样定出的估计量就叫做矩估计。

例子

设X1,⋯,XnX1,⋯,XnX_1,\cdots,X_n是从正态总体N(μ,δ2)N(μ,δ2)N(\mu,\delta^2)中抽取的样本，要估计μμ\mu和δ2δ2\delta^2。μμ\mu是总体的一阶原点矩，按矩估计，用样本的一阶原点矩，即样本均值X⎯⎯⎯⎯X¯\overline X去估计。δ2δ2\delta^2是总体方差，即总体的二阶中心矩，可用样本的二阶中心矩m2m2m_2去估计。一般地，在估计方差时，常用样本方差S2S2S^2而不用m2m2m_2，即对矩估计做了一定的修正。

参考书目
《概率论与数理统计》——陈希孺