如何理解极大似然估计？

文章目录

1 引入
2 分析
3 总结
4 补充

1 引入

首先，来看这样一个例子：

一口袋中有许多红球和白球，只知道数目比例为 1 : 3 1:3 1:3，不知道哪种多，通过实验来判断红球占的比例是 1 4 \frac{1}{4} 41还是 3 4 \frac{3}{4} 43。

今用有放回抽取的方法从口袋中抽取 n n n个球，将红球的个数记为 X X X，则 X X X服从二项分布 B ( n , p ) B(n,p) B(n,p)。如何由实验结果来估计 p p p的值？

现在假设有这样一个实验结果：从口袋中抽取了100个球，其中红球的个数为80个，那么相应的抽取到白球的个数就为20个。

如果现在要求你从上述的实验结果中去判断红球占的比例是 1 4 \frac{1}{4} 41还是 3 4 \frac{3}{4} 43，大概很多人会选择 3 4 \frac{3}{4} 43，这是一个很自然的选择，因为抽取的100个球中，红球占了大多数。（当然最后的结果有没有可能是红球占的比例是 1 4 \frac{1}{4} 41，也有可能，但是在当前实验结果下，我们会认为出现这样结果的可能性会很小）

其实，在进行上述选择（根据实验结果去判断红球所占比例）过程中，我们不自觉的运用到了极大似然估计的思想，即：根据已经发生的结果，去选择一个原因，使得出现这样结果的可能性最大。换句话说，结果是在使它出现可能性最大的那个原因下发生的。

具体到这个例子，结果是从口袋中抽取了100个球，其中有80个都是红球；那么导致最大可能性出现该结果的原因就是原来口袋中红球所占的比例是 3 4 \frac{3}{4} 43。

2 分析

根据极大似然估计的思想，可以在这简单总结一下，如何在一个具体实例中去运用：

求出发生该结果的一个概率表达式（其中可能带有未知参数，通俗理解就是原因）；
根据概率表达式，调整未知参数（选择原因），使得出现该结果的概率最大。

下面，根据上述两个步骤，来看一下这样一个例子：

设总体 X ∼ ( 1 2 3 1 − θ 2 θ 2 2 θ 2 2 ) , θ ( 0 < θ < 1 ) X \sim\left(\begin{array}{ccc}1 & 2 & 3 \\ 1-\theta^2 & \frac{\theta^2}{2} & \frac{\theta^2}{2}\end{array}\right), \theta(0<\theta<1) X∼(11−θ222θ232θ2),θ(0<θ<1)未知，现得一样本值 1 , 3 , 2 , 3 1,3,2,3 1,3,2,3，求 θ \theta θ的极大似然估计值。

第一步，求出出现 1 , 3 , 2 , 3 1,3,2,3 1,3,2,3结果的概率表达式：
P { ( X 1 , X 2 , X 3 , X 4 ) = ( 1 , 3 , 2 , 3 ) } = P { X 1 = 1 , X 2 = 3 , X 3 = 2 , X 4 = 3 } = P { X 1 = 1 } P { X 2 = 3 } P { X 3 = 2 } P { X 4 = 3 } = P { X = 1 } P { X = 3 } P { X = 2 } P { X = 3 } = 1 8 θ 6 ( 1 − θ 2 ) ≜ L ( θ ) \begin{aligned} & P\left\{\left(X_1, X_2, X_3, X_4\right)=(1,3,2,3)\right\} \\ & =P\left\{X_1=1, X_2=3, X_3=2, X_4=3\right\} \\ & =P\left\{X_1=1\right\} P\left\{X_2=3\right\} P\left\{X_3=2\right\} P\left\{X_4=3\right\} \\ & =P\{X=1\} P\{X=3\} P\{X=2\} P\{X=3\} \\ & =\frac{1}{8} \theta^6\left(1-\theta^2\right) \triangleq L(\theta) \end{aligned} P{(X1,X2,X3,X4)=(1,3,2,3)}=P{X1=1,X2=3,X3=2,X4=3}=P{X1=1}P{X2=3}P{X3=2}P{X4=3}=P{X=1}P{X=3}P{X=2}P{X=3}=81θ6(1−θ2)≜L(θ)
第二步，根据概率表达式，调整未知参数，使得出现该结果的概率最大：
L ( θ ) = 1 8 θ 6 ( 1 − θ 2 ) , 0 < θ < 1 ln ⁡ L ( θ ) = ln ⁡ 1 8 + 6 ln ⁡ θ + ln ⁡ ( 1 − θ 2 ) 令 d d θ ln ⁡ L ( θ ) = 6 θ − 2 θ 1 − θ 2 = 0 \begin{aligned} & L(\theta)=\frac{1}{8} \theta^6\left(1-\theta^2\right), \quad 0<\theta<1 \\ & \ln L(\theta)=\ln \frac{1}{8}+6 \ln \theta+\ln \left(1-\theta^2\right) \\ & \text { 令 } \frac{d}{d \theta} \ln L(\theta)=\frac{6}{\theta}-\frac{2 \theta}{1-\theta^2}=0 \end{aligned} L(θ)=81θ6(1−θ2),0<θ<1lnL(θ)=ln81+6lnθ+ln(1−θ2) 令 dθdlnL(θ)=θ6−1−θ22θ=0
解出 θ \theta θ的极大似然估计值 θ ^ = 3 2 \hat{\theta}=\frac{\sqrt{3}}{2} θ^=23 。

从上面这个例子中，可以发现使用极大似然估计的一个必要条件是需要知道总体类型（分布），因为只有这样才能求出结果的概率表达式。

3 总结

最后，大致来总结一下极大似然估计（Maximum Likelihood Estimation，MLE）方法：

离散型

设总体 X X X的分布律： P { X = x } = p ( x ; θ ) P\left\{X=x\right\}=p\left(x;\theta\right) P{X=x}=p(x;θ)， θ ∈ Θ \theta\in \Theta θ∈Θ， θ \theta θ未知， X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是总体 X X X的一个样本， x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn为样本值。称 L ( θ ) = ∏ i = 1 n p ( x i ; θ ) L(\theta)=\prod \limits^{n}_{i=1}p(x_{i};\theta) L(θ)=i=1∏np(xi;θ)为样本的似然函数， L ( θ ) L(\theta) L(θ)的意义为样本值（结果）出现的概率。

令 d d θ l n L ( θ ) = 0 , θ ∈ Θ \frac{d}{d\theta}lnL(\theta)=0,\theta \in \Theta dθdlnL(θ)=0,θ∈Θ，则：

θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}\left(x_1,x_2,\cdots,x_n\right) θ^(x1,x2,⋯,xn)为 θ \theta θ的极大似然估计值； θ ^ ( X 1 , X 2 , ⋯ , X n ) \hat{\theta}\left(X_1,X_2,\cdots,X_n\right) θ^(X1,X2,⋯,Xn)为 θ \theta θ的极大似然估计量。
连续型

设总体 X X X的概率密度函数： f ( x ; θ ) , θ ∈ Θ f\left(x;\theta\right),\theta \in \Theta f(x;θ),θ∈Θ， θ \theta θ未知， X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是总体 X X X的一个样本， x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn为样本值。

注意： ( X 1 , X 2 , ⋯ , X n ) \left(X_1,X_2,\cdots,X_n\right) (X1,X2,⋯,Xn)在 ( x 1 , x 2 , ⋯ , x n ) \left(x_1,x_2,\cdots,x_n\right) (x1,x2,⋯,xn)附近取值的概率正比于 ( X 1 , X 2 , ⋯ , X n ) \left(X_1,X_2,\cdots,X_n\right) (X1,X2,⋯,Xn)的联合密度在 ( x 1 , x 2 , ⋯ , x n ) \left(x_1,x_2,\cdots,x_n\right) (x1,x2,⋯,xn)处的函数值。（因为在连续型分布中取到某点的概率为零，故改为在以该点为中心的一个微小邻域上进行取值）

记 L ( θ ) = ∏ i = 1 n f ( x i ; θ ) L\left(\theta\right)=\prod \limits^{n}_{i=1}f\left(x_i;\theta\right) L(θ)=i=1∏nf(xi;θ)称为样本的似然函数。 L ( θ ) L(\theta) L(θ)的意义为正比于样本值出现的概率。

令 d d θ l n L ( θ ) = 0 , θ ∈ Θ \frac{d}{d\theta}lnL(\theta)=0,\theta \in \Theta dθdlnL(θ)=0,θ∈Θ，则：

θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}\left(x_1,x_2,\cdots,x_n\right) θ^(x1,x2,⋯,xn)为 θ \theta θ的极大似然估计值； θ ^ ( X 1 , X 2 , ⋯ , X n ) \hat{\theta}\left(X_1,X_2,\cdots,X_n\right) θ^(X1,X2,⋯,Xn)为 θ \theta θ的极大似然估计量。

4 补充

对于离散型总体和连续型总体分别进行实例的补充：

离散型

设总体 X X X服从几何分布， p ( 0 < p < 1 ) p(0<p<1) p(0<p<1)未知，
P { X = k } = ( 1 − p ) k − 1 p , k = 1 , 2 , ⋯ P\left\{X=k\right\}=\left(1-p\right)^{k-1}p, \quad k=1,2,\cdots P{X=k}=(1−p)k−1p,k=1,2,⋯
求 p p p的极大似然估计。

解：设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是总体 X X X的一个样本， x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn为样本值。

概率密度函数： p ( x ; p ) = ( 1 − p ) x − 1 p , x = 1 , 2 , ⋯ p\left(x;p\right)=\left(1-p\right)^{x-1}p,\quad x=1,2,\cdots p(x;p)=(1−p)x−1p,x=1,2,⋯

似然函数：
L ( p ) = ∏ i = 1 n p ( x i ; p ) = ∏ i = 1 n ( 1 − p ) x i − 1 p = p n ( 1 − p ) n x ˉ − n \begin{aligned} L(p) & =\prod\limits^{n}_{i=1} p\left(x_i ; p\right)=\prod\limits^{n}_{i=1}(1-p)^{x_i-1} p =p^n(1-p)^{n \bar{x}-n} \\ \end{aligned} L(p)=i=1∏np(xi;p)=i=1∏n(1−p)xi−1p=pn(1−p)nxˉ−n

l n L ( p ) = n ln ⁡ p + ( n x ˉ − n ) ln ⁡ ( 1 − p ) lnL(p) =n \ln p+(n \bar{x}-n) \ln (1-p) lnL(p)=nlnp+(nxˉ−n)ln(1−p)

令 d d p ln ⁡ L ( p ) = n p − n x ˉ − n 1 − p = 0 \text { 令 } \frac{d}{d p} \ln L(p)=\frac{n}{p}-\frac{n \bar{x}-n}{1-p}=0 令 dpdlnL(p)=pn−1−pnxˉ−n=0，有：

p ^ = 1 x ˉ , p 的极大似然估计值 \hat{p}=\frac{1}{\bar{x}},\quad p\text{的极大似然估计值} p^=xˉ1,p的极大似然估计值；

p ^ = 1 X ˉ , p 的极大似然估计量 \hat{p}=\frac{1}{\bar{X}},\quad p\text{的极大似然估计量} p^=Xˉ1,p的极大似然估计量.
连续型

设总体 X X X密度 f ( x ) = { ( θ + 1 ) x θ , 0 < x < 1 0 , 其他 f(x)= \begin{cases}(\theta+1) x^\theta, & 0<x<1 \\ 0, & \text { 其他 }\end{cases} f(x)={(θ+1)xθ,0,0<x<1 其他， θ > − 1 \theta> -1 θ>−1未知，求 θ \theta θ的极大似然估计。

解：设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是总体 X X X的一个样本， x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn为样本值。
L ( θ ) = { ∏ i = 1 n ( θ + 1 ) x i θ = ( θ + 1 ) n ( x 1 x 2 ⋯ x n ) θ , 0 < x i < 1 , i = 1 , 2 , ⋯ , n . 0 , 其他 \begin{aligned} & L(\theta)= \begin{cases}\prod_{i=1}^n(\theta+1) x_i^\theta=(\theta+1)^n\left(x_1 x_2 \cdots x_n\right)^\theta, & 0<x_i<1, i=1,2, \cdots, n .\\ \\ 0 ,& \text{其他}\end{cases} \\ \end{aligned} L(θ)=⎩ ⎨ ⎧∏i=1n(θ+1)xiθ=(θ+1)n(x1x2⋯xn)θ,0,0<xi<1,i=1,2,⋯,n.其他

当 0 < x i < 1 , i = 1 , 2 , ⋯ , n 时, 0<x_i<1, i=1,2, \cdots, n \text { 时, } 0<xi<1,i=1,2,⋯,n 时,
ln ⁡ L ( θ ) = n ln ⁡ ( θ + 1 ) + θ ∑ i = 1 n ln ⁡ x i \ln L(\theta)=n \ln (\theta+1)+\theta \sum_{i=1}^n \ln x_i lnL(θ)=nln(θ+1)+θi=1∑nlnxi
令 d d θ ln ⁡ L ( θ ) = n θ + 1 + ∑ i = 1 n ln ⁡ x i = 0 ，有： \text{令}\frac{d}{d \theta} \ln L(\theta)=\frac{n}{\theta+1}+\sum_{i=1}^n \ln x_i=0\text{，有：} 令dθdlnL(θ)=θ+1n+∑i=1nlnxi=0，有：

θ ^ = − n ∑ i = 1 n ln ⁡ x i − 1 ， θ 的极大似然估计值； \hat{\theta}=-\frac{n}{\sum_{i=1}^n \ln x_i}-1，\theta\text{的极大似然估计值；} θ^=−∑i=1nlnxin−1，θ的极大似然估计值；

θ ^ = − n ∑ i = 1 n ln ⁡ X i − 1 ， θ 的极大似然估计量. \hat{\theta}=-\frac{n}{\sum_{i=1}^n \ln X_i}-1，\theta \text{的极大似然估计量.} θ^=−∑i=1nlnXin−1，θ的极大似然估计量.