极大似然估计法的理解和用途

在机器学习的算法中，经常看到极大似然估计的身影，不接触数学一段时间的我，对它又熟悉又陌生，还是决定系统的写一下极大似然估计的思想。
极大似然估计法是求点估计的常用方法之一。极大似然估计法是建立在已知总体分部形式上的估计方法。

1. 基本思想

思想：在给定样本观察值的条件下，用使这组样本观察值出现概率最大的参数 θ 的估计。
可能仅凭一句话还不好理解，下面我们看一个例子：

设一个口袋中装有许多个白球和黑球，但不知道是黑球多还是白球多，只知道两种颜色球的数目之比是1：3。从袋中任取一球，取得黑球的概率 θ 是 1/4 或 3/4 。试通过实验来推断抽到黑球的概率 θ 取 1/4 或 3/4 哪个值更合理。
解
总体X服从两点分布B（1，θ），参数空间为Θ = {1/4 ， 3/4}，θ ∈ Θ。采用有放回抽样方式，从袋中抽取n次，每次抽取一个球，抽到黑球记为1，否则记为0，得到样本 X1，X2，…，Xn的观察值 x1，x2，…，xn，其发生的概率为

p(x1，x2，...，xn ; θ) = θ^k *（1 - θ）^(n - k) 其中 k = x1 + x2 + ... + xn。
为了解释极大似然估计法的原理，仅考虑n = 3的情形。给定观察值x1，x2，x3，对 θ = 1/4 和 3/4 ，分别计算样本联合分布列p（k ；θ）= p(x1，x2，x3；θ)，其结果如下：
表n = 3时样本联合分布列

k	0	1	2	3
p（1/4；θ）	27/64	9/64	3/64	1/64
p（3/4；θ）	1/64	3/64	9/64	27/64

由表可知，若抽取的3个球中观察到黑球个数k=0，当θ = 1/4 时，p（0；1/4） = 27/64；而当θ = 3/4 时，p（0；3/4） =1/64。显然 p（0；1/4）> p（0；3/4），这表明使 k = 0的样本x1，x2，x3来自参数 θ = 1/4 的总体要比来自 θ = 3/4的总体的可能性更大。因而，取1/4作为 θ的估计比取3/4作为θ的估计更合理。类似地，当k=1时，同样取1/4作为θ的估计比取3/4更合理。而当k=2或3时，取3/4作为θ的估计比取1/4更合理。综上所述，参数θ的合理估计为：

上述估计参数θ的基本思想是：对样本观察值x1，x2，…，xn，选取最优θ（x1，x2，…，xn）使得

成立，即在给定样本观察值的条件下，用使这组样本观察值出现概率最大的参数 θ 的估计。

既然我们知道极大似然估计是寻找发生概率最大所对应的θ值，我们就看一下求解形式吧！
假设总体分布族为{p（x；θ）：θ ∈ Θ}，其中p（x；θ）为概率分布列或密度函数为f（x；θ）。x1，x2，…，xn是简单样本，则样本的联合概率分布为：

① 离散型随机变量：

② 连续型随机变量：

当样本x1，x2，…，xn给定时，p（x1，x2，…，xn；θ）是参数θ的函数，称这个函数为似然函数，记为L(θ；x1，x2，…，xn)，或L(θ；x)，或L（θ），即

2. 求解似然函数最大值的依据

最大值未必存在，但上确界总是存在，当最大值存在时，上确界和最大值重合。求参数θ的极大似然估计，就是求使似然函数L（θ）在参数空间Θ上取得上确界的。
由于lnx是x的单调增函数，因为Ln L（θ）与L（θ）在相同的点上取得上确界，成Ln L（θ）为对数似然函数。特别的，当Ln L（θ）在Θ上存在连续偏导数，并在Θ内取得最大值时，θ的极大似然函数必满足方程组：

称它为似然方程组。如果似然方程组的解使得上式成立，则就是参数θ的极大似然估计。

3. 求解步骤

基于对似然函数L(θ)形式(一般为连乘式且各因式>0)的考虑，求θ的最大似然估计的一般步骤如下：

（1）写出似然函数
总体X为离散型时：

总体X为连续型时：

（2）对似然函数两边取对数有
总体X为离散型时：

总体X为连续型时：

（3）对Ln L（θ)求偏导等于0：

此方程为对数似然方程。解对数似然方程所得，即为未知参数的最大似然估计值。

例题：

设总体X~N(μ，σ2)，μ，σ为未知参数，X1,X2…,Xn是来自总体X的样本，X1,X2…,Xn是对应的样本值，求μ与σ2的最大似然估计值。

解：X的概率密度为

可得似然函数如下：

取对数，得

令

解得

故μ和σ的最大似然估计量分别为