求解极大似然估计，一共有几步？

前提知识

阅读本文之前，需要了解似然函数相关的概念，详见另一篇文章如何通俗地理解“最大似然估计法”?
极大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

极大似然估计的原理

极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。
假设样本集中的样本都是独立同分布（随机变量在任何时刻的取值互相独立，并且服从同一个分布），可以只考虑一类样本集D，来估计参数向量θ。记已知的样本集为：
D={x1,x2,⋯,xN}D=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}D={x1,x2,⋯,xN}
针对于样本集 D，联合概率密度函数 p(D∣θ)p(D | \theta )p(D∣θ) 称为 θ\thetaθ 的似然函数（likehood function）。
对于独立同分布的样本集，他的联合概率密度函数实际上是各个样本概率的乘积：
p(D∣θ)=f(x1∣θ)f(x2∣θ)⋯f(xn∣θ)p(D | \theta )=f\left(x_{1} | \theta\right) f\left(x_{2} | \theta\right) \cdots f\left(x_{n} | \theta\right)p(D∣θ)=f(x1∣θ)f(x2∣θ)⋯f(xn∣θ)
似然函数则为：
L(θ)=p(D∣θ)=p(x1,x2,⋯,xN∣θ)=∏i=1Np(xi∣θ)L(\theta)=p(D | \theta)=p\left(x_{1}, x_{2}, \cdots, x_{N} | \theta\right)=\prod_{i=1}^{N} p\left(x_{i} | \theta\right)L(θ)=p(D∣θ)=p(x1,x2,⋯,xN∣θ)=i=1∏Np(xi∣θ)
如果 θ^\hat{\theta}θ^ 是参数空间中能使似然函数 L(θ)L(\theta)L(θ) 最大的 θ 值，则应该是“最可能”的参数值，那么就是 θ 的极大似然估计量。它是样本集的函数，记作：
θ^=d(x1,x2,⋯,xN)=d(D)\hat{\theta}=d\left(x_{1}, x_{2}, \cdots, x_{N}\right)=d(D)θ^=d(x1,x2,⋯,xN)=d(D)
θ^(x1,x2,⋯,xN)\hat{\theta}(x_{1}, x_{2}, \cdots, x_{N})θ^(x1,x2,⋯,xN)称作极大似然函数估计值。
求解极大似然函数
极大似然估计：求使得出现该组样本的概率最大的θ值。
θ^=arg⁡max⁡θL(θ)=arg⁡max⁡θ∏i=1Np(xi∣θ)\hat{\theta}=\arg \max _{\theta} L(\theta)=\arg \max _{\theta} \prod_{i=1}^{N} p\left(x_{i} | \theta\right)θ^=argθmaxL(θ)=argθmaxi=1∏Np(xi∣θ)
实际中为了便于分析，定义了对数似然函数，对原似然函数取一下对数：
H(θ)=ln⁡L(θ)H(\theta)=\ln L(\theta)H(θ)=lnL(θ)
根据对数运算法则，两数乘积的对数等于各自的对数之和：
θ^=arg⁡max⁡θH(θ)=arg⁡max⁡θln⁡L(θ)=arg⁡max⁡θ∑i=1Nln⁡p(xi∣θ)\hat{\theta}=\arg \max _{\theta} H(\theta)=\arg \max _{\theta} \ln L(\theta)=\arg \max _{\theta} \sum_{i=1}^{N} \ln p\left(x_{i} | \theta\right)θ^=argθmaxH(θ)=argθmaxlnL(θ)=argθmaxi=1∑Nlnp(xi∣θ)
接下来可以分为两种情况，一个参数和多个参数：

未知参数只有一个（θ为标量）
在似然函数满足连续、可微的正则条件下，极大似然估计量是下面微分方程的解：
dl(θ)dθ=0\frac{d l(\theta)}{d \theta}=0dθdl(θ)=0 或者等价于 dH(θ)dθ=dln⁡L(θ)dθ=0\frac{d H(\theta)}{d \theta}=\frac{d \ln L(\theta)}{d \theta}=0dθdH(θ)=dθdlnL(θ)=0
未知参数有多个（θ为向量）
则θ可表示为具有S个分量的未知向量：
θ=[θ1,θ2,⋯,θS]T\theta=\left[\theta_{1}, \theta_{2}, \cdots, \theta_{S}\right]^{T}θ=[θ1,θ2,⋯,θS]T
记梯度算子：
∇θ=[∂∂θ1,∂∂θ2,⋯,∂∂θS]T\nabla_{\theta}=\left[\frac{\partial}{\partial \theta_{1}}, \frac{\partial}{\partial \theta_{2}}, \cdots, \frac{\partial}{\partial \theta_{S}}\right]^{T}∇θ=[∂θ1∂,∂θ2∂,⋯,∂θS∂]T
若似然函数满足连续可导的条件，则最大似然估计量就是如下方程的解。
∇θH(θ)=∇θln⁡L(θ)=∑i=1N∇θln⁡P(xi∣θ)=0\nabla_{\theta} H(\theta)=\nabla_{\theta} \ln L(\theta)=\sum_{i=1}^{N} \nabla_{\theta} \ln P\left(x_{i} | \theta\right)=0∇θH(θ)=∇θlnL(θ)=i=1∑N∇θlnP(xi∣θ)=0
方程的解只是一个估计值，只有在样本数趋于无限多的时候，它才会接近于真实值。

极大似然估计的例子

**例1：**设样本服从正态分布N(μ,σ2)N\left(\mu, \sigma^{2}\right)N(μ,σ2)，则似然函数为：
L(μ,σ2)=∏i=1N12πσe−(xi−μ)22σ2=(2πσ2)−n2e−12σ2∑k=1n(xi−μ)2L\left(\mu, \sigma^{2}\right)=\prod_{i=1}^{N} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}}=\left(2 \pi \sigma^{2}\right)^{-\frac{n}{2}} e^{-\frac{1}{2 \sigma^{2}} \sum_{k=1}^{n}\left(x_{i}-\mu\right)^{2}}L(μ,σ2)=i=1∏N2πσ1e−2σ2(xi−μ)2=(2πσ2)−2ne−2σ21∑k=1n(xi−μ)2
它的对数：
ln⁡L(μ,σ2)=−n2ln⁡(2π)−n2ln⁡(σ2)−12σ2∑i=1n(xi−μ)2\ln L\left(\mu, \sigma^{2}\right)=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \left(\sigma^{2}\right)-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}lnL(μ,σ2)=−2nln(2π)−2nln(σ2)−2σ21i=1∑n(xi−μ)2

求导，得方程组：
{∂ln⁡L(μ,σ2)∂μ=1σ2∑i=1n(xi−μ)=0∂ln⁡L(μ,σ2)∂σ2=−n2σ2+12σ4∑i=1n(xi−μ)2=0\left\{\begin{array}{l}{\frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \mu}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right) \quad=0} \\ {\frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \sigma^{2}}=-\frac{n}{2 \sigma^{2}}+\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}=0}\end{array}\right.⎩⎨⎧∂μ∂lnL(μ,σ2)=σ21∑i=1n(xi−μ)=0∂σ2∂lnL(μ,σ2)=−2σ2n+2σ41∑i=1n(xi−μ)2=0
联合解得：
{μ∗=x‾=1n∑i=1nxiσ∗2=1n∑i=1n(xi−x‾)2\left\{\begin{array}{l}{\mu^{*}=\overline{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}} \\ {\sigma^{* 2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}\end{array}\right.{μ∗=x=n1∑i=1nxiσ∗2=n1∑i=1n(xi−x)2
似然方程有唯一解(μ∗,σ∗2)\left(\mu^{*}, \sigma^{* 2}\right)(μ∗,σ∗2)，而且它一定是最大值点，这是因为当∣μ∣→∞|\mu| \rightarrow \infty∣μ∣→∞ 或 σ2→∞\sigma^{2} \rightarrow \inftyσ2→∞ 或 0 时，非负函数L(μ,σ2)→0L\left(\mu, \sigma^{2}\right) \rightarrow 0L(μ,σ2)→0。于是 μ\muμ 和 σ2\sigma^{2}σ2 的极大似然估计为(μ∗,σ∗2)\left(\mu^{*}, \sigma^{* 2}\right)(μ∗,σ∗2) 。

**例2：**设样本服从均匀分布[a, b]。则X的概率密度函数：
f(x)={1b−a,a≤x≤b0,Otherf(x)=\left\{\begin{array}{ll}{\frac{1}{b-a},} & {\mathrm{a} \leq x \leq b} \\ {0,} & {Other}\end{array}\right.f(x)={b−a1,0,a≤x≤bOther
对样本D={x1,x2,⋯,xN}D=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}D={x1,x2,⋯,xN}
很显然，L(a,b)作为a和b的二元函数是不连续的，这时不能用导数来求解。而必须从极大似然估计的定义出发，求L(a,b)的最大值，为使L(a,b)达到最大，b-a应该尽可能地小，但b又不能小于max⁡{x1,x2,⋯,xn}\max \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}max{x1,x2,⋯,xn}，否则，L(a,b)=0。类似地a不能大过min⁡{x1,x2,⋯,xn}\min \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}min{x1,x2,⋯,xn}，因此，a和b的极大似然估计：
a∗=min⁡{x1,x2,⋯,xn}b∗=max⁡{x1,x2,⋯,xn}\begin{array}{l}{a^{*}=\min \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}} \\ {b^{*}=\max \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}}\end{array}a∗=min{x1,x2,⋯,xn}b∗=max{x1,x2,⋯,xn}

总结

求最大似然估计量的一般步骤：
（1）写出似然函数；
（2）对似然函数取对数，并整理；
（3）求导数；
（4）解似然方程。

最大似然估计的特点：
1.比其他估计方法更加简单；
2.收敛性：无偏或者渐近无偏，当样本数目增加时，收敛性质会更好；
3.如果假设的类条件概率模型正确，则通常能获得较好的结果。但如果假设模型出现偏差，将导致非常差的估计结果。

参考：

https://blog.csdn.net/zengxiantao1994/article/details/72787849

Python超级好课，原价169元，活动优惠价99元！扫码下单输优惠码【csdnfxzs】再减5元:
https://marketing.csdn.net/poster/85?utm_source=NEWFXDT