最大似然估计法（MLE）

最大似然估计（Maximum Likelihood Estimation），是一种统计方法，它用来求一个样本集的相关概率密度函数的参数。最大似然估计中采样需满足一个很重要的假设，就是所有的采样都是独立同分布的。

一、最大似然估计法的基本思想

　　最大似然估计法的思想很简单：在已经得到试验结果的情况下，我们应该寻找使这个结果出现的可能性最大的那个作为真的估计。
　　我们分两种情进行分析：

1．离散型总体　

　　设为离散型随机变量，其概率分布的形式为，则样本的概率分布为，在固定时，上式表示取值的概率；当固定时，它是的函数，我们把它记为并称为似然函数。似然函数的值的大小意味着该样本值出现的可能性的大小。既然已经得到了样本值，那它出现的可能性应该是大的，即似然函数的值应该是大的。因而我们选择使达到最大值的那个作为真的估计。

2．连续型总体

　　设为连续型随机变量，其概率密度函数为则为从该总体抽出的样本。因为相互独立且同分布，于是，样本的联合概率密度函数为
，在是固定时，它是在处的密度，它的大小与落在附近的概率的大小成正比，而当样本值固定时，它是的函数。我们仍把它记为并称为似然函数。类似于刚才的讨论，我们选择使最大的那个作为真的估计。

总之，在有了试验结果即样本值时，似然函数反映了的各个不同值导出这个结果的可能性的大小。我们选择使达到最大值的那个作为真的估计。这种求点估计的方法就叫作最大似然法。

二、最大似然估计的求法

假定现在我们已经观测到一组样本  要去估计未知参数  。一种直观的想法是，哪一组能数值使现在的样本  出现的可能性最大，哪一组参数可能就是真正的参数，我们就要用它作为参数的估计值。这里，假定我们有一组样本  .如果对参数的两组不同的值  和，似然函数有如下关系
　　  ,
　　那么，从  又是概率密度函数的角度来看，上式的意义就是参数  使出现的可能性比参数  使  出现的可能性大，当然参数  比更像是真正的参数.这样的分析就导致了参数估计的一种方法，即用使似然函数达到最大值的点 ,作为未知参数的估计，这就是所谓的最大似然估计。现在我们讨论求最大似然估计的具体方法.为简单起见，以下记  ,求θ的极大似然估计就归结为求  的最大值点.由于对数函数是单调增函数，所以
　　　　　　　　　　     　　　　　(2.1)

　与  有相同的最大值点。而在许多情况下，求  的最大值点比较简单，于是，我们就将求  的最大值点改为求  的最大值点.对  关于求导数，并命其等于零，得到方程组
　　　　　　　　　　 ,        (2.2)
　　称为似然方程组。解这个方程组，又能验证它是一个极大值点，则它必是  ，也就是  的最大值点，即为所求的最大似然估计。大多常用的重要例子多属于这种情况。然而在一些情况下，问题比较复杂，似然方程组的解可能不唯一，这时就需要进一步判定哪一个是最大值点。
　　还需要指出，若函数  关于  的导数不存在时，我们就无法得到似然方程组 (7.2.2)，这时就必须根据最大似然估计的定义直接去  的最大值点。
　　在一些情况下，我们需要估计  。如果  分别是  的最大似然估计，则称  为  的最大似然估计。

三、实例

1. 正态分布估计

设从正态总体抽出样本，这里未知参数为mm 和（注意我们把看作一个参数）。似然函数为
　　　　　　　　
              　　　　　 =
　　它的对数为
　　，
　　似然方程组为

　　由第一式解得
，
   代入第二式得
.
　　似然方程组有唯一解(，)，而且它一定是最大值点，这是因为当或或∞时，非负函数。于是和的最大似然估计为
　　　　　　　　，.         (7.2.53.3)
　　这里，我们用大写字母表示所有涉及的样本，因为最大似然估计和都是统计量，离开了具体的一次试验或观测，它们都是随机的。

2.泊松分布估计

设总体服从参数为的泊松分布，它的分布律为
　　　　　　　　，
　　有了样本之后，参数λ的似然函数为
，

　　似然方程为
，
　　解得
　　　　　　　　　　　　 .
　　因为的二阶导数总是负值，可见，似然函数在处达到最大值。所以，是λ的最大似然估计。

3.均匀分布估计

设总体为上的均匀分布，求的最大似然估计。
　　的概率密度函数为
　　　　　　　　　
　　对样本，
　　　　　　　　　

　　很显然，L(a，b)作为a和b的二元函数是不连续的。这时我们不能用似然方程组(7.2.2)来求最大似然估计，而必须从最大似然估计的定义出发，求L(a，b)的最大值。为使L(a，b)达到最大，b－a应该尽量地小，但b又不能小于，否则，L(a，b)=0。
　　类似地，a不能大过。因此，a和b的最大似然估计为
　　　　　　　　　，
.　

现在为止，我们以正态分布，泊松分布，均匀分布的参数以及事件发生的概率的估计为例子讨论了矩估计和最大似然估计。在我们所举的例子中，除了均匀分布外，两种估计都是一致的。矩估计的优点是简单，只需知道总体的矩，总体的分布形式不必知道。而最大似然估计则必须知道总体分布形式，并且在一般情况下，似然方程组的求解较复杂，往往需要在计算机上通过迭代运算才能计算出其近似解。

转自：http://blog.sciencenet.cn/home.php?mod=space&uid=491809&do=blog&id=400893

最大似然估计法（MLE）相关推荐

机器学习-算法-有监督学习：EM（最大期望值算法）＜=＞ MLE（最大似然估计法）【关系类似“梯度下降法”＜=＞“直接求导法”】【EM“梯度下降”：先初始化一个随机值，然后通过迭代不断靠近真实值】
机器学习-算法-有监督学习:EM(最大期望值算法)<=> MLE(最大似然估计法)[关系类似"梯度下降法"<=>"直接求导法"][EM& ...
透彻理解机器学习中极大似然估计MLE的原理（附3D可视化代码)
文章目录相关资料一.什么是概率,什么是似然二.极大似然估计 Maximum Likelihood Estimation (MLE) 的含义 2.1 机器学习中的极大化似然函数 2.2 极大似然估 ...
点估计（矩估计法和最大似然估计法）
估计即是近似地求某个参数的值,需要区别理解样本.总体.量.值大致的题型是已知某分布(其实包含未知参数),从中取样本并给出样本值我只是一个初学者,可能有的步骤比较繁琐,请见谅~ 1.矩估计法做题步 ...
机器学习数学原理（1）——极大似然估计法
机器学习数学原理(1)--极大似然估计法事实上机器学习的大部分算法都是以数理统计和概率论为理论基础构建的.笔者在学习机器学习的过程中,意识到其实机器学习中的很多假设背后都是有着数学原理支撑的,从而使 ...
“损失函数”是如何设计出来的？直观理解“最小二乘法”和“极大似然估计法”
[本文内容是自对视频:"损失函数"是如何设计出来的?的整理.补充和修正] 在大多数课程,尤其是帮助大家快速掌握深度学习的课程,损失函数似乎并不是一个需要额外关心的问题.因为它往往都 ...
极大似然估计法的理解和用途
在机器学习的算法中,经常看到极大似然估计的身影,不接触数学一段时间的我,对它又熟悉又陌生,还是决定系统的写一下极大似然估计的思想. 极大似然估计法是求点估计的常用方法之一.极大似然估计法是建立 ...
【白话理解神经网络中的“损失函数”——最小二乘法和极大似然估计法】
目录写在前面的话理解损失函数最小二乘法最大似然估计法(统计方法) 写在前面的话 "损失函数"是如何设计出来的?直观理解"最小二乘法"和"极大似 ...
（一）极大似然估计法原理讲解
极大似然估计法通过事实来估计参数举例: 现在我们进行扔硬币实验,假设但是我们不知道出现花的概率,我们怎么去估计这个概率呢?即如何估计出现花的这个参数的概率? 极大似然估计法就是通过很多次实验,进行这 ...
参数估计：最大似然估计MLE
http://blog.csdn.net/pipisorry/article/details/51461997 最大似然估计MLE 顾名思义,当然是要找到一个参数,使得L最大,为什么要使得它最大呢,因 ...

最大似然估计法（MLE）

一、最大似然估计法的基本思想