http://blog.csdn.net/pipisorry/article/details/51461997

最大似然估计MLE

顾名思义，当然是要找到一个参数，使得L最大，为什么要使得它最大呢，因为X都发生了，即基于一个参数发生的，那么当然就得使得它发生的概率最大。

最大似然估计就是要用似然函数取到最大值时的参数值作为估计值，似然函数可以写做

$L(\theta | X) = p(X | \theta) = \prod_{x \in X}{p(X = x | \theta)}$

Note: p(x|theta)不总是代表条件概率；也就是说p(x|theta)不代表条件概率时与p(x;theta)等价，而一般地写竖杠表示条件概率，是随机变量；写分号p(x; theta)表示待估参数（是固定的，只是当前未知）,应该可以直接认为是p(x)，加了;是为了说明这里有个theta的参数，p(x; theta)意思是随机变量X=x的概率。在贝叶斯理论下又叫X=x的先验概率。相乘因为它们之间是独立同分布的。

MLE通常使用对数似然函数

使用log-likelihood比原始函数好的原因：

1 由于有连乘运算，通常对似然函数取对数计算简便，即对数似然函数。it's kind of analytically nice to work with log-likelihood.

2 multiplying small numbers the numerical errors start to add up and start to propagate.If we are summing together small numbers,the numerical errors are not so serious.

3 log函数是单调的，所有东西保持不变。

最大似然估计问题可以写成

$\hat{\theta}_{ML} = argmax_\theta L(\theta | X) = argmax_\theta \sum_{x \in X}\log p(x|\theta)$

这是一个关于 $\theta$ 的函数，求解这个优化问题通常对 $\theta$ 求导，得到导数为0的极值点。该函数取得最大值是对应的 $\theta$ 的取值就是我们估计的模型参数。

给定观测到的样本数据，一个新的值 $\tilde{x}$ 发生的概率是

求出参数值不是最终目的，最终目的是去预测新事件基于这个参数下发生的概率。

Note: 注意有一个约等于，因为他进行了一个近似的替换，将theta替换成了估计的值，便于计算。that is, the next sample is anticipated to be distributed with the estimated parameters θ ˆ ML .

扔硬币的伯努利实验示例

以扔硬币的伯努利实验为例子，N次实验的结果服从二项分布，参数为P，即每次实验事件发生的概率，不妨设为是得到正面的概率。为了估计P，采用最大似然估计，似然函数可以写作

$\begin{aligned} L &= \log\prod_{i=1}^Np(C=c_i|p)=\sum_{i=1}^N\log p(C=c_i|p) \\ &= n^{(1)}\log p(C = 1|p) + n^{(0)}\log p(C = 0|p)\\ &= n^{(1)}\log p + n^{(0)}\log (1-p) \end{aligned}$

其中 $n^i$ 表示实验结果为i的次数。下面求似然函数的极值点，有

$\frac{\partial{L}} {\partial{p}} = \frac{n^{(1)}}{p} - \frac{n^{(0)}}{1-p} = 0$

得到参数p的最大似然估计值为

$\hat{p}_{ML} = \frac{n^{(1)}}{n^{(1)} + n^{(0)}} = \frac{n^{(1)}}{N}$

可以看出二项分布中每次事件发的概率p就等于做N次独立重复随机试验中事件发生的概率。

如果我们做20次实验，出现正面12次，反面8次，那么根据最大似然估计得到参数值p为12/20 = 0.6。

[Gregor Heinrich: Parameter estimation for text analysis*]

MLE的一个最简单清晰的示例

皮皮blog

最大似然估计MLE

能最大化已观测到的观测序列的似然的参数就是估计的参数值。

图钉的例子

为不同参数theta的可能值打分并选择的一种标准

一般情况下的MLE

最大似然准则

参数模型和参数空间

似然函数的定义

充分统计量

MLE的注解

MLE的缺陷：置信区间

似然函数度量了参数选择对于训练数据的影响。

似然函数的要求

[《Probabilistic Graphical Models：Principles and Techniques》(简称PGM)]

皮皮blog
from: http://blog.csdn.net/pipisorry/article/details/51461997

ref:

参数估计：最大似然估计MLE相关推荐

透彻理解机器学习中极大似然估计MLE的原理（附3D可视化代码)
文章目录相关资料一.什么是概率,什么是似然二.极大似然估计 Maximum Likelihood Estimation (MLE) 的含义 2.1 机器学习中的极大化似然函数 2.2 极大似然估 ...
最大似然估计MLE与贝叶斯估计
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 欢迎大家star,留言,一起学习进步大学期间学习数理统计这门课程的时候,没 ...
最大似然估计MLE和最大后验估计MAP理解
1.频率学派和贝叶斯派频率学派认为参数是固定而未知的,关心似然函数. 贝叶斯派认为参数是随机的有分布的,关心后验分布. 2.MLE.MAP公式 3.参数估计-MLE 4.参数估计-MAP MAP与M ...
简单理解极大似然估计MLE
简单理解极大似然估计(MLE) 基本思想使数据集中数据出现的概率(似然)最大举例描述假设某一个新闻文档数据集下有体育.财经.游戏等分类,已知体育类下的所有文档中"篮球"一词出 ...
Python实现极大似然估计
概念现实中任何随机变量的概率分布函数都是未知的. 如果假定随机变量服从某种分布(如正态分布),可以通过统计手段来计算该分布的参数,这种方法称为参数估计. 极大似然估计(Maximum Likelih ...
最大似然估计，最大后验估计，贝叶斯估计联系与区别
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 欢迎大家star,留言,一起学习进步 1.什么是参数在机器学习中,我们经常 ...
【数学基础】参数估计之极大似然估计
背景先来看看几个小例子: 猎人师傅和徒弟一同去打猎,遇到一只兔子,师傅和徒弟同时放枪,兔子被击中一枪,那么是师傅打中的,还是徒弟打中的? 一个袋子中总共有黑白两种颜色100个球,其中一种颜色90个, ...
如何理解「最大似然估计」？参数估计、似然函数、最大似然估计
文章目录引言参数估计最大似然估计似然函数求解最大似然估计问题为什么要对似然函数取对数? "似然"与"概率"的区别机器学习中的应用参考资料引言 ...
机器学习基础——先验概率、后验概率和似然估计的讲解；频率派和贝叶斯派之分；以及MLE和MAP方法的解析
1.先验概率假定 B 1 , B 2 , - , B n B_1,B_2,\ldots ,B_n B1,B2,-,Bn是某个过程所有可能的前提条件,也就是 B 1 , B 2 , - , B ...

参数估计：最大似然估计MLE