概念

1 概率和统计：概率是已知模型和参数，推数据。统计是已知数据，推模型和参数；
2 极大似然估计(Maximum likelihood estimation，简称MLE)：俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值，换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”；
3 极大似然估计的前提假设：所有的采样都是独立同分布的。

似然函数始末

在散型的情形下，随机变量XXX的概率分布是已知的，但是该分布的参数θ\thetaθ未知，需要我们通过一定方法估计。举一个例子：

现有三个不标准的硬币，其中第一枚抛出后正面朝上的概率为25\frac{2}{5}52，第二枚硬币抛出后正面朝上的概率为12\frac{1}{2}21，第三枚抛出后正面朝上的概率为35\frac{3}{5}53。取出其中一枚硬币，抛掷20次，其中正面朝上的次数为13次，请问取出的是第几枚硬币。
答：分别计算三枚硬币抛掷20次，有13次正面朝上的概率：
第一枚：
C2013(25)13(1−25)20−13=0.01456305C_{20}^{13}(\frac{2}{5})^{13}(1-\frac{2}{5})^{20-13}=0.01456305 C2013(52)13(1−52)20−13=0.01456305
第二枚：
C2013(12)13(1−12)20−13=0.07392883C_{20}^{13}(\frac{1}{2})^{13}(1-\frac{1}{2})^{20-13} = 0.07392883 C2013(21)13(1−21)20−13=0.07392883
第三枚：
C2013(35)13(1−35)20−13=0.165882265C_{20}^{13}(\frac{3}{5})^{13}(1-\frac{3}{5})^{20-13} = 0.165882265 C2013(53)13(1−53)20−13=0.165882265
所以这枚硬币更可能是第三枚。

我们的参数θ\thetaθ就是上例中待估计的正面向上的概率值。对应到上例，随机变量XXX的取值xix_ixi表示抛掷kkk次硬币，正面向上的次数，这个概率为：
P({X=xi})=Ckxiθxi(1−θ)k−xiP(\{X=x_i\})=C_{k}^{x_i}\theta^{x_i}(1-\theta)^{k-x_i} P({X=xi})=Ckxiθxi(1−θ)k−xi
其中，xix_ixi、kkk这些参数是已知的，参数θ\thetaθ是未知的，因此抛掷kkk次硬币，有xix_ixi次向上的概率是一个关于参数θ\thetaθ的函数，写作：
P({X=xi})=p(xi;θ)P(\{X=x_i\})=p(x_i;\theta) P({X=xi})=p(xi;θ)
如果做nnn次这样的实验，每一次实验中，都是连续抛掷kkk次硬币，统计出现正面的次数，得到一系列样本：x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1,x2,x3,...,xn，这些样本的取值之间满足相互独立，那么这一串样本取得上述取值{X1=x1,X2=x2,X3=x3,...,Xn=xn}\{X_1=x_1,X_2=x_2,X_3=x_3,...,X_n=x_n\}{X1=x1,X2=x2,X3=x3,...,Xn=xn}的联合概率为：
∏i=1np(xi;θ)=p(x1;θ)⋅p(x2;θ)⋅p(x3;θ)⋅...⋅p(xn;θ)\prod_{i=1}^np(x_i;\theta)=p(x_1;\theta)\centerdot p(x_2;\theta)\centerdot p(x_3;\theta)\centerdot...\centerdot p(x_n;\theta) i=1∏np(xi;θ)=p(x1;θ)⋅p(x2;θ)⋅p(x3;θ)⋅...⋅p(xn;θ)
变换一下形式：
L(θ)=L(x1,x2,x3,...,xn;θ)=∏i=1np(xi;θ)L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta) L(θ)=L(x1,x2,x3,...,xn;θ)=i=1∏np(xi;θ)
L(θ)L(\theta)L(θ)就是已知样本值x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1,x2,x3,...,xn的似然函数，它描述的是取得这一串指定样本值的概率值，而这个概率值完全由未知参数θ\thetaθ决定。
如果XXX是一个连续型随机变量，则：
L(θ)=L(x1,x2,x3,...,xn;θ)=∏i=1nf(xi;θ)L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)=\prod_{i=1}^nf(x_i;\theta) L(θ)=L(x1,x2,x3,...,xn;θ)=i=1∏nf(xi;θ)

极大似然估计原理

思想

显然，似然函数L(θ)=L(x1,x2,x3,...,xn;θ)L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)L(θ)=L(x1,x2,x3,...,xn;θ)是指随机变量XXX取到指定的一组样本值x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1,x2,x3,...,xn时的概率大小。当未知的待估计参数θ\thetaθ取不同的值时，计算出来的该列车的值会发生变化。
例如，当θ=θ0\theta=\theta_0θ=θ0时，似然函数L(x1,x2,x3,...,xn;θ0)L(x_1, x_2, x_3, ..., x_n;\theta_0)L(x1,x2,x3,...,xn;θ0)的取值为0或趋近于0，那么意味着当θ=θ0\theta=\theta_0θ=θ0时，随机变量XXX取得这一组样本x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1,x2,x3,...,xn的概率为0，即根本不可能或可能性极小得到这样一组样本值，那么就不应该取θ0\theta_0θ0为参数估计值。
如果当θ\thetaθ取θ1\theta_1θ1和θ2\theta_2θ2两种不同的值时，似然函数的值L(x1,x2,x3,...,xn;θ1)>L(x1,x2,x3,...,xn;θ2)L(x_1, x_2, x_3, ..., x_n;\theta_1) \gt L(x_1, x_2, x_3, ..., x_n;\theta_2)L(x1,x2,x3,...,xn;θ1)>L(x1,x2,x3,...,xn;θ2)，即θ\thetaθ取θ1\theta_1θ1比取θ2\theta_2θ2有更大的可能获得这一组样本值x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1,x2,x3,...,xn，所以在选取估计值时更倾向于选取θ1\theta_1θ1。
因此我们需要做的就是在未知参数θ\thetaθ的取值范围Θ\ThetaΘ中选取使得似然函数L(x1,x2,x3,...,xn;θ)L(x_1, x_2, x_3, ..., x_n;\theta)L(x1,x2,x3,...,xn;θ)能够取得最大值的θ^\hat{\theta}θ^，作为未知参数的估计值，由于θ^\hat{\theta}θ^使得似然函数取值达到最大，因此θ^\hat{\theta}θ^就是未知参数θ\thetaθ的极大似然估计。

计算

在给定概率模型和一组相互独立的观测样本x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1,x2,x3,...,xn的基础之上，求使得似然函数L(θ)=L(x1,x2,x3,...,xn;θ)=∏i=1np(xi;θ)L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta)L(θ)=L(x1,x2,x3,...,xn;θ)=∏i=1np(xi;θ)取得最大值的未知参数θ\thetaθ的取值(连续情况类似)。
那么，就直接对似然函数求导，使得导数为0的θ\thetaθ的取值，就是我们要找的极大似然估计值θ^\hat{\theta}θ^。由于函数g(x)g(x)g(x)和函数ln(g(x))ln(g(x))ln(g(x))的单调性时一致的，并且L(θ)L(\theta)L(θ)的式子都是连乘，所以将其转换成ln(L(θ))ln(L(\theta))ln(L(θ)):
ln(L(θ))=ln(∏i=1np(xi;θ))=∑i=1nln(p(xi;θ))ln(L(\theta))=ln(\prod_{i=1}^np(x_i;\theta))=\sum_{i=1}^nln(p(x_i;\theta)) ln(L(θ))=ln(i=1∏np(xi;θ))=i=1∑nln(p(xi;θ))
此时在对该函数求导，如果上式有唯一解，并且还是最大值点，那么那就是我们要求的极大似然估计值。
更一般的，对于多参数情况：
ln(L(θ1,θ2,...,θk))=ln(∏i=1np(xi;θ1,θ2,...,θk))=∑i=1nln(p(xi;θ1,θ2,...,θk))ln(L(\theta_1,\theta_2,...,\theta_k))=ln(\prod_{i=1}^np(x_i;\theta_1,\theta_2,...,\theta_k))=\sum_{i=1}^nln(p(x_i;\theta_1,\theta_2,...,\theta_k)) ln(L(θ1,θ2,...,θk))=ln(i=1∏np(xi;θ1,θ2,...,θk))=i=1∑nln(p(xi;θ1,θ2,...,θk))
然后对于每一个待估计的未知参数θi\theta_iθi，都求偏导数，并令其为零，得到如下方程式：
{∂lnL∂θ1=0∂lnL∂θ2=0⋅⋅⋅∂lnL∂θk=0\begin{cases} \frac{\partial lnL}{\partial \theta_1}=0 \\ \frac{\partial lnL}{\partial \theta_2}=0 \\ \ \centerdot \centerdot \centerdot \\ \frac{\partial lnL}{\partial \theta_k}=0 \end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧∂θ1∂lnL=0∂θ2∂lnL=0 ⋅⋅⋅∂θk∂lnL=0
解出该方程即可。

需要注意的是极大似然估计值可能不存在，并且如果存在也有可能它的值不唯一。可以参考下面两个图：

如果极大似然函数L(θ)L(\theta)L(θ)在极大值处不连续，一阶导数不存在，则 MLE 不存在。

MLE不唯一的情况。

极大似然估计学习笔记相关推荐

机器学习理论《统计学习方法》学习笔记：第六章逻辑斯谛回归与最大熵模型
机器学习理论<统计学习方法>学习笔记:第六章逻辑斯谛回归与最大熵模型 6 逻辑斯谛回归与最大熵模型 6.1 逻辑斯谛回归模型 6.1.1 逻辑斯谛分布 6.1.2 二项逻辑斯蒂回归模型 ...
视觉SLAM十四讲学习笔记-第七讲-视觉里程计-三角测量和实践
专栏汇总视觉SLAM十四讲学习笔记-第一讲_goldqiu的博客-CSDN博客视觉SLAM十四讲学习笔记-第二讲-初识SLAM_goldqiu的博客-CSDN博客视觉SLAM十四讲学习笔记-第 ...
视觉SLAM十四讲学习笔记-第七讲-视觉里程计-对极几何和对极约束、本质矩阵、基础矩阵
专栏系列文章如下: 专栏汇总视觉SLAM十四讲学习笔记-第一讲_goldqiu的博客-CSDN博客视觉SLAM十四讲学习笔记-第二讲-初识SLAM_goldqiu的博客-CSDN博客视觉SLA ...
视觉SLAM十四讲学习笔记-第七讲-视觉里程计-特征点法和特征提取和匹配实践
专栏系列文章如下: 视觉SLAM十四讲学习笔记-第一讲_goldqiu的博客-CSDN博客视觉SLAM十四讲学习笔记-第二讲-初识SLAM_goldqiu的博客-CSDN博客视觉SLAM十四讲学习 ...
机器学习笔记---从极大似然估计的角度看待Logistic回归
前言看完极大似然估计后,想起Logistic回归中的参数估计就是使用这个方法,因此详细的记录整个推导的过程.[公式可以移动,若不能,可以切换横屏] 本文约1.4k字,预计阅读10分钟 Logisti ...
视觉SLAM十四讲学习笔记-第七讲-视觉里程计-PnP和实践
专栏汇总视觉SLAM十四讲学习笔记-第一讲_goldqiu的博客-CSDN博客视觉SLAM十四讲学习笔记-第二讲-初识SLAM_goldqiu的博客-CSDN博客视觉SLAM十四讲学习笔记- ...
STM32学习笔记（三）丨中断系统丨EXTI外部中断（对射式红外传感器计次、旋转编码器计次）
本篇文章包含的内容一.中断系统 1.1 中断的定义 1.2 中断优先级 1.3 中断的嵌套 1.4 STM32中的中断系统 1.4.1 STM32的中断资源 1.4.2 嵌套中断向量控制器 NVIC ...
视觉slam学习笔记以及课后习题《第五讲特征点法视觉里程计》
这篇博客主要记录了我在深蓝学院视觉slam课程中的课后习题,因为是为了统计知识点来方便自己以后查阅,所以有部分知识可能不太严谨,如果给大家造成了困扰请见谅,大家发现了问题也可以私信或者评论给我及时改正 ...
极大似然函数求解_关于极大似然估计的学习（附Matlab中mle函数的求解）
冒泡~是新的一周辣~温故而知新一下极大似然估计(真是很不容易了) 极大似然估计的基本思想什么是极大似然?官方上的较清楚的解释是:利用已知的样本的结果,在使用某个模型的基础上,反推最有可能导致这样结果 ...
CS231n 学习笔记（2）——神经网络 part2 ：Softmax classifier
*此系列为斯坦福李飞飞团队的系列公开课"cs231n convolutional neural network for visual recognition "的学习笔记.本文主要 ...

极大似然估计学习笔记

概念

似然函数始末

极大似然估计原理

思想

计算

极大似然估计学习笔记相关推荐

最新文章

热门文章