概念

1 概率和统计:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数;
2 极大似然估计(Maximum likelihood estimation,简称MLE):俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值,换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”;
3 极大似然估计的前提假设:所有的采样都是独立同分布的。

似然函数始末

在散型的情形下,随机变量XXX的概率分布是已知的,但是该分布的参数θ\thetaθ未知,需要我们通过一定方法估计。举一个例子:


现有三个不标准的硬币,其中第一枚抛出后正面朝上的概率为25\frac{2}{5}52​,第二枚硬币抛出后正面朝上的概率为12\frac{1}{2}21​,第三枚抛出后正面朝上的概率为35\frac{3}{5}53​。取出其中一枚硬币,抛掷20次,其中正面朝上的次数为13次,请问取出的是第几枚硬币。
答: 分别计算三枚硬币抛掷20次,有13次正面朝上的概率:
第一枚:
C2013(25)13(1−25)20−13=0.01456305C_{20}^{13}(\frac{2}{5})^{13}(1-\frac{2}{5})^{20-13}=0.01456305 C2013​(52​)13(1−52​)20−13=0.01456305
第二枚:
C2013(12)13(1−12)20−13=0.07392883C_{20}^{13}(\frac{1}{2})^{13}(1-\frac{1}{2})^{20-13} = 0.07392883 C2013​(21​)13(1−21​)20−13=0.07392883
第三枚:
C2013(35)13(1−35)20−13=0.165882265C_{20}^{13}(\frac{3}{5})^{13}(1-\frac{3}{5})^{20-13} = 0.165882265 C2013​(53​)13(1−53​)20−13=0.165882265
所以这枚硬币更可能是第三枚。


我们的参数θ\thetaθ就是上例中待估计的正面向上的概率值。对应到上例,随机变量XXX的取值xix_ixi​表示抛掷kkk次硬币,正面向上的次数,这个概率为:
P({X=xi})=Ckxiθxi(1−θ)k−xiP(\{X=x_i\})=C_{k}^{x_i}\theta^{x_i}(1-\theta)^{k-x_i} P({X=xi​})=Ckxi​​θxi​(1−θ)k−xi​
其中,xix_ixi​、kkk这些参数是已知的,参数θ\thetaθ是未知的,因此抛掷kkk次硬币,有xix_ixi​次向上的概率是一个关于参数θ\thetaθ的函数,写作:
P({X=xi})=p(xi;θ)P(\{X=x_i\})=p(x_i;\theta) P({X=xi​})=p(xi​;θ)
如果做nnn次这样的实验,每一次实验中,都是连续抛掷kkk次硬币,统计出现正面的次数,得到一系列样本:x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1​,x2​,x3​,...,xn​,这些样本的取值之间满足相互独立,那么这一串样本取得上述取值{X1=x1,X2=x2,X3=x3,...,Xn=xn}\{X_1=x_1,X_2=x_2,X_3=x_3,...,X_n=x_n\}{X1​=x1​,X2​=x2​,X3​=x3​,...,Xn​=xn​}的联合概率为:
∏i=1np(xi;θ)=p(x1;θ)⋅p(x2;θ)⋅p(x3;θ)⋅...⋅p(xn;θ)\prod_{i=1}^np(x_i;\theta)=p(x_1;\theta)\centerdot p(x_2;\theta)\centerdot p(x_3;\theta)\centerdot...\centerdot p(x_n;\theta) i=1∏n​p(xi​;θ)=p(x1​;θ)⋅p(x2​;θ)⋅p(x3​;θ)⋅...⋅p(xn​;θ)
变换一下形式:
L(θ)=L(x1,x2,x3,...,xn;θ)=∏i=1np(xi;θ)L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta) L(θ)=L(x1​,x2​,x3​,...,xn​;θ)=i=1∏n​p(xi​;θ)
L(θ)L(\theta)L(θ)就是已知样本值x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1​,x2​,x3​,...,xn​的似然函数,它描述的是取得这一串指定样本值的概率值,而这个概率值完全由未知参数θ\thetaθ决定。
如果XXX是一个连续型随机变量,则:
L(θ)=L(x1,x2,x3,...,xn;θ)=∏i=1nf(xi;θ)L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)=\prod_{i=1}^nf(x_i;\theta) L(θ)=L(x1​,x2​,x3​,...,xn​;θ)=i=1∏n​f(xi​;θ)

极大似然估计原理

思想

显然,似然函数L(θ)=L(x1,x2,x3,...,xn;θ)L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)L(θ)=L(x1​,x2​,x3​,...,xn​;θ)是指随机变量XXX取到指定的一组样本值x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1​,x2​,x3​,...,xn​时的概率大小。当未知的待估计参数θ\thetaθ取不同的值时,计算出来的该列车的值会发生变化。
例如,当θ=θ0\theta=\theta_0θ=θ0​时,似然函数L(x1,x2,x3,...,xn;θ0)L(x_1, x_2, x_3, ..., x_n;\theta_0)L(x1​,x2​,x3​,...,xn​;θ0​)的取值为0或趋近于0,那么意味着当θ=θ0\theta=\theta_0θ=θ0​时,随机变量XXX取得这一组样本x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1​,x2​,x3​,...,xn​的概率为0,即根本不可能或可能性极小得到这样一组样本值,那么就不应该取θ0\theta_0θ0​为参数估计值。
如果当θ\thetaθ取θ1\theta_1θ1​和θ2\theta_2θ2​两种不同的值时,似然函数的值L(x1,x2,x3,...,xn;θ1)>L(x1,x2,x3,...,xn;θ2)L(x_1, x_2, x_3, ..., x_n;\theta_1) \gt L(x_1, x_2, x_3, ..., x_n;\theta_2)L(x1​,x2​,x3​,...,xn​;θ1​)>L(x1​,x2​,x3​,...,xn​;θ2​),即θ\thetaθ取θ1\theta_1θ1​比取θ2\theta_2θ2​有更大的可能获得这一组样本值x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1​,x2​,x3​,...,xn​,所以在选取估计值时更倾向于选取θ1\theta_1θ1​。
因此我们需要做的就是在未知参数θ\thetaθ的取值范围Θ\ThetaΘ中选取使得似然函数L(x1,x2,x3,...,xn;θ)L(x_1, x_2, x_3, ..., x_n;\theta)L(x1​,x2​,x3​,...,xn​;θ)能够取得最大值的θ^\hat{\theta}θ^,作为未知参数的估计值,由于θ^\hat{\theta}θ^使得似然函数取值达到最大,因此θ^\hat{\theta}θ^就是未知参数θ\thetaθ的极大似然估计。

计算

在给定概率模型和一组相互独立的观测样本x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_nx1​,x2​,x3​,...,xn​的基础之上,求使得似然函数L(θ)=L(x1,x2,x3,...,xn;θ)=∏i=1np(xi;θ)L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta)L(θ)=L(x1​,x2​,x3​,...,xn​;θ)=∏i=1n​p(xi​;θ)取得最大值的未知参数θ\thetaθ的取值(连续情况类似)。
那么,就直接对似然函数求导,使得导数为0的θ\thetaθ的取值,就是我们要找的极大似然估计值θ^\hat{\theta}θ^。由于函数g(x)g(x)g(x)和函数ln(g(x))ln(g(x))ln(g(x))的单调性时一致的,并且L(θ)L(\theta)L(θ)的式子都是连乘,所以将其转换成ln(L(θ))ln(L(\theta))ln(L(θ)):
ln(L(θ))=ln(∏i=1np(xi;θ))=∑i=1nln(p(xi;θ))ln(L(\theta))=ln(\prod_{i=1}^np(x_i;\theta))=\sum_{i=1}^nln(p(x_i;\theta)) ln(L(θ))=ln(i=1∏n​p(xi​;θ))=i=1∑n​ln(p(xi​;θ))
此时在对该函数求导,如果上式有唯一解,并且还是最大值点,那么那就是我们要求的极大似然估计值。
更一般的,对于多参数情况:
ln(L(θ1,θ2,...,θk))=ln(∏i=1np(xi;θ1,θ2,...,θk))=∑i=1nln(p(xi;θ1,θ2,...,θk))ln(L(\theta_1,\theta_2,...,\theta_k))=ln(\prod_{i=1}^np(x_i;\theta_1,\theta_2,...,\theta_k))=\sum_{i=1}^nln(p(x_i;\theta_1,\theta_2,...,\theta_k)) ln(L(θ1​,θ2​,...,θk​))=ln(i=1∏n​p(xi​;θ1​,θ2​,...,θk​))=i=1∑n​ln(p(xi​;θ1​,θ2​,...,θk​))
然后对于每一个待估计的未知参数θi\theta_iθi​,都求偏导数,并令其为零,得到如下方程式:
{∂lnL∂θ1=0∂lnL∂θ2=0⋅⋅⋅∂lnL∂θk=0\begin{cases} \frac{\partial lnL}{\partial \theta_1}=0 \\ \frac{\partial lnL}{\partial \theta_2}=0 \\ \ \centerdot \centerdot \centerdot \\ \frac{\partial lnL}{\partial \theta_k}=0 \end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧​∂θ1​∂lnL​=0∂θ2​∂lnL​=0 ⋅⋅⋅∂θk​∂lnL​=0​
解出该方程即可。

需要注意的是极大似然估计值可能不存在,并且如果存在也有可能它的值不唯一。可以参考下面两个图:

如果极大似然函数L(θ)L(\theta)L(θ)在极大值处不连续,一阶导数不存在,则 MLE 不存在。

MLE不唯一的情况。

极大似然估计学习笔记相关推荐

  1. 机器学习理论《统计学习方法》学习笔记:第六章 逻辑斯谛回归与最大熵模型

    机器学习理论<统计学习方法>学习笔记:第六章 逻辑斯谛回归与最大熵模型 6 逻辑斯谛回归与最大熵模型 6.1 逻辑斯谛回归模型 6.1.1 逻辑斯谛分布 6.1.2 二项逻辑斯蒂回归模型 ...

  2. 视觉SLAM十四讲学习笔记-第七讲-视觉里程计-三角测量和实践

     专栏汇总 视觉SLAM十四讲学习笔记-第一讲_goldqiu的博客-CSDN博客 视觉SLAM十四讲学习笔记-第二讲-初识SLAM_goldqiu的博客-CSDN博客 视觉SLAM十四讲学习笔记-第 ...

  3. 视觉SLAM十四讲学习笔记-第七讲-视觉里程计-对极几何和对极约束、本质矩阵、基础矩阵

    专栏系列文章如下:  专栏汇总 视觉SLAM十四讲学习笔记-第一讲_goldqiu的博客-CSDN博客 视觉SLAM十四讲学习笔记-第二讲-初识SLAM_goldqiu的博客-CSDN博客 视觉SLA ...

  4. 视觉SLAM十四讲学习笔记-第七讲-视觉里程计-特征点法和特征提取和匹配实践

    专栏系列文章如下: 视觉SLAM十四讲学习笔记-第一讲_goldqiu的博客-CSDN博客 视觉SLAM十四讲学习笔记-第二讲-初识SLAM_goldqiu的博客-CSDN博客 视觉SLAM十四讲学习 ...

  5. 机器学习笔记---从极大似然估计的角度看待Logistic回归

    前言 看完极大似然估计后,想起Logistic回归中的参数估计就是使用这个方法,因此详细的记录整个推导的过程.[公式可以移动,若不能,可以切换横屏] 本文约1.4k字,预计阅读10分钟 Logisti ...

  6. 视觉SLAM十四讲学习笔记-第七讲-视觉里程计-PnP和实践

      专栏汇总 视觉SLAM十四讲学习笔记-第一讲_goldqiu的博客-CSDN博客 视觉SLAM十四讲学习笔记-第二讲-初识SLAM_goldqiu的博客-CSDN博客 视觉SLAM十四讲学习笔记- ...

  7. STM32学习笔记(三)丨中断系统丨EXTI外部中断(对射式红外传感器计次、旋转编码器计次)

    本篇文章包含的内容 一.中断系统 1.1 中断的定义 1.2 中断优先级 1.3 中断的嵌套 1.4 STM32中的中断系统 1.4.1 STM32的中断资源 1.4.2 嵌套中断向量控制器 NVIC ...

  8. 视觉slam学习笔记以及课后习题《第五讲特征点法视觉里程计》

    这篇博客主要记录了我在深蓝学院视觉slam课程中的课后习题,因为是为了统计知识点来方便自己以后查阅,所以有部分知识可能不太严谨,如果给大家造成了困扰请见谅,大家发现了问题也可以私信或者评论给我及时改正 ...

  9. 极大似然函数求解_关于极大似然估计的学习(附Matlab中mle函数的求解)

    冒泡~是新的一周辣~温故而知新一下极大似然估计(真是很不容易了) 极大似然估计的基本思想 什么是极大似然?官方上的较清楚的解释是:利用已知的样本的结果,在使用某个模型的基础上,反推最有可能导致这样结果 ...

  10. CS231n 学习笔记(2)——神经网络 part2 :Softmax classifier

    *此系列为斯坦福李飞飞团队的系列公开课"cs231n convolutional neural network for visual recognition "的学习笔记.本文主要 ...

最新文章

  1. 1097 Deduplication on a Linked List
  2. linux中文乱码问题及locale详解
  3. 计算机科学825,2017年河南大学计算机与信息工程学院825专业基础课(软件工程导论、数据结构)之数据结构考研题库...
  4. Android 监听网络连接状态,判断网络连接方式,9.0网络连接,获取已连接WiFi名称SSID和MAC
  5. android 仿直播点赞,Android-DivergeView
  6. 掘金后端 mysql优化_vue服务端渲染项目(ssr)仿掘金、后台页面是react spa、服务层nodejs、koa、mysql编写的一套多权限内容管理系统...
  7. php-fpm安装包_linux下安装php php-fpm(转载)
  8. 【渝粤教育】国家开放大学2018年秋季 2080T现代教育思想 参考试题
  9. SVN Attempted to lock an already-locked dir异常解决方法
  10. mysql monitor怎么用_MySQL 监控工具 mysql-monitor 详解
  11. 新版网易云课堂视频真实地址分析
  12. 详解C语言中的使用(取地址符)
  13. php 到数据库乱码怎么解决方法,php数据库乱码解决方法
  14. 启明云端分享|IDO-SOM3568:可用于轻量级人工智能应用
  15. java版我的世界_我的世界Java版1.16
  16. 宣城市高新技术企业认定补贴政策 申报流程整理分析
  17. 【详细】小程序发微博功能实现
  18. Linux_Linux 修改hostname 且不重启也能生效
  19. php源生代码是什么,php源生分页代码+join连接多表
  20. 我的同事们(一):Alex Peng

热门文章

  1. 三菱MX Component通信应用
  2. 完全免费的公众号文章批量下载器
  3. Delphi7中idhttp和superobject获取网页中文乱码解决办法
  4. 2022年浙江省电子设计大赛C题小车跟随系统
  5. tftp64工具使用
  6. html 车牌号输入代码,html中车牌号省份简称输入键盘的示例代码
  7. tensorRt加速tensorflow模型推理(inception V3为例)
  8. ardupilot在Linux上设置SITL(FlightGear)
  9. 经典图像分割方法总结
  10. 安卓下最强的3款pdf阅读器测评