如何理解极大似然估计?
文章目录
- 1 引入
- 2 分析
- 3 总结
- 4 补充
1 引入
首先,来看这样一个例子:
一口袋中有许多红球和白球,只知道数目比例为 1 : 3 1:3 1:3,不知道哪种多,通过实验来判断红球占的比例是 1 4 \frac{1}{4} 41还是 3 4 \frac{3}{4} 43。
今用有放回抽取的方法从口袋中抽取 n n n个球,将红球的个数记为 X X X,则 X X X服从二项分布 B ( n , p ) B(n,p) B(n,p)。如何由实验结果来估计 p p p的值?
现在假设有这样一个实验结果:从口袋中抽取了100个球,其中红球的个数为80个,那么相应的抽取到白球的个数就为20个。
如果现在要求你从上述的实验结果中去判断红球占的比例是 1 4 \frac{1}{4} 41还是 3 4 \frac{3}{4} 43,大概很多人会选择 3 4 \frac{3}{4} 43,这是一个很自然的选择,因为抽取的100个球中,红球占了大多数。(当然最后的结果有没有可能是红球占的比例是 1 4 \frac{1}{4} 41,也有可能,但是在当前实验结果下,我们会认为出现这样结果的可能性会很小)
其实,在进行上述选择(根据实验结果去判断红球所占比例)过程中,我们不自觉的运用到了极大似然估计的思想,即:根据已经发生的结果,去选择一个原因,使得出现这样结果的可能性最大。换句话说,结果是在使它出现可能性最大的那个原因下发生的。
具体到这个例子,结果是从口袋中抽取了100个球,其中有80个都是红球;那么导致最大可能性出现该结果的原因就是原来口袋中红球所占的比例是 3 4 \frac{3}{4} 43。
2 分析
根据极大似然估计的思想,可以在这简单总结一下,如何在一个具体实例中去运用:
- 求出发生该结果的一个概率表达式(其中可能带有未知参数,通俗理解就是原因);
- 根据概率表达式,调整未知参数(选择原因),使得出现该结果的概率最大。
下面,根据上述两个步骤,来看一下这样一个例子:
设总体 X ∼ ( 1 2 3 1 − θ 2 θ 2 2 θ 2 2 ) , θ ( 0 < θ < 1 ) X \sim\left(\begin{array}{ccc}1 & 2 & 3 \\ 1-\theta^2 & \frac{\theta^2}{2} & \frac{\theta^2}{2}\end{array}\right), \theta(0<\theta<1) X∼(11−θ222θ232θ2),θ(0<θ<1)未知,现得一样本值 1 , 3 , 2 , 3 1,3,2,3 1,3,2,3,求 θ \theta θ的极大似然估计值。
第一步,求出出现 1 , 3 , 2 , 3 1,3,2,3 1,3,2,3结果的概率表达式:
P { ( X 1 , X 2 , X 3 , X 4 ) = ( 1 , 3 , 2 , 3 ) } = P { X 1 = 1 , X 2 = 3 , X 3 = 2 , X 4 = 3 } = P { X 1 = 1 } P { X 2 = 3 } P { X 3 = 2 } P { X 4 = 3 } = P { X = 1 } P { X = 3 } P { X = 2 } P { X = 3 } = 1 8 θ 6 ( 1 − θ 2 ) ≜ L ( θ ) \begin{aligned} & P\left\{\left(X_1, X_2, X_3, X_4\right)=(1,3,2,3)\right\} \\ & =P\left\{X_1=1, X_2=3, X_3=2, X_4=3\right\} \\ & =P\left\{X_1=1\right\} P\left\{X_2=3\right\} P\left\{X_3=2\right\} P\left\{X_4=3\right\} \\ & =P\{X=1\} P\{X=3\} P\{X=2\} P\{X=3\} \\ & =\frac{1}{8} \theta^6\left(1-\theta^2\right) \triangleq L(\theta) \end{aligned} P{(X1,X2,X3,X4)=(1,3,2,3)}=P{X1=1,X2=3,X3=2,X4=3}=P{X1=1}P{X2=3}P{X3=2}P{X4=3}=P{X=1}P{X=3}P{X=2}P{X=3}=81θ6(1−θ2)≜L(θ)
第二步,根据概率表达式,调整未知参数,使得出现该结果的概率最大:
L ( θ ) = 1 8 θ 6 ( 1 − θ 2 ) , 0 < θ < 1 ln L ( θ ) = ln 1 8 + 6 ln θ + ln ( 1 − θ 2 ) 令 d d θ ln L ( θ ) = 6 θ − 2 θ 1 − θ 2 = 0 \begin{aligned} & L(\theta)=\frac{1}{8} \theta^6\left(1-\theta^2\right), \quad 0<\theta<1 \\ & \ln L(\theta)=\ln \frac{1}{8}+6 \ln \theta+\ln \left(1-\theta^2\right) \\ & \text { 令 } \frac{d}{d \theta} \ln L(\theta)=\frac{6}{\theta}-\frac{2 \theta}{1-\theta^2}=0 \end{aligned} L(θ)=81θ6(1−θ2),0<θ<1lnL(θ)=ln81+6lnθ+ln(1−θ2) 令 dθdlnL(θ)=θ6−1−θ22θ=0
解出 θ \theta θ的极大似然估计值 θ ^ = 3 2 \hat{\theta}=\frac{\sqrt{3}}{2} θ^=23 。
从上面这个例子中,可以发现使用极大似然估计的一个必要条件是需要知道总体类型(分布),因为只有这样才能求出结果的概率表达式。
3 总结
最后,大致来总结一下极大似然估计(Maximum Likelihood Estimation,MLE)方法:
离散型
设总体 X X X的分布律: P { X = x } = p ( x ; θ ) P\left\{X=x\right\}=p\left(x;\theta\right) P{X=x}=p(x;θ), θ ∈ Θ \theta\in \Theta θ∈Θ, θ \theta θ未知, X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是总体 X X X的一个样本, x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn为样本值。称 L ( θ ) = ∏ i = 1 n p ( x i ; θ ) L(\theta)=\prod \limits^{n}_{i=1}p(x_{i};\theta) L(θ)=i=1∏np(xi;θ)为样本的似然函数, L ( θ ) L(\theta) L(θ)的意义为样本值(结果)出现的概率。
令 d d θ l n L ( θ ) = 0 , θ ∈ Θ \frac{d}{d\theta}lnL(\theta)=0,\theta \in \Theta dθdlnL(θ)=0,θ∈Θ,则:
θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}\left(x_1,x_2,\cdots,x_n\right) θ^(x1,x2,⋯,xn)为 θ \theta θ的极大似然估计值; θ ^ ( X 1 , X 2 , ⋯ , X n ) \hat{\theta}\left(X_1,X_2,\cdots,X_n\right) θ^(X1,X2,⋯,Xn)为 θ \theta θ的极大似然估计量。
连续型
设总体 X X X的概率密度函数: f ( x ; θ ) , θ ∈ Θ f\left(x;\theta\right),\theta \in \Theta f(x;θ),θ∈Θ, θ \theta θ未知, X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是总体 X X X的一个样本, x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn为样本值。
注意: ( X 1 , X 2 , ⋯ , X n ) \left(X_1,X_2,\cdots,X_n\right) (X1,X2,⋯,Xn)在 ( x 1 , x 2 , ⋯ , x n ) \left(x_1,x_2,\cdots,x_n\right) (x1,x2,⋯,xn)附近取值的概率正比于 ( X 1 , X 2 , ⋯ , X n ) \left(X_1,X_2,\cdots,X_n\right) (X1,X2,⋯,Xn)的联合密度在 ( x 1 , x 2 , ⋯ , x n ) \left(x_1,x_2,\cdots,x_n\right) (x1,x2,⋯,xn)处的函数值。(因为在连续型分布中取到某点的概率为零,故改为在以该点为中心的一个微小邻域上进行取值)
记 L ( θ ) = ∏ i = 1 n f ( x i ; θ ) L\left(\theta\right)=\prod \limits^{n}_{i=1}f\left(x_i;\theta\right) L(θ)=i=1∏nf(xi;θ)称为样本的似然函数。 L ( θ ) L(\theta) L(θ)的意义为正比于样本值出现的概率。
令 d d θ l n L ( θ ) = 0 , θ ∈ Θ \frac{d}{d\theta}lnL(\theta)=0,\theta \in \Theta dθdlnL(θ)=0,θ∈Θ,则:
θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}\left(x_1,x_2,\cdots,x_n\right) θ^(x1,x2,⋯,xn)为 θ \theta θ的极大似然估计值; θ ^ ( X 1 , X 2 , ⋯ , X n ) \hat{\theta}\left(X_1,X_2,\cdots,X_n\right) θ^(X1,X2,⋯,Xn)为 θ \theta θ的极大似然估计量。
4 补充
对于离散型总体和连续型总体分别进行实例的补充:
离散型
设总体 X X X服从几何分布, p ( 0 < p < 1 ) p(0<p<1) p(0<p<1)未知,
P { X = k } = ( 1 − p ) k − 1 p , k = 1 , 2 , ⋯ P\left\{X=k\right\}=\left(1-p\right)^{k-1}p, \quad k=1,2,\cdots P{X=k}=(1−p)k−1p,k=1,2,⋯
求 p p p的极大似然估计。解:设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是总体 X X X的一个样本, x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn为样本值。
概率密度函数: p ( x ; p ) = ( 1 − p ) x − 1 p , x = 1 , 2 , ⋯ p\left(x;p\right)=\left(1-p\right)^{x-1}p,\quad x=1,2,\cdots p(x;p)=(1−p)x−1p,x=1,2,⋯
似然函数:
L ( p ) = ∏ i = 1 n p ( x i ; p ) = ∏ i = 1 n ( 1 − p ) x i − 1 p = p n ( 1 − p ) n x ˉ − n \begin{aligned} L(p) & =\prod\limits^{n}_{i=1} p\left(x_i ; p\right)=\prod\limits^{n}_{i=1}(1-p)^{x_i-1} p =p^n(1-p)^{n \bar{x}-n} \\ \end{aligned} L(p)=i=1∏np(xi;p)=i=1∏n(1−p)xi−1p=pn(1−p)nxˉ−nl n L ( p ) = n ln p + ( n x ˉ − n ) ln ( 1 − p ) lnL(p) =n \ln p+(n \bar{x}-n) \ln (1-p) lnL(p)=nlnp+(nxˉ−n)ln(1−p)
令 d d p ln L ( p ) = n p − n x ˉ − n 1 − p = 0 \text { 令 } \frac{d}{d p} \ln L(p)=\frac{n}{p}-\frac{n \bar{x}-n}{1-p}=0 令 dpdlnL(p)=pn−1−pnxˉ−n=0,有:
p ^ = 1 x ˉ , p 的极大似然估计值 \hat{p}=\frac{1}{\bar{x}},\quad p\text{的极大似然估计值} p^=xˉ1,p的极大似然估计值;
p ^ = 1 X ˉ , p 的极大似然估计量 \hat{p}=\frac{1}{\bar{X}},\quad p\text{的极大似然估计量} p^=Xˉ1,p的极大似然估计量.
连续型
设总体 X X X密度 f ( x ) = { ( θ + 1 ) x θ , 0 < x < 1 0 , 其他 f(x)= \begin{cases}(\theta+1) x^\theta, & 0<x<1 \\ 0, & \text { 其他 }\end{cases} f(x)={(θ+1)xθ,0,0<x<1 其他 , θ > − 1 \theta> -1 θ>−1未知,求 θ \theta θ的极大似然估计。
解:设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是总体 X X X的一个样本, x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn为样本值。
L ( θ ) = { ∏ i = 1 n ( θ + 1 ) x i θ = ( θ + 1 ) n ( x 1 x 2 ⋯ x n ) θ , 0 < x i < 1 , i = 1 , 2 , ⋯ , n . 0 , 其他 \begin{aligned} & L(\theta)= \begin{cases}\prod_{i=1}^n(\theta+1) x_i^\theta=(\theta+1)^n\left(x_1 x_2 \cdots x_n\right)^\theta, & 0<x_i<1, i=1,2, \cdots, n .\\ \\ 0 ,& \text{其他}\end{cases} \\ \end{aligned} L(θ)=⎩ ⎨ ⎧∏i=1n(θ+1)xiθ=(θ+1)n(x1x2⋯xn)θ,0,0<xi<1,i=1,2,⋯,n.其他
当 0 < x i < 1 , i = 1 , 2 , ⋯ , n 时, 0<x_i<1, i=1,2, \cdots, n \text { 时, } 0<xi<1,i=1,2,⋯,n 时,
ln L ( θ ) = n ln ( θ + 1 ) + θ ∑ i = 1 n ln x i \ln L(\theta)=n \ln (\theta+1)+\theta \sum_{i=1}^n \ln x_i lnL(θ)=nln(θ+1)+θi=1∑nlnxi
令 d d θ ln L ( θ ) = n θ + 1 + ∑ i = 1 n ln x i = 0 ,有: \text{令}\frac{d}{d \theta} \ln L(\theta)=\frac{n}{\theta+1}+\sum_{i=1}^n \ln x_i=0\text{,有:} 令dθdlnL(θ)=θ+1n+∑i=1nlnxi=0,有:
θ ^ = − n ∑ i = 1 n ln x i − 1 , θ 的极大似然估计值; \hat{\theta}=-\frac{n}{\sum_{i=1}^n \ln x_i}-1,\theta\text{的极大似然估计值;} θ^=−∑i=1nlnxin−1,θ的极大似然估计值;
θ ^ = − n ∑ i = 1 n ln X i − 1 , θ 的极大似然估计量. \hat{\theta}=-\frac{n}{\sum_{i=1}^n \ln X_i}-1,\theta \text{的极大似然估计量.} θ^=−∑i=1nlnXin−1,θ的极大似然估计量.
如何理解极大似然估计?相关推荐
- 通俗理解极大似然估计
维基百科:在统计学中,最大似然估计(英语:Maximum Likelihood Estimation,简作MLE),也称极大似然估计,是用来估计一个概率模型的参数的一种方法 极大似然估计,通俗理解来说 ...
- 通俗理解“极大似然估计”
文章目录 前言 1. 似然估计 1.1 下定义 1.2 举例子 1.3 推公式 1.3.1 概率函数 1.3.2 似然函数 1.4 为什么要估计参数的似然性? 2. 极大似然估计 2.1 一般概念 2 ...
- 简单理解极大似然估计MLE
简单理解极大似然估计(MLE) 基本思想 使数据集中数据出现的概率(似然)最大 举例描述 假设某一个新闻文档数据集下有体育.财经.游戏等分类,已知体育类下的所有文档中"篮球"一词出 ...
- 如何通俗地理解“极大似然估计”?
博客内容搬运自https://www.matongxue.com/madocs/447.html 前言 最大似然估计说的就是,如果事情发生了,那必然是概率最大的. 一般来说,我们都觉得硬币是公平的,也 ...
- 极大似然估计_干货|一文理解极大似然估计
一.什么是极大似然估计 极大似然估计是一种参数估计的方法.它要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模型在所有模型中产生已知数据的概率最大. 通俗 ...
- 【转载】通俗理解极大似然估计
看了一些相关帖子,感觉这篇写的不错. https://www.sohu.com/a/235713737_466874
- 什么是极大似然估计?
● 每周一言 坚持一定是有毅力,但有毅力不一定能坚持. 导语 统计学中,我们经常能听到极大似然估计,或者最大似然估计,它是一种参数估计方法.在机器学习中,逻辑回归就是基于极大似然估计来计算的损失函数. ...
- 透彻理解机器学习中极大似然估计MLE的原理(附3D可视化代码)
文章目录 相关资料 一.什么是概率,什么是似然 二.极大似然估计 Maximum Likelihood Estimation (MLE) 的含义 2.1 机器学习中的极大化似然函数 2.2 极大似然估 ...
- 干货 | 一文搞懂极大似然估计
极大似然估计,通俗理解来说,就是在假定整体模型分布已知,利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值! 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数 ...
最新文章
- 用链表生成前序二叉树
- tflearn 数据集太大无法加载进内存问题?——使用image_preloader 或者是 hdf5 dataset to deal with that issue...
- 宜出行热力图怎么抓取_滴滴听不到单怎么办?七个小技巧
- mysql 技能进阶_mysql的高级进阶(一)
- 多线程并发之原子性(六)
- Silverlight:CreateFromXAMLDownloader
- 容器编排技术 -- Windows Server 容器
- android 获取4g信号_5G与1G、2G、3G、4G有何不同
- ubuntu boot中grub误操作 导致系统开进grub
- k8s核心技术-Pod(两种实现机制)_Pod底层实现机制_共享网络_共享存储_Pause根容器_Pod数据卷---K8S_Google工作笔记0021
- 使用windows crypto API加密解密
- 开源字符处理类库:CharString类 拆分自自己研发的web服务器中的类库
- 云计算-大数据-云安全高等教育改革示范教材
- 面试官:给我说说你对Java GC机制的理解?
- STM32F429之DCMI 数字相机接口
- oracle 建表 lob cache,创建表规范 lob 字段
- 任天堂游戏 html5,明年的预备阵容!任天堂承诺却还没出的作品
- python 的基础 学习第十天函数的初始
- 爬虫与反爬虫,永恒的道高一尺魔高一丈
- 【系统辨识】辨识理论基础及古典辨识方法(随机过程+白噪声+基本概念)
热门文章
- TP-LINK产品复位大全(路由器初始化恢复出厂默认值)
- 【OpenCV】异常: cv::Exception,位于内存位置 0x000000000030F440 处
- bzoj 4976: 宝石镶嵌 动态规划
- JS教程之Electron.js设计强大的多平台桌面应用程序的好工具
- 做了两天的唯美蝴蝶动画
- 台州一中高考2021成绩查询,台州2019高考成绩排名榜单,台州各高中高考成绩喜
- windows10下python开发spark应用的环境搭建
- top-性能分析命令
- 微软拟推“超人”和“特斯拉”两款新手机
- 【原创游戏】合金弹头S——Unity制作的同人游戏