求解极大似然估计,一共有几步?
前提知识
阅读本文之前,需要了解似然函数相关的概念,详见另一篇文章 如何通俗地理解“最大似然估计法”?
极大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
极大似然估计的原理
极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
假设样本集中的样本都是独立同分布(随机变量在任何时刻的取值互相独立,并且服从同一个分布),可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为:
D={x1,x2,⋯,xN}D=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}D={x1,x2,⋯,xN}
针对于 样本集 D,联合概率密度函数 p(D∣θ)p(D | \theta )p(D∣θ) 称为 θ\thetaθ 的似然函数(likehood function)。
对于独立同分布的样本集,他的联合概率密度函数实际上是各个样本概率的乘积:
p(D∣θ)=f(x1∣θ)f(x2∣θ)⋯f(xn∣θ)p(D | \theta )=f\left(x_{1} | \theta\right) f\left(x_{2} | \theta\right) \cdots f\left(x_{n} | \theta\right)p(D∣θ)=f(x1∣θ)f(x2∣θ)⋯f(xn∣θ)
似然函数则为:
L(θ)=p(D∣θ)=p(x1,x2,⋯,xN∣θ)=∏i=1Np(xi∣θ)L(\theta)=p(D | \theta)=p\left(x_{1}, x_{2}, \cdots, x_{N} | \theta\right)=\prod_{i=1}^{N} p\left(x_{i} | \theta\right)L(θ)=p(D∣θ)=p(x1,x2,⋯,xN∣θ)=i=1∏Np(xi∣θ)
如果 θ^\hat{\theta}θ^ 是参数空间中能使似然函数 L(θ)L(\theta)L(θ) 最大的 θ 值,则应该是“最可能”的参数值,那么就是 θ 的极大似然估计量。它是样本集的函数,记作:
θ^=d(x1,x2,⋯,xN)=d(D)\hat{\theta}=d\left(x_{1}, x_{2}, \cdots, x_{N}\right)=d(D)θ^=d(x1,x2,⋯,xN)=d(D)
θ^(x1,x2,⋯,xN)\hat{\theta}(x_{1}, x_{2}, \cdots, x_{N})θ^(x1,x2,⋯,xN)称作极大似然函数估计值。
求解极大似然函数
极大似然估计:求使得出现该组样本的概率最大的θ值。
θ^=argmaxθL(θ)=argmaxθ∏i=1Np(xi∣θ)\hat{\theta}=\arg \max _{\theta} L(\theta)=\arg \max _{\theta} \prod_{i=1}^{N} p\left(x_{i} | \theta\right)θ^=argθmaxL(θ)=argθmaxi=1∏Np(xi∣θ)
实际中为了便于分析,定义了对数似然函数,对原似然函数取一下对数:
H(θ)=lnL(θ)H(\theta)=\ln L(\theta)H(θ)=lnL(θ)
根据对数运算法则,两数乘积的对数等于各自的对数之和:
θ^=argmaxθH(θ)=argmaxθlnL(θ)=argmaxθ∑i=1Nlnp(xi∣θ)\hat{\theta}=\arg \max _{\theta} H(\theta)=\arg \max _{\theta} \ln L(\theta)=\arg \max _{\theta} \sum_{i=1}^{N} \ln p\left(x_{i} | \theta\right)θ^=argθmaxH(θ)=argθmaxlnL(θ)=argθmaxi=1∑Nlnp(xi∣θ)
接下来可以分为两种情况,一个参数和多个参数:
- 未知参数只有一个(θ为标量)
在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:
dl(θ)dθ=0\frac{d l(\theta)}{d \theta}=0dθdl(θ)=0 或者等价于 dH(θ)dθ=dlnL(θ)dθ=0\frac{d H(\theta)}{d \theta}=\frac{d \ln L(\theta)}{d \theta}=0dθdH(θ)=dθdlnL(θ)=0 - 未知参数有多个(θ为向量)
则θ可表示为具有S个分量的未知向量:
θ=[θ1,θ2,⋯,θS]T\theta=\left[\theta_{1}, \theta_{2}, \cdots, \theta_{S}\right]^{T}θ=[θ1,θ2,⋯,θS]T
记梯度算子:
∇θ=[∂∂θ1,∂∂θ2,⋯,∂∂θS]T\nabla_{\theta}=\left[\frac{\partial}{\partial \theta_{1}}, \frac{\partial}{\partial \theta_{2}}, \cdots, \frac{\partial}{\partial \theta_{S}}\right]^{T}∇θ=[∂θ1∂,∂θ2∂,⋯,∂θS∂]T
若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。
∇θH(θ)=∇θlnL(θ)=∑i=1N∇θlnP(xi∣θ)=0\nabla_{\theta} H(\theta)=\nabla_{\theta} \ln L(\theta)=\sum_{i=1}^{N} \nabla_{\theta} \ln P\left(x_{i} | \theta\right)=0∇θH(θ)=∇θlnL(θ)=i=1∑N∇θlnP(xi∣θ)=0
方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。
极大似然估计的例子
**例1:**设样本服从正态分布N(μ,σ2)N\left(\mu, \sigma^{2}\right)N(μ,σ2),则似然函数为:
L(μ,σ2)=∏i=1N12πσe−(xi−μ)22σ2=(2πσ2)−n2e−12σ2∑k=1n(xi−μ)2L\left(\mu, \sigma^{2}\right)=\prod_{i=1}^{N} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}}=\left(2 \pi \sigma^{2}\right)^{-\frac{n}{2}} e^{-\frac{1}{2 \sigma^{2}} \sum_{k=1}^{n}\left(x_{i}-\mu\right)^{2}}L(μ,σ2)=i=1∏N2πσ1e−2σ2(xi−μ)2=(2πσ2)−2ne−2σ21∑k=1n(xi−μ)2
它的对数:
lnL(μ,σ2)=−n2ln(2π)−n2ln(σ2)−12σ2∑i=1n(xi−μ)2\ln L\left(\mu, \sigma^{2}\right)=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \left(\sigma^{2}\right)-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}lnL(μ,σ2)=−2nln(2π)−2nln(σ2)−2σ21i=1∑n(xi−μ)2
求导,得方程组:
{∂lnL(μ,σ2)∂μ=1σ2∑i=1n(xi−μ)=0∂lnL(μ,σ2)∂σ2=−n2σ2+12σ4∑i=1n(xi−μ)2=0\left\{\begin{array}{l}{\frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \mu}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right) \quad=0} \\ {\frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \sigma^{2}}=-\frac{n}{2 \sigma^{2}}+\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}=0}\end{array}\right.⎩⎨⎧∂μ∂lnL(μ,σ2)=σ21∑i=1n(xi−μ)=0∂σ2∂lnL(μ,σ2)=−2σ2n+2σ41∑i=1n(xi−μ)2=0
联合解得:
{μ∗=x‾=1n∑i=1nxiσ∗2=1n∑i=1n(xi−x‾)2\left\{\begin{array}{l}{\mu^{*}=\overline{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}} \\ {\sigma^{* 2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}\end{array}\right.{μ∗=x=n1∑i=1nxiσ∗2=n1∑i=1n(xi−x)2
似然方程有唯一解(μ∗,σ∗2)\left(\mu^{*}, \sigma^{* 2}\right)(μ∗,σ∗2),而且它一定是最大值点,这是因为当∣μ∣→∞|\mu| \rightarrow \infty∣μ∣→∞ 或 σ2→∞\sigma^{2} \rightarrow \inftyσ2→∞ 或 0 时,非负函数L(μ,σ2)→0L\left(\mu, \sigma^{2}\right) \rightarrow 0L(μ,σ2)→0。于是 μ\muμ 和 σ2\sigma^{2}σ2 的极大似然估计为(μ∗,σ∗2)\left(\mu^{*}, \sigma^{* 2}\right)(μ∗,σ∗2) 。
**例2:**设样本服从均匀分布[a, b]。则X的概率密度函数:
f(x)={1b−a,a≤x≤b0,Otherf(x)=\left\{\begin{array}{ll}{\frac{1}{b-a},} & {\mathrm{a} \leq x \leq b} \\ {0,} & {Other}\end{array}\right.f(x)={b−a1,0,a≤x≤bOther
对样本D={x1,x2,⋯,xN}D=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}D={x1,x2,⋯,xN}
很显然,L(a,b)作为a和b的二元函数是不连续的,这时不能用导数来求解。而必须从极大似然估计的定义出发,求L(a,b)的最大值,为使L(a,b)达到最大,b-a应该尽可能地小,但b又不能小于max{x1,x2,⋯,xn}\max \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}max{x1,x2,⋯,xn},否则,L(a,b)=0。类似地a不能大过min{x1,x2,⋯,xn}\min \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}min{x1,x2,⋯,xn},因此,a和b的极大似然估计:
a∗=min{x1,x2,⋯,xn}b∗=max{x1,x2,⋯,xn}\begin{array}{l}{a^{*}=\min \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}} \\ {b^{*}=\max \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}}\end{array}a∗=min{x1,x2,⋯,xn}b∗=max{x1,x2,⋯,xn}
总结
求最大似然估计量的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数,并整理;
(3)求导数;
(4)解似然方程。
最大似然估计的特点:
1.比其他估计方法更加简单;
2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;
3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。
参考:
https://blog.csdn.net/zengxiantao1994/article/details/72787849
Python超级好课,原价169元,活动优惠价99元!扫码下单输优惠码【csdnfxzs】再减5元:
https://marketing.csdn.net/poster/85?utm_source=NEWFXDT
求解极大似然估计,一共有几步?相关推荐
- 极大似然估计_计量经济学 | 极大似然估计
写在前面:本文写作于被新冠病毒 (COVID-19) 笼罩下的英国.前段时间本人的恩师.苏格兰老爷爷.英国伯明翰大学Emeritus讲席教授Peter Sinclair确诊新冠病毒,实乃不幸.在此祝P ...
- 贝叶斯网专题11:参数学习之极大似然估计
第一部分:贝叶斯网基础 1.1 信息论基础 1.2 贝叶斯网基本概念 1.3 变量独立性的图论分析 第二部分:贝叶斯网推理 2.1 概率推理中的变量消元方法 2.2 团树传播算法 2.3 近似推理 2 ...
- 一文看懂 “极大似然估计” 与 “最大后验估计” —— 极大似然估计篇
参考: 唐宇迪<人工智能数学基础>第8章 Richard O. Duda <模式分类>第三章 白板机器学习 P2 - 频率派 vs 贝叶斯派 频率学派还是贝叶斯学派?聊一聊机器 ...
- 概率统计笔记:极大似然估计
极大似然估计,误差的高斯分布与最小二乘估计的等价性 极大似然估计的具体步骤 似然函数 假设样本观测值 求解方程 极大似然估计的具体步骤 假设有随机变量 X ∼ P ( x ; θ ) X\sim P( ...
- 逻辑回归(Logistic Regression)原理及损失函数、极大似然估计
一.什么是逻辑回归 虽然名字是"回归",但解决的是"分类"问题. 模型学习的是E[y∣x;θ]E[y|x;\theta]E[y∣x;θ],即给定自变量和超参数后 ...
- 伽马分布极大似然估计_一文通俗解释极大似然估计
我们都知道机器学习的大致流程是通过建立一个合理的模型学习现有数据集,然后通过该模型去完成特定的任务.其中每个模型都包含自身的一组特定参数,而这组参数决定着模型的本身.但这里存在一个很关键的一个问题,就 ...
- 机器学习笔记1.矩估计、极大似然估计。
1.矩估计 1.1矩估计思想: 矩估计是基于一种简单的"替换"思想,即用样本矩估计总体矩 1.2矩估计理论: 矩估计的理论依据就是基于大数定律的,大数定律语言化表述为:当总体的k阶 ...
- 什么是极大似然估计?
● 每周一言 坚持一定是有毅力,但有毅力不一定能坚持. 导语 统计学中,我们经常能听到极大似然估计,或者最大似然估计,它是一种参数估计方法.在机器学习中,逻辑回归就是基于极大似然估计来计算的损失函数. ...
- 【转载】极大似然估计
原文链接:知行流浪 https://blog.csdn.net/zengxiantao1994/article/details/72787849 以前多次接触过极大似然估计,但一直都不太明白到底什么原 ...
最新文章
- python爬虫简单实例-这个Python爬虫的简单入门及实用的实例,你会吗?
- 获取iOS顶部状态栏和Navigation的高度
- decimal 和 numeric (Transact-SQL)
- Charles 二三谈
- C++再议构造函数及复制构造函数深度复制
- 2019级软件1班安卓实训总结
- 知乎究竟走的是什么路线?克隆之路靠谱吗?
- PHP中“简单工厂模式”实例讲解(转)
- HSPICE求导语句
- css设置背景色透明,字体颜色不透明
- 计算机编程入门先学什么最好?
- HTML动漫设计公司响应式网站模板期末大作业0023
- “我,从油漆工开始的80后,曾经靠副业的收入买车买房”
- Codeforces Round #439 (Div. 2) E. The Untended Antiquity (hash+数状数组)
- 微信小程序卡包wx.addcard文档缺失-ext参数说明
- Unity实用小工具或脚本——读写Json工具
- oracle的insert写法,Oracle中Insert语句的总结
- spring集成kafka运行时报错:Failed to construct kafka producer] with root cause
- 新团队团队融合研讨会_行程报告:2020年软件开发人员多样性与融合研讨会
- speccpu2006整型浮点型测试