极大似然估计伯努利分布高斯分布正态分布

#极大似然估计伯努利分布高斯分布正态分布

概率分布的参数能以最高的概率产生这些样本。

如果观察到的数据是 D1,D2,D3,...,DND_1, D_2, D_3, ... , D_ND1,D2,D3,...,DN,
那么极大似然的目标如下：

maxP(D1,D2,D3,...,DN)max P(D_1, D_2, D_3, ... , D_N)maxP(D1,D2,D3,...,DN)

这里需要计算所有数据的联合概率，这不是件容易的事。
因此在这里引入了，独立同分布假设，
independent and identically ditributed (i.i.d)
即每个样本出现的概率互不影响。
则现在我们要解决的问题变成：

max∏iNP(Di)max \prod{^N_i} P(D_i)max∏iNP(Di)

对于优化问题，常用的方法是求导数取极值。
如果目标是一个凸函数，那么它导数为0的点，
就是极值点。
但现在公式中有连乘，求导比较麻烦。
这时，将函数取对数，函数的极值点不会改变。
现在公式变为：

max∑iNlogP(Di)max \sum{^N_i} log P(D_i)max∑iNlogP(Di)

现在求导会变得简单许多。

下面是例子

离散分布

伯努利分布下随机变量的最大似然计算方法。
假设

P(X=1)=p,P(X=0)=1−pP(X = 1) = p, P(X = 0) = 1-pP(X=1)=p,P(X=0)=1−p

那么

P(X)=pX(1−p)1−XP(X) = p^X (1-p)^{1-X}P(X)=pX(1−p)1−X

如果有一组数据D从这个随机变量中采样得来，那么：

maxplogP(D)max_p log P(D)maxplogP(D)

=maxplog∏iNP(Di)= max_p log \prod^N_i P(D_i)=maxplogi∏NP(Di)

=maxp∑iNlogP(Di)= max_p \sum^N_i log P(D_i)=maxpi∑NlogP(Di)

=maxp∑iNlogpDi(1−p)1−Di= max_p \sum^N_i log p^{D_i} (1-p)^{1-D_i}=maxpi∑NlogpDi(1−p)1−Di

=maxp∑iN[Dilogp+(1−Di)log(1−p)]= max_p \sum^N_i [D_i log p + (1 - D_i)log (1 - p)]=maxpi∑N[Dilogp+(1−Di)log(1−p)]

对这个式子求导，得到：

▽plogP(D)=∑iN[Di1p+(1−Di)1p−1]\bigtriangledown_p log P(D) = \sum^N_i [D_i\frac{1}{p} + (1 - D_i)\frac{1}{p-1}]▽plogP(D)=i∑N[Dip1+(1−Di)p−11]

另导数为0，就有：

∑iN[Di1p+(1−Di)1p−1]=0\sum^N_i [D_i\frac{1}{p} + (1 - D_i)\frac{1}{p-1}] = 0i∑N[Dip1+(1−Di)p−11]=0

∑iN[Di(p−1)+(1−Di)p]=0\sum^N_i [D_i(p-1) + (1 - D_i)p] = 0i∑N[Di(p−1)+(1−Di)p]=0

∑iN(p−Di)=0\sum^N_i (p - D_i) = 0i∑N(p−Di)=0

N∗p−∑iNDi=0N*p - \sum^N_i D_i = 0N∗p−i∑NDi=0

p=1N∑iNDip = \frac{1}{N}\sum^N_i D_ip=N1i∑NDi

伯努利分布下最大似然法求出的结果，相当于所有采样的平均值。

连续分布
基于高斯分布最大似然法计算
p(x)=12πσ2e−(x−μ)22σ2p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e ^{- \frac{(x-\mu)^2}{2\sigma^2}}p(x)=2πσ21e−2σ2(x−μ)2

maxlogP(D)max log P(D)maxlogP(D)

=maxlog∏iNP(Di)= max log \prod^N_i P(D_i)=maxlogi∏NP(Di)

=max∑iNlogP(Di)= max \sum^N_i log P(D_i)=maxi∑NlogP(Di)

=max∑iNlog(12πσ2e−(Di−μ)22σ2)= max \sum^N_i log (\frac{1}{\sqrt{2\pi\sigma^2}} e ^{- \frac{(D_i-\mu)^2}{2\sigma^2}}) =maxi∑Nlog(2πσ21e−2σ2(Di−μ)2)

=max∑iN[−12log(2πσ2)−(Di−μ)22σ2]= max \sum^N_i [- \frac{1}{2}log(2\pi\sigma^2) - \frac{(D_i - \mu)^2}{2\sigma^2}]=maxi∑N[−21log(2πσ2)−2σ2(Di−μ)2]

=max[−N2log(2πσ2)−12σ2∑iN(Di−μ)2]= max[-\frac{N}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum^N_i(D_i - \mu)^2]=max[−2Nlog(2πσ2)−2σ21i∑N(Di−μ)2]

首先对μ\muμ 求导:

∂logP(D)∂μ=−1σ2∑iN(μ−Di)\frac{\partial log P(D)}{\partial \mu} = - \frac{1}{\sigma^2} \sum^N_i (\mu - D_i)∂μ∂logP(D)=−σ21i∑N(μ−Di)

令导数为0：

−1σ2∑iN(μ−Di)=0- \frac{1}{\sigma^2} \sum^N_i(\mu - D_i) = 0−σ21i∑N(μ−Di)=0

μ=1N∑iNDi\mu = \frac{1}{N}\sum^N_i D_iμ=N1i∑NDi

其次，对 σ2\sigma^2σ2 求导：

∂logP(D)∂σ2=−N2σ2+12σ4∑iN(Dt−μ)2\frac{\partial log P(D)}{\partial \sigma^2} = - \frac{N}{2 \sigma^2} + \frac {1}{2\sigma^4} \sum^N_i(D_t - \mu)^2∂σ2∂logP(D)=−2σ2N+2σ41i∑N(Dt−μ)2

令导数为0：

−N2σ2+12σ4∑iN(Di−μ)2=0- \frac{N}{2\sigma^2} + \frac{1}{2\sigma^4}\sum^N_i(D_i - \mu)^2 = 0−2σ2N+2σ41i∑N(Di−μ)2=0

σ2=1N∑iN(Di−μ)2\sigma^2 = \frac{1}{N} \sum^N_i (D_i - \mu)^2σ2=N1i∑N(Di−μ)2

从伯努利分布和高斯分布的最大似然法结果来看，最终求得的参数结果
和期望方差的计算方式一致。

极大似然估计伯努利分布高斯分布正态分布相关推荐

第一课.极大似然估计与有偏性无偏性
目录极大似然估计问题背景极大似然估计的计算方法参数估计的有偏性和无偏性极大似然估计问题背景以高斯分布引出问题,高斯分布的重要性体现于: 1.根据中心极限定理,当样本量足够大的时候,任意分 ...
数理统计仿真实验：大数定律、中心极限定理、矩估计与极大似然估计（含MATLAB代码）
目录数理统计仿真实验(Computational Practice) 大数定律(the Law of Large Numbers) 二项分布(Binomial Distribution) 泊松分布( ...
为什么对高斯分布的方差的极大似然估计是有偏的？
本文要证明为什么对高斯分布的方差的极大似然估计是有偏的.同时,也说明为什么求样本方差时,分母是N-1而不是N. 首先,明白两点,(1)极大似然法得到的高斯方差是什么形式(2)什么是有偏. (1)先说第 ...
R语言作业一：矩估计、极大似然估计、拟合、对数正态分布、泊松分布、负二项分布
一.矩估计.极大似然估计.拟合.对数正态分布 ##导入数据 setwd("C:/Users/chang/Documents/SRM-PA/R简介/上课练习数据集") healthe ...
正态分布均值μ的极大似然估计推导
推导下述正态分布均值的极大似然估计和贝叶斯估计. 数据x1,x2,-,xn来自正态分布N(μ,σ2),其中σ2已和. (1)根据样本x1,-,xn写出μ的极大似然估计. (2)假设μ的先验分布是正态分 ...
浅议极大似然估计（MLE）背后的思想原理
1. 概率思想与归纳思想 0x1:归纳推理思想所谓归纳推理思想,即是由某类事物的部分对象具有某些特征,推出该类事物的全部对象都具有这些特征的推理.抽象地来说,由个别事实概括出一般结论的推理称为归纳推 ...
人工智能科普｜极大似然估计——机器学习重要知识点
https://www.toutiao.com/a6649579620909711879/ 2019-01-23 14:45:03 经常有许多对人工智能领域跃跃欲试的小伙伴在后台发私信问我" ...
【机器学习基础】深入理解极大似然估计(MLE) 1: 引入问题
导读:极大似然估计(MLE) 是统计机器学习中最基本的概念,但是能真正全面深入地理解它的性质和背后和其他基本理论的关系不是件容易的事情.极大似然估计和以下概念都有着紧密的联系:随机变量,无偏性质(un ...
极大似然估计(Maximum Likelihood)与无监督
1. 极大似然与最大概率因为不是科班出身,所以最初接触极大似然的时候,总是很奇怪为什么叫极大似然,而不直接叫做最大概率? 后来才知道极大似然是用来估计未知参数的,而最大概率的表述更适合于已知参数的情 ...

极大似然估计伯努利分布高斯分布正态分布

极大似然估计伯努利分布高斯分布正态分布相关推荐

最新文章

热门文章

极大似然估计 伯努利分布 高斯分布 正态分布

极大似然估计 伯努利分布 高斯分布 正态分布相关推荐

最新文章

热门文章

极大似然估计伯努利分布高斯分布正态分布

极大似然估计伯努利分布高斯分布正态分布相关推荐