极大似然估计 伯努利分布 高斯分布 正态分布
#极大似然估计 伯努利分布 高斯分布 正态分布
概率分布的参数能以最高的概率产生这些样本。
如果观察到的数据是 D1,D2,D3,...,DND_1, D_2, D_3, ... , D_ND1,D2,D3,...,DN,
那么极大似然的目标如下:
maxP(D1,D2,D3,...,DN)max P(D_1, D_2, D_3, ... , D_N)maxP(D1,D2,D3,...,DN)
这里需要计算所有数据的联合概率,这不是件容易的事。
因此在这里引入了, 独立同分布假设,
independent and identically ditributed (i.i.d)
即每个样本出现的概率互不影响。
则现在我们要解决的问题变成:
max∏iNP(Di)max \prod{^N_i} P(D_i)max∏iNP(Di)
对于优化问题,常用的方法是求导数取极值。
如果目标是一个凸函数,那么它导数为0的点,
就是极值点。
但现在公式中有连乘,求导比较麻烦。
这时,将函数取对数,函数的极值点不会改变。
现在公式变为:
max∑iNlogP(Di)max \sum{^N_i} log P(D_i)max∑iNlogP(Di)
现在求导会变得简单许多。
下面是例子
离散分布
伯努利分布下随机变量的最大似然计算方法。
假设
P(X=1)=p,P(X=0)=1−pP(X = 1) = p, P(X = 0) = 1-pP(X=1)=p,P(X=0)=1−p
那么
P(X)=pX(1−p)1−XP(X) = p^X (1-p)^{1-X}P(X)=pX(1−p)1−X
如果有一组数据D从这个随机变量中采样得来,那么:
maxplogP(D)max_p log P(D)maxplogP(D)
=maxplog∏iNP(Di)= max_p log \prod^N_i P(D_i)=maxplogi∏NP(Di)
=maxp∑iNlogP(Di)= max_p \sum^N_i log P(D_i)=maxpi∑NlogP(Di)
=maxp∑iNlogpDi(1−p)1−Di= max_p \sum^N_i log p^{D_i} (1-p)^{1-D_i}=maxpi∑NlogpDi(1−p)1−Di
=maxp∑iN[Dilogp+(1−Di)log(1−p)]= max_p \sum^N_i [D_i log p + (1 - D_i)log (1 - p)]=maxpi∑N[Dilogp+(1−Di)log(1−p)]
对这个式子求导,得到:
▽plogP(D)=∑iN[Di1p+(1−Di)1p−1]\bigtriangledown_p log P(D) = \sum^N_i [D_i\frac{1}{p} + (1 - D_i)\frac{1}{p-1}]▽plogP(D)=i∑N[Dip1+(1−Di)p−11]
另导数为0,就有:
∑iN[Di1p+(1−Di)1p−1]=0\sum^N_i [D_i\frac{1}{p} + (1 - D_i)\frac{1}{p-1}] = 0i∑N[Dip1+(1−Di)p−11]=0
∑iN[Di(p−1)+(1−Di)p]=0\sum^N_i [D_i(p-1) + (1 - D_i)p] = 0i∑N[Di(p−1)+(1−Di)p]=0
∑iN(p−Di)=0\sum^N_i (p - D_i) = 0i∑N(p−Di)=0
N∗p−∑iNDi=0N*p - \sum^N_i D_i = 0N∗p−i∑NDi=0
p=1N∑iNDip = \frac{1}{N}\sum^N_i D_ip=N1i∑NDi
伯努利分布下最大似然法求出的结果,相当于所有采样的平均值。
连续分布
基于高斯分布最大似然法计算
p(x)=12πσ2e−(x−μ)22σ2p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e ^{- \frac{(x-\mu)^2}{2\sigma^2}}p(x)=2πσ21e−2σ2(x−μ)2
maxlogP(D)max log P(D)maxlogP(D)
=maxlog∏iNP(Di)= max log \prod^N_i P(D_i)=maxlogi∏NP(Di)
=max∑iNlogP(Di)= max \sum^N_i log P(D_i)=maxi∑NlogP(Di)
=max∑iNlog(12πσ2e−(Di−μ)22σ2)= max \sum^N_i log (\frac{1}{\sqrt{2\pi\sigma^2}} e ^{- \frac{(D_i-\mu)^2}{2\sigma^2}}) =maxi∑Nlog(2πσ21e−2σ2(Di−μ)2)
=max∑iN[−12log(2πσ2)−(Di−μ)22σ2]= max \sum^N_i [- \frac{1}{2}log(2\pi\sigma^2) - \frac{(D_i - \mu)^2}{2\sigma^2}]=maxi∑N[−21log(2πσ2)−2σ2(Di−μ)2]
=max[−N2log(2πσ2)−12σ2∑iN(Di−μ)2]= max[-\frac{N}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum^N_i(D_i - \mu)^2]=max[−2Nlog(2πσ2)−2σ21i∑N(Di−μ)2]
首先对μ\muμ 求导:
∂logP(D)∂μ=−1σ2∑iN(μ−Di)\frac{\partial log P(D)}{\partial \mu} = - \frac{1}{\sigma^2} \sum^N_i (\mu - D_i)∂μ∂logP(D)=−σ21i∑N(μ−Di)
令导数为0:
−1σ2∑iN(μ−Di)=0- \frac{1}{\sigma^2} \sum^N_i(\mu - D_i) = 0−σ21i∑N(μ−Di)=0
μ=1N∑iNDi\mu = \frac{1}{N}\sum^N_i D_iμ=N1i∑NDi
其次,对 σ2\sigma^2σ2 求导:
∂logP(D)∂σ2=−N2σ2+12σ4∑iN(Dt−μ)2\frac{\partial log P(D)}{\partial \sigma^2} = - \frac{N}{2 \sigma^2} + \frac {1}{2\sigma^4} \sum^N_i(D_t - \mu)^2∂σ2∂logP(D)=−2σ2N+2σ41i∑N(Dt−μ)2
令导数为0:
−N2σ2+12σ4∑iN(Di−μ)2=0- \frac{N}{2\sigma^2} + \frac{1}{2\sigma^4}\sum^N_i(D_i - \mu)^2 = 0−2σ2N+2σ41i∑N(Di−μ)2=0
σ2=1N∑iN(Di−μ)2\sigma^2 = \frac{1}{N} \sum^N_i (D_i - \mu)^2σ2=N1i∑N(Di−μ)2
从伯努利分布和高斯分布的最大似然法结果来看,最终求得的参数结果
和期望方差的计算方式一致。
极大似然估计 伯努利分布 高斯分布 正态分布相关推荐
- 第一课.极大似然估计与有偏性无偏性
目录 极大似然估计 问题背景 极大似然估计的计算方法 参数估计的有偏性和无偏性 极大似然估计 问题背景 以高斯分布引出问题,高斯分布的重要性体现于: 1.根据中心极限定理,当样本量足够大的时候,任意分 ...
- 数理统计仿真实验:大数定律、中心极限定理、矩估计与极大似然估计(含MATLAB代码)
目录 数理统计仿真实验(Computational Practice) 大数定律(the Law of Large Numbers) 二项分布(Binomial Distribution) 泊松分布( ...
- 为什么对高斯分布的方差的极大似然估计是有偏的?
本文要证明为什么对高斯分布的方差的极大似然估计是有偏的.同时,也说明为什么求样本方差时,分母是N-1而不是N. 首先,明白两点,(1)极大似然法得到的高斯方差是什么形式(2)什么是有偏. (1)先说第 ...
- R语言作业一:矩估计、极大似然估计、拟合、对数正态分布、泊松分布、负二项分布
一.矩估计.极大似然估计.拟合.对数正态分布 ##导入数据 setwd("C:/Users/chang/Documents/SRM-PA/R简介/上课练习数据集") healthe ...
- 正态分布均值μ的极大似然估计推导
推导下述正态分布均值的极大似然估计和贝叶斯估计. 数据x1,x2,-,xn来自正态分布N(μ,σ2),其中σ2已和. (1)根据样本x1,-,xn写出μ的极大似然估计. (2)假设μ的先验分布是正态分 ...
- 浅议极大似然估计(MLE)背后的思想原理
1. 概率思想与归纳思想 0x1:归纳推理思想 所谓归纳推理思想,即是由某类事物的部分对象具有某些特征,推出该类事物的全部对象都具有这些特征的推理.抽象地来说,由个别事实概括出一般结论的推理称为归纳推 ...
- 人工智能科普|极大似然估计——机器学习重要知识点
https://www.toutiao.com/a6649579620909711879/ 2019-01-23 14:45:03 经常有许多对人工智能领域跃跃欲试的小伙伴在后台发私信问我" ...
- 【机器学习基础】深入理解极大似然估计(MLE) 1: 引入问题
导读:极大似然估计(MLE) 是统计机器学习中最基本的概念,但是能真正全面深入地理解它的性质和背后和其他基本理论的关系不是件容易的事情.极大似然估计和以下概念都有着紧密的联系:随机变量,无偏性质(un ...
- 极大似然估计(Maximum Likelihood)与无监督
1. 极大似然与最大概率 因为不是科班出身,所以最初接触极大似然的时候,总是很奇怪为什么叫极大似然,而不直接叫做最大概率? 后来才知道极大似然是用来估计未知参数的,而最大概率的表述更适合于已知参数的情 ...
最新文章
- 提高SQLite每秒INSERT的性能?
- 我非要捅穿这 Neutron(二)上层资源模型篇
- post传参部分数据丢失
- nrf52832的p09,p10 配置为 普通的gpio口
- Hbase hbck2下载编译和基本使用
- JS 如何快速高效的将数组转换成树形结构
- 引用到网站绝对路径Server.MapPath(~/myfile.mdb)
- 玩转linux 中间的yum 命令
- classpath是什么
- Apache提示You don't have permission to access / on this server问题解决
- 结合spring IOC AOP Mybatis写一个简易的银行转账案例
- 全志A33N切换分支.repo/repo/repo forall -c git checkout exdroid-7.1.1_r23-a33-v7.0rc2.1
- 计算机专业自我总结100字,毕业自我鉴定100字
- 405 not allowed 问题排查
- 杭州市公积金提取及相关知识
- 从今天起,我决定去掉cnzz统计
- 专科三年的教训,写给自己,也给正在学习路上的你
- KMeans算法的Mapreduce实现
- 深度学习工作站攒机指南
- 关于地下管线探测技术发展的思考
热门文章
- 在制作 GIF 图片的时候,这10个注意事项帮你做得更好
- 海尔集团 | 100道笔试题曝光(判断、问答、名词解释、综合题)附答案
- 英文语料库词性标记表(TreeTagger) 附TreeTagger软件包
- VSCode设置第三方字体
- “浏览淫秽视频” 违法吗?
- 马云是计算机专业的吗,大佬与高考:马云三次高考 马化腾弃天文选计算机
- web player php,VideoPlayer.php
- JavaScript实现全选/全不选操作
- 算法基础入门——数论(数学知识基础)
- VScode输出乱码问题解决