概率密度函数的参数估计
文章目录
- 前言
- 一、文章重点及流程梳理
- 二、概率论基础知识
- 三、参数估计
- 1.极大似然估计(Maximum Likelihood Estimation)
- 2.贝叶斯估计
前言
写作参考概率论书籍、西瓜书、李航《统计学习方法》及其他资料,若有不足请大家不吝赐教!
一、文章重点及流程梳理
本文目的在于:
1、阐述MLE参数估计的思想,并计算参数在正态分布下的估计量
2、阐述贝叶斯估计的思想,并介绍贝叶斯估计与MAP的不同点
流程梳理:
1、介绍这部分所涉及的概率论知识,包括条件概率、全概率、事件独立性、贝叶斯公式。
2、介绍MLE并求解参数在正态分布下的估计量,并进行比较。
3、介绍贝叶斯估计及MAP的思想。
二、概率论基础知识
1.条件概率
P ( B ∣ A ) = P ( A B ) P ( A ) ( 1 ) P\left( B|A \right) \,\,=\,\,\frac{P\left( AB \right)}{P\left( A \right)}\,\, \left( 1 \right) P(B∣A)=P(A)P(AB)(1)
通过下图对上式进行描述:
图中有两集合A、B,黄色部分为A、B的交集部分。则P(B|A)表示在A发生的情况下,B发生的概率,可以通过交集部分发生概率占A所发生概率的比值表示。同理,若要求P(A|B)只需要换成交集部分发生概率占B所发生概率的比值。
2.事件独立性
定义:在一次试验中,一事件发生与否与另一事件是否发生无关。满足下式:
P ( A B ) = P ( A ) P ( B ) ( 2 ) P\left( AB \right) \,\,=\,\,P\left( A \right) P\left( B \right) \,\, \left( 2 \right) P(AB)=P(A)P(B)(2)
则称A、B相互独立。
PS:独立同分布指的是随机变量服从同一分布且相互独立。
3.全概率公式
P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) ( 3 ) P\left( A \right) \,\,=\,\,\sum_{i\,\,=\,\,1}^n{P\left( B_i \right)}P\left( A|B_i \right) \,\, \left( 3 \right) P(A)=i=1∑nP(Bi)P(A∣Bi)(3)
公式解读:若A事件的发生可由多项B事件引起,那么这时候A发生的概率等于B事件发生的概率乘以B事件发生条件下A发生概率之和。
举个栗子:假设A是今天感到快乐的概率,可以通过吃东西B1,或者是买了新衣服B2,或者是出了考试成绩B3,或者是有人和自己告白B4。那么,所有的B事件发生,需要一定的概率;在B事件发生得概率下,开心和不开心都存在可能,而我们只取B事件下开心的概率,这时候A要发生的概率,就是所有B事件发生概率*B事件下A发生得概率的和。
4.贝叶斯公式(逆概公式)
贝叶斯公式的初始形式:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P\left( B|A \right) \,\,=\,\,\frac{P\left( A|B \right) P\left( B \right)}{P\left( A \right)} P(B∣A)=P(A)P(A∣B)P(B)
其中,P(A|B)称为似然(likelihood),P(B)称为先验(prior),P(A)称为事实,P(B|A)称为后验(posterior)。
后验P(B|A)求的是在A发生条件下,B发生得概率;似然P(A|B)求的是,若A发生则B作为影响因子出现的概率。
通过式(1)和式(2),可得到如下贝叶斯公式的变形:
P ( B j ∣ A ) = P ( B j ) ⋅ P ( A ∣ B j ) ∑ i = 1 n P ( B i ) P ( A ∣ B i ) ( 4 ) P\left( B_j|A \right) \,\,=\,\,P\left( B_j \right) \,\, ·\,\, \frac{P\left( A|B_j \right)}{\sum_{i\,\,=\,\,1}^n{P\left( B_i \right)}\,\,P\left( A|B_i \right)}\,\, \left( 4 \right) P(Bj∣A)=P(Bj)⋅∑i=1nP(Bi)P(A∣Bi)P(A∣Bj)(4)
通过下图对上式进行理解:
整个圆划分为三个部分A、B、C,黄色部分为M集合,若此时求M发生A中的概率,则
P ( A ∣ M ) = P ( A ∩ M ) P ( M ) P\left( A|M \right) \,\,=\,\,\frac{P\left( A\cap M \right)}{P\left( M \right)}\,\, P(A∣M)=P(M)P(A∩M)
= P ( M ∣ A ) P ( A ) P ( M ∣ A ) P A + P ( M ∣ B ) P ( B ) + P ( M ∣ C ) P ( C ) =\,\,\frac{P\left( M|A \right) P\left( A \right)}{P\left( M|A \right) PA+P\left( M|B \right) P\left( B \right) +P\left( M|C \right) P\left( C \right)} =P(M∣A)PA+P(M∣B)P(B)+P(M∣C)P(C)P(M∣A)P(A)
通过例子可知,后验概率目的在于,已知M发生后,想知道由A引发M事件的概率,即为:知道结果后反推原因。
三、参数估计
1.极大似然估计(Maximum Likelihood Estimation)
1、MLE思想
频率派角度:认为参数是固有的,但是可能由于一些外界的噪声干扰,使数据看起来不是完全由参数决定。但只要在这个数据给定的情况下,找到一个概率最大的参数就可以了。即,模型已定,参数未定。
P ( x ∣ θ ) P\left( x|\theta \right) P(x∣θ)
2、MLE表示形式
当存在多个样本时,需要多个似然相乘,此时样本间独立同分布,即:
P ( D c ∣ θ c ) = ∏ x ∈ D c P ( x ∣ θ c ) P\left( D_c|\theta _c \right) \,\,=\,\,\prod_{x\in D_c}{P\left( x|\theta _c \right)} P(Dc∣θc)=x∈Dc∏P(x∣θc)
对式子取对数得到:
L L ( θ c ) = ∑ x ∈ D c log P ( x ∣ θ c ) LL\left( \theta _c \right) \,\,=\,\,\sum_{x\in D_c}{\log P\left( x|\theta _c \right)} LL(θc)=x∈Dc∑logP(x∣θc)
则可以得到极大似然估计的表达式:
M L E = a r g max θ c P ( D c ∣ θ c ) = a r g max θ c L L ( θ c ) MLE\,\,=\,\,arg\,\,\underset{\theta _c}{\max}P\left( D_c|\theta _c \right) \,\,=\,\,arg\,\,\underset{\theta _c}{\max}\,\,LL\left( \theta _c \right) MLE=argθcmaxP(Dc∣θc)=argθcmaxLL(θc)试图在θ的所有取值中,找到一个使式子最大化的θ。
3、求解极值
假设参数θ满足正态分布,即 θ =(μ,∑),在一维情况下,θ =(μ,∑^2)
则有: M L E = a r g max θ c ∑ i = 1 N P ( x i ∣ θ ) = a r g max θ c ∑ i = 1 N 1 2 π σ e − ( x i − μ ) 2 2 σ 2 MLE\,\,=\,\,arg\,\,\underset{\theta _c}{\max}\,\,\sum_{i\,\,=\,\,1}^N{P\left( x_i|\theta \right) \,\,=\,\,arg\,\, \underset{\theta _c}{\max}\,\,\sum_{i\,\,=\,\,1}^N{\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left( x_i-\mu \right) ^2}{2\sigma ^2}}}} MLE=argθcmaxi=1∑NP(xi∣θ)=argθcmaxi=1∑N2π σ1e−2σ2(xi−μ)2
此时,问题转换成了求参数θ的MLE。
- step 1:求μ的极值
∂ μ ∂ θ = ( − ∑ i = 1 N ⋅ 1 2 log 2 π − ∑ i = 1 N log σ − ∑ i = 1 N ( x i − μ ) 2 2 σ 2 ) μ ′ = ∑ i = 1 N 2 ( x i − μ ) 2 σ 2 \frac{\partial \mu}{\partial \theta}\,\,=\,\,\left( -\sum_{i\,\,=\,\,1}^N{\,\,·\,\,\frac{1}{2}\log 2\pi \,\,-\,\,\sum_{i\,\,=\,\,1}^N{\log \sigma}\,\,-\,\,\sum_{i\,\,=\,\,1}^N{\frac{\left( x_i-\mu \right) ^2}{2\sigma ^2}}} \right) _{\mu}^{\prime} \\ =\,\,\sum_{i=\,\,1}^N{\frac{2\left( x_i-\mu \right)}{2\sigma ^2}}\,\, ∂θ∂μ=(−i=1∑N⋅21log2π−i=1∑Nlogσ−i=1∑N2σ2(xi−μ)2)μ′=i=1∑N2σ22(xi−μ)
令上式取0,得:
∑ i = 1 N x i = ∑ i = 1 N μ ⟹ μ M L E = 1 N ∑ i = 1 N x i \sum_{i\,\,=\,\,1}^N{x_i\,\,=\,\,\sum_{i\,\,=\,\,1}^N{\mu \,\, \Longrightarrow \,\, \mu _{MLE}\,\,=\,\,\frac{1}{N}\sum_{i\,\,=\,\,1}^N{x_i}}} i=1∑Nxi=i=1∑Nμ⟹μMLE=N1i=1∑Nxi
- step 2:求δ的极值
∂ σ ∂ θ = ( − ∑ i = 1 N ⋅ 1 2 log 2 π − ∑ i = 1 N log σ − ∑ i = 1 N ( x i − μ ) 2 2 σ 2 ) σ ′ = − ∑ i = 1 N 1 σ + ∑ i = 1 N ( x i − μ ) 2 σ 3 \frac{\partial \sigma}{\partial \theta}\,\,=\,\,\left( -\sum_{i\,\,=\,\,1}^N{\,\,·\,\,\frac{1}{2}\log 2\pi \,\,-\,\,\sum_{i\,\,=\,\,1}^N{\log \sigma}\,\,-\,\,\sum_{i\,\,=\,\,1}^N{\frac{\left( x_i-\mu \right) ^2}{2\sigma ^2}}} \right) _{\sigma}^{\prime} \\ =\,\,-\sum_{i\,\,=\,\,1}^N{\frac{1}{\sigma}}\,\,+\,\,\sum_{i\,\,=\,\,1}^N{\frac{\left( x_i-\mu \right) ^2}{\sigma ^3}}\,\, ∂θ∂σ=(−i=1∑N⋅21log2π−i=1∑Nlogσ−i=1∑N2σ2(xi−μ)2)σ′=−i=1∑Nσ1+i=1∑Nσ3(xi−μ)2
上式取0,得:
∑ i = 1 N 1 σ = ∑ i = 1 N ( x i − μ ) 2 σ 3 ⟹ σ M L E 2 = 1 N ∑ i = 1 N ( x i − μ M L E ) 2 \sum_{i\,\,=\,\,1}^N{\frac{1}{\sigma}\,\,=\,\,\sum_{i\,\,=\,\,1}^N{\frac{\left( x_i-\mu \right) ^2}{\sigma ^3}\,\, \Longrightarrow \,\, \sigma ^2_{MLE}\,\,=\,\,\frac{1}{N}\sum_{i\,\,=\,\,1}^N{\left( x_i-\mu _{MLE} \right) ^2}}}\,\, i=1∑Nσ1=i=1∑Nσ3(xi−μ)2⟹σMLE2=N1i=1∑N(xi−μMLE)2
4、MLE估计结果
判断在参数为正态分布的情况下,所得到的估计与实际是否一致。
E ( μ M L E ) = 1 N ∑ i = 1 N E ( x i ) = 1 N ∑ i = 1 N ⋅ μ = μ E\left( \mu _{MLE} \right) \,\,=\,\, \frac{1}{N}\sum_{i\,\,=\,\,1}^N{E\left( x_i \right)}\,\,=\,\,\frac{1}{N}\sum_{i\,\,=\,\,1}^N{\,\,·\mu}\,\,=\,\,\mu E(μMLE)=N1i=1∑NE(xi)=N1i=1∑N⋅μ=μ
对所得的均值求期望,得到的结果为,正态分布下的均值为样本均值,与正太分布下的均值相同,为无偏估计。
对所得的方差求期望,得到的结果为,正态分布下的方差为原方差的N-1/N倍,比原方差小,为有偏估计。
由上可知,在参数服从正态分布的条件下,若要方差为无偏估计,则需要除以这个偏差,可得:
σ 2 = N N − 1 σ M L E 2 = N N − 1 ⋅ 1 N ⋅ ∑ i = 1 N ( x i − μ M L E ) 2 = 1 N − 1 ⋅ ∑ i = 1 N ( x i − μ M L E ) 2 \sigma ^2\,\,=\,\,\frac{N}{N-1}\,\,\sigma _{MLE}^{2}\,\,=\,\,\frac{N}{N-1}\,\,·\,\,\frac{1}{N}\,\,·\,\,\sum_{i\,\,=\,\,1}^N{\left( x_i-\mu _{MLE} \right)}^2\,\,=\,\,\frac{1}{N-1}\,\,·\,\,\sum_{i\,\,=\,\,1}^N{\left( x_i-\mu _{MLE} \right)}^2 σ2=N−1NσMLE2=N−1N⋅N1⋅i=1∑N(xi−μMLE)2=N−11⋅i=1∑N(xi−μMLE)2
5、Q & A
Q(1):为何参数要服从正态分布?其他分布呢?
Q(2):参数正态分布下的MLE为何方差有偏差?
A(1):可以使用其他分布,如伯努利分布、二项分布、均匀分布等,但在正态分布下有偏的程度最小。
A(2):此时,在求方差时,是以MLE下的均值μMLE代替均值,而此时的μMLE为样本均值,而期望是总体均值,在随机取值的情况下,取到的μMLE偏大的可能性大,所以此时所求的方差会比原方差小。大数定律下,样本均值可以等于总体均值。
2.贝叶斯估计
由上一节可得到基于MLE的参数估计方法,但是该方法本身依赖于所假设的分布形式是否符合潜在的真实分布。即MLE只考虑了单一模型,由一个模型产生一个已知数据的概率,没有考虑模型本身的概率。
1、贝叶斯派思想
贝叶斯派角度:认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。
2、贝叶斯估计
P ( θ ∣ D ) = P ( D ∣ θ ) ⋅ P ( θ ) P ( D ) P\left( \theta |D \right) \,\,=\,\,\frac{P\left( D|\theta \right) \,\,·\,\,P\left( \theta \right)}{P\left( D \right)} P(θ∣D)=P(D)P(D∣θ)⋅P(θ)
上式表示的是贝叶斯下的参数估计。
它根据参数的先验分布p(θ)和一系列观察X,求出参数θ的后验分布p(θ|X),然后求出θ的期望值,作为其最终值。即:通过现实样本回馈来调整先验假设中参数的概率分布。
使用贝叶斯估计来进行参数估计有以下三种:
- 使用后验分布的密度函数最大值点作为θ的点估计的最大后验估计(MAP)。
- 使用后验分布的中位数作为θ的点估计的后验中位数估计。
- 使用后验分布的均值作为θ的点估计的后验期望估计。
由于后验概率是一个条件分布,通常取后验概率的期望作为参数的估计值。
3、最大后验概率估计MAP推导过程
- step 1:期望风险函数
记对数似然损失函数如下: L ( Y , P ( Y ∣ X ) ) = − log P ( Y ∣ X ) L\left( Y,P\left( Y|X \right) \right) \,\,=\,\,-\log P\left( Y|X \right) L(Y,P(Y∣X))=−logP(Y∣X)
理解:似然表示的是该参数作为影响因子导出结果的可能性,似然越大越接近真实值,那么损失函数就越小。
回顾一下求期望的方法:
假设X作为随机变量,Y=g(X),且E(Y)存在,则有
(1)变量为离散型:
E ( Y ) = E [ g ( X ) ] = ∑ i = 1 ∞ g ( x i ) p i E\left( Y \right) \,\,=\,\,E\left[ g\left( X \right) \right] \,\,=\,\,\sum_{i=\,\,1}^{\infty}{g\left( x_i \right) p_i} E(Y)=E[g(X)]=i=1∑∞g(xi)pi
(2)变量为连续型:
E ( Y ) = E [ g ( X ) ] = ∫ − ∞ + ∞ g ( x ) f ( x ) d x E\left( Y \right) \,\,=\,\,E\left[ g\left( X \right) \right] \,\, =\int_{-\infty}^{+\infty}{g\left( x \right) f\left( x \right) dx} E(Y)=E[g(X)]=∫−∞+∞g(x)f(x)dx
于是乎,可对上方似然损失函数进行期望求解,作为理想状态下对全局所有样本预测错误程度的均值。
R exp ( f ) = E [ L ( Y , P ( Y ∣ X ) ) ] R_{\exp}\left( f \right) \,\,=\,\,E\left[ L\left( Y,P\left( Y|X \right) \right) \right] \,\, Rexp(f)=E[L(Y,P(Y∣X))]
若此时,假设有N中可能的类别标记,Y={c1,c2,…,cN},将λij表示为将真实标记j误分类为i所产生的损失,且损失函数使用0-1损失函数表示分类结果,即:
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L\left( Y,f\left( X \right) \right) \,\,=\,\,\begin{cases} 1\text{,}Y\ne f\left( X \right)\\ 0\text{,}Y=f\left( X \right)\\ \end{cases} L(Y,f(X))={1,Y=f(X)0,Y=f(X)
得到最终的期望损失函数:
R exp ( c i ∣ x ) = ∑ i = 1 N λ i j P ( c j ∣ x ) R_{\exp}\left( c_i|x \right) \,\,=\sum_{i=\,\,1}^N{\lambda _{ij}P\left( c_j|x \right)} Rexp(ci∣x)=i=1∑NλijP(cj∣x)
P(ci|x)表示的是取值为x的情况下判为cj后所带来的损失。
- step 2:转换成MAP问题
若此时的Rexp作为误差损失,则令P(c|x)作为此时分类器所能达到的最佳性能。
P ( c ∣ x ) = 1 − R ( c ∣ x ) P\left( c|x \right) \,\,=\,\,1-R\left( c|x \right) P(c∣x)=1−R(c∣x)
则最小化期望风险转化为最大化后验概率:
f ( x ) = a r g max c ∈ Y P ( c ∣ x ) f\left( x \right) \,\,=\,\,arg\,\,\underset{c\in Y}{\max}\,\,P\left( c|x \right) f(x)=argc∈YmaxP(c∣x)
参考链接
贝叶斯估计
概率密度函数的参数估计相关推荐
- 概率密度函数,参数估计,非参数估计
1.概率密度函数 在分类器设计过程中(尤其是贝叶斯分类器),需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面.但是,在实际应用中,类条件概率密度通常是未知的.那 ...
- 贝叶斯估计(概率密度函数的估计的参数方法)
接上一篇文章:最大似估计 贝叶斯估计: 参数估计 是最随机变量,根据观测数据对参数的分布进行估计,还要考虑先验分布 最大似然估计: 参数估计 是未知的,根据观测数据来估计 的值. 贝叶 ...
- python概率密度函数参数估计_Python与项目反应理论:基于EM和MCMC的参数估计算法...
项目反应理论的开端 早在上世纪初,智力测验的发明者比奈(也可能是西蒙)便发现了一条神奇的曲线,这条曲线的x轴是智力水平,y轴是试题正确率,而这是项目反应理论(以下简称IRT)的最初雏形.上世界五六十年 ...
- 概率密度估计小结--参数估计与非参数估计
通过观测世界得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,在概率上我们有一个一般性的操作步骤: 1. 观测样本的存在 2. 每个样本之间是独立的 3. 所有样本符合一个概率模型 ...
- python概率密度函数_Python中概率密度函数的快速卷积
您可以使用快速傅立叶变换(FFT)有效地计算所有PDF的卷积:关键事实是,FFT of the convolution是单个概率密度函数FFT的乘积.因此,转换每个PDF,将转换后的PDF相乘,然后执 ...
- 【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )
文章目录 I . 高斯混合模型方法 ( GMM ) II . 硬聚类 与 软聚类 III . GMM 聚类结果概率的作用 IV . 高斯混合分布 V . 概率密度函数 VI . 高斯分布 曲线 ( 仅 ...
- 图像处理:图像中噪声分布和概率密度函数的关系
学习笔记:数字图像处理--图像中噪声分布和概率密度函数的关系 学习的时候,看到各种噪声,高斯.锐利.伽马.均匀等.每个分布有概率密度函数,而这个和噪声有啥具体的连接的关系,我不是很懂,稍微研究了一下, ...
- MATLAB概率密度函数估计
MATLAB概率密度函数估计 2016-03-23 16:12:24 分类: C#/.net 函数:ksdensity 功能:根据给定的数据,估计概率密度分布 示例: 1. 正态分布 x = rand ...
- 概率密度函数与分布函数的几何含义
概率密度函数与分布函数的几何含义 匿名 | 浏览 4603 次 推荐于2016-12-02 03:56:36 最佳答案 1,分布函数F(X)的一阶导数为概率密度函数:f(x) = dF(X)/dX 概 ...
最新文章
- 【ARM】arm串行通信
- java map缓存6_Java内存缓存-通过Map定制简单缓存
- 将 Sidecar 容器带入新的阶段
- cmake的使用--从零建立一个小cmake工程
- 软件工程能力漫谈:比编码更重要的,是项目管理能力
- 干货:数据仓库架构及基础知识
- Redhat系统下三种主要的软件包安装方法
- excel npoi 连接_Net操作Excel_NPOI(示例代码)
- landscape 1
- jsp数据传入html页面_曾经风光无限的 JSP,为什么现在很少有人使用了?
- 6. OD-去除收费软件次数限制,去除退出软件时弹出的广告(比如可执行5次)
- java default类型_java – 带有限定符@Default的ZZZZ类型的不满意依赖项
- java home centos_Centos7配置JAVA_HOME
- c++拷贝构造函数(深拷贝和浅拷贝)
- 测试面试题 用例设计题目回答思路
- django 使用mixins时报HTTP方法patch method not allow
- 用Excel制作不一样的分割图表
- 入侵防御系统 IPS
- cad图片怎么转换成pdf格式
- 简单介绍Fastboot