文章目录

  • 前言
  • 一、文章重点及流程梳理
  • 二、概率论基础知识
  • 三、参数估计
    • 1.极大似然估计(Maximum Likelihood Estimation)
    • 2.贝叶斯估计

前言

写作参考概率论书籍、西瓜书、李航《统计学习方法》及其他资料,若有不足请大家不吝赐教!


一、文章重点及流程梳理

本文目的在于:
1、阐述MLE参数估计的思想,并计算参数在正态分布下的估计量
2、阐述贝叶斯估计的思想,并介绍贝叶斯估计与MAP的不同点

流程梳理:
1、介绍这部分所涉及的概率论知识,包括条件概率、全概率、事件独立性、贝叶斯公式。
2、介绍MLE并求解参数在正态分布下的估计量,并进行比较。
3、介绍贝叶斯估计及MAP的思想。

二、概率论基础知识

1.条件概率
P ( B ∣ A ) = P ( A B ) P ( A ) ( 1 ) P\left( B|A \right) \,\,=\,\,\frac{P\left( AB \right)}{P\left( A \right)}\,\, \left( 1 \right) P(B∣A)=P(A)P(AB)​(1)

通过下图对上式进行描述:
图中有两集合A、B,黄色部分为A、B的交集部分。则P(B|A)表示在A发生的情况下,B发生的概率,可以通过交集部分发生概率占A所发生概率的比值表示。同理,若要求P(A|B)只需要换成交集部分发生概率占B所发生概率的比值。

2.事件独立性
定义:在一次试验中,一事件发生与否与另一事件是否发生无关。满足下式:
P ( A B ) = P ( A ) P ( B ) ( 2 ) P\left( AB \right) \,\,=\,\,P\left( A \right) P\left( B \right) \,\, \left( 2 \right) P(AB)=P(A)P(B)(2)

则称A、B相互独立。

PS:独立同分布指的是随机变量服从同一分布且相互独立。

3.全概率公式
P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) ( 3 ) P\left( A \right) \,\,=\,\,\sum_{i\,\,=\,\,1}^n{P\left( B_i \right)}P\left( A|B_i \right) \,\, \left( 3 \right) P(A)=i=1∑n​P(Bi​)P(A∣Bi​)(3)

公式解读:若A事件的发生可由多项B事件引起,那么这时候A发生的概率等于B事件发生的概率乘以B事件发生条件下A发生概率之和。

举个栗子:假设A是今天感到快乐的概率,可以通过吃东西B1,或者是买了新衣服B2,或者是出了考试成绩B3,或者是有人和自己告白B4。那么,所有的B事件发生,需要一定的概率;在B事件发生得概率下,开心和不开心都存在可能,而我们只取B事件下开心的概率,这时候A要发生的概率,就是所有B事件发生概率*B事件下A发生得概率的和。

4.贝叶斯公式(逆概公式)
贝叶斯公式的初始形式:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P\left( B|A \right) \,\,=\,\,\frac{P\left( A|B \right) P\left( B \right)}{P\left( A \right)} P(B∣A)=P(A)P(A∣B)P(B)​
其中,P(A|B)称为似然(likelihood),P(B)称为先验(prior),P(A)称为事实,P(B|A)称为后验(posterior)。

后验P(B|A)求的是在A发生条件下,B发生得概率;似然P(A|B)求的是,若A发生则B作为影响因子出现的概率。

通过式(1)和式(2),可得到如下贝叶斯公式的变形:
P ( B j ∣ A ) = P ( B j ) ⋅ P ( A ∣ B j ) ∑ i = 1 n P ( B i ) P ( A ∣ B i ) ( 4 ) P\left( B_j|A \right) \,\,=\,\,P\left( B_j \right) \,\, ·\,\, \frac{P\left( A|B_j \right)}{\sum_{i\,\,=\,\,1}^n{P\left( B_i \right)}\,\,P\left( A|B_i \right)}\,\, \left( 4 \right) P(Bj​∣A)=P(Bj​)⋅∑i=1n​P(Bi​)P(A∣Bi​)P(A∣Bj​)​(4)
通过下图对上式进行理解:

整个圆划分为三个部分A、B、C,黄色部分为M集合,若此时求M发生A中的概率,则
P ( A ∣ M ) = P ( A ∩ M ) P ( M ) P\left( A|M \right) \,\,=\,\,\frac{P\left( A\cap M \right)}{P\left( M \right)}\,\, P(A∣M)=P(M)P(A∩M)​

= P ( M ∣ A ) P ( A ) P ( M ∣ A ) P A + P ( M ∣ B ) P ( B ) + P ( M ∣ C ) P ( C ) =\,\,\frac{P\left( M|A \right) P\left( A \right)}{P\left( M|A \right) PA+P\left( M|B \right) P\left( B \right) +P\left( M|C \right) P\left( C \right)} =P(M∣A)PA+P(M∣B)P(B)+P(M∣C)P(C)P(M∣A)P(A)​

通过例子可知,后验概率目的在于,已知M发生后,想知道由A引发M事件的概率,即为:知道结果后反推原因。

三、参数估计

1.极大似然估计(Maximum Likelihood Estimation)

1、MLE思想

频率派角度:认为参数是固有的,但是可能由于一些外界的噪声干扰,使数据看起来不是完全由参数决定。但只要在这个数据给定的情况下,找到一个概率最大的参数就可以了。即,模型已定,参数未定。
P ( x ∣ θ ) P\left( x|\theta \right) P(x∣θ)

2、MLE表示形式
当存在多个样本时,需要多个似然相乘,此时样本间独立同分布,即:
P ( D c ∣ θ c ) = ∏ x ∈ D c P ( x ∣ θ c ) P\left( D_c|\theta _c \right) \,\,=\,\,\prod_{x\in D_c}{P\left( x|\theta _c \right)} P(Dc​∣θc​)=x∈Dc​∏​P(x∣θc​)
对式子取对数得到:
L L ( θ c ) = ∑ x ∈ D c log ⁡ P ( x ∣ θ c ) LL\left( \theta _c \right) \,\,=\,\,\sum_{x\in D_c}{\log P\left( x|\theta _c \right)} LL(θc​)=x∈Dc​∑​logP(x∣θc​)
则可以得到极大似然估计的表达式:
M L E = a r g max ⁡ θ c P ( D c ∣ θ c ) = a r g max ⁡ θ c L L ( θ c ) MLE\,\,=\,\,arg\,\,\underset{\theta _c}{\max}P\left( D_c|\theta _c \right) \,\,=\,\,arg\,\,\underset{\theta _c}{\max}\,\,LL\left( \theta _c \right) MLE=argθc​max​P(Dc​∣θc​)=argθc​max​LL(θc​)试图在θ的所有取值中,找到一个使式子最大化的θ。

3、求解极值

假设参数θ满足正态分布,即 θ =(μ,∑),在一维情况下,θ =(μ,∑^2)
则有: M L E = a r g max ⁡ θ c ∑ i = 1 N P ( x i ∣ θ ) = a r g max ⁡ θ c ∑ i = 1 N 1 2 π σ e − ( x i − μ ) 2 2 σ 2 MLE\,\,=\,\,arg\,\,\underset{\theta _c}{\max}\,\,\sum_{i\,\,=\,\,1}^N{P\left( x_i|\theta \right) \,\,=\,\,arg\,\, \underset{\theta _c}{\max}\,\,\sum_{i\,\,=\,\,1}^N{\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left( x_i-\mu \right) ^2}{2\sigma ^2}}}} MLE=argθc​max​i=1∑N​P(xi​∣θ)=argθc​max​i=1∑N​2π ​σ1​e−2σ2(xi​−μ)2​

此时,问题转换成了求参数θ的MLE。

  • step 1:求μ的极值
    ∂ μ ∂ θ = ( − ∑ i = 1 N ⋅ 1 2 log ⁡ 2 π − ∑ i = 1 N log ⁡ σ − ∑ i = 1 N ( x i − μ ) 2 2 σ 2 ) μ ′ = ∑ i = 1 N 2 ( x i − μ ) 2 σ 2 \frac{\partial \mu}{\partial \theta}\,\,=\,\,\left( -\sum_{i\,\,=\,\,1}^N{\,\,·\,\,\frac{1}{2}\log 2\pi \,\,-\,\,\sum_{i\,\,=\,\,1}^N{\log \sigma}\,\,-\,\,\sum_{i\,\,=\,\,1}^N{\frac{\left( x_i-\mu \right) ^2}{2\sigma ^2}}} \right) _{\mu}^{\prime} \\ =\,\,\sum_{i=\,\,1}^N{\frac{2\left( x_i-\mu \right)}{2\sigma ^2}}\,\, ∂θ∂μ​=(−i=1∑N​⋅21​log2π−i=1∑N​logσ−i=1∑N​2σ2(xi​−μ)2​)μ′​=i=1∑N​2σ22(xi​−μ)​

令上式取0,得:
∑ i = 1 N x i = ∑ i = 1 N μ ⟹ μ M L E = 1 N ∑ i = 1 N x i \sum_{i\,\,=\,\,1}^N{x_i\,\,=\,\,\sum_{i\,\,=\,\,1}^N{\mu \,\, \Longrightarrow \,\, \mu _{MLE}\,\,=\,\,\frac{1}{N}\sum_{i\,\,=\,\,1}^N{x_i}}} i=1∑N​xi​=i=1∑N​μ⟹μMLE​=N1​i=1∑N​xi​

  • step 2:求δ的极值
    ∂ σ ∂ θ = ( − ∑ i = 1 N ⋅ 1 2 log ⁡ 2 π − ∑ i = 1 N log ⁡ σ − ∑ i = 1 N ( x i − μ ) 2 2 σ 2 ) σ ′ = − ∑ i = 1 N 1 σ + ∑ i = 1 N ( x i − μ ) 2 σ 3 \frac{\partial \sigma}{\partial \theta}\,\,=\,\,\left( -\sum_{i\,\,=\,\,1}^N{\,\,·\,\,\frac{1}{2}\log 2\pi \,\,-\,\,\sum_{i\,\,=\,\,1}^N{\log \sigma}\,\,-\,\,\sum_{i\,\,=\,\,1}^N{\frac{\left( x_i-\mu \right) ^2}{2\sigma ^2}}} \right) _{\sigma}^{\prime} \\ =\,\,-\sum_{i\,\,=\,\,1}^N{\frac{1}{\sigma}}\,\,+\,\,\sum_{i\,\,=\,\,1}^N{\frac{\left( x_i-\mu \right) ^2}{\sigma ^3}}\,\, ∂θ∂σ​=(−i=1∑N​⋅21​log2π−i=1∑N​logσ−i=1∑N​2σ2(xi​−μ)2​)σ′​=−i=1∑N​σ1​+i=1∑N​σ3(xi​−μ)2​

上式取0,得:
∑ i = 1 N 1 σ = ∑ i = 1 N ( x i − μ ) 2 σ 3 ⟹ σ M L E 2 = 1 N ∑ i = 1 N ( x i − μ M L E ) 2 \sum_{i\,\,=\,\,1}^N{\frac{1}{\sigma}\,\,=\,\,\sum_{i\,\,=\,\,1}^N{\frac{\left( x_i-\mu \right) ^2}{\sigma ^3}\,\, \Longrightarrow \,\, \sigma ^2_{MLE}\,\,=\,\,\frac{1}{N}\sum_{i\,\,=\,\,1}^N{\left( x_i-\mu _{MLE} \right) ^2}}}\,\, i=1∑N​σ1​=i=1∑N​σ3(xi​−μ)2​⟹σMLE2​=N1​i=1∑N​(xi​−μMLE​)2

4、MLE估计结果
判断在参数为正态分布的情况下,所得到的估计与实际是否一致。
E ( μ M L E ) = 1 N ∑ i = 1 N E ( x i ) = 1 N ∑ i = 1 N ⋅ μ = μ E\left( \mu _{MLE} \right) \,\,=\,\, \frac{1}{N}\sum_{i\,\,=\,\,1}^N{E\left( x_i \right)}\,\,=\,\,\frac{1}{N}\sum_{i\,\,=\,\,1}^N{\,\,·\mu}\,\,=\,\,\mu E(μMLE​)=N1​i=1∑N​E(xi​)=N1​i=1∑N​⋅μ=μ

对所得的均值求期望,得到的结果为,正态分布下的均值为样本均值,与正太分布下的均值相同,为无偏估计。


对所得的方差求期望,得到的结果为,正态分布下的方差为原方差的N-1/N倍,比原方差小,为有偏估计。

由上可知,在参数服从正态分布的条件下,若要方差为无偏估计,则需要除以这个偏差,可得:
σ 2 = N N − 1 σ M L E 2 = N N − 1 ⋅ 1 N ⋅ ∑ i = 1 N ( x i − μ M L E ) 2 = 1 N − 1 ⋅ ∑ i = 1 N ( x i − μ M L E ) 2 \sigma ^2\,\,=\,\,\frac{N}{N-1}\,\,\sigma _{MLE}^{2}\,\,=\,\,\frac{N}{N-1}\,\,·\,\,\frac{1}{N}\,\,·\,\,\sum_{i\,\,=\,\,1}^N{\left( x_i-\mu _{MLE} \right)}^2\,\,=\,\,\frac{1}{N-1}\,\,·\,\,\sum_{i\,\,=\,\,1}^N{\left( x_i-\mu _{MLE} \right)}^2 σ2=N−1N​σMLE2​=N−1N​⋅N1​⋅i=1∑N​(xi​−μMLE​)2=N−11​⋅i=1∑N​(xi​−μMLE​)2

5、Q & A
Q(1):为何参数要服从正态分布?其他分布呢?
Q(2):参数正态分布下的MLE为何方差有偏差?

A(1):可以使用其他分布,如伯努利分布、二项分布、均匀分布等,但在正态分布下有偏的程度最小。

A(2):此时,在求方差时,是以MLE下的均值μMLE代替均值,而此时的μMLE为样本均值,而期望是总体均值,在随机取值的情况下,取到的μMLE偏大的可能性大,所以此时所求的方差会比原方差小。大数定律下,样本均值可以等于总体均值。

2.贝叶斯估计

由上一节可得到基于MLE的参数估计方法,但是该方法本身依赖于所假设的分布形式是否符合潜在的真实分布。即MLE只考虑了单一模型,由一个模型产生一个已知数据的概率,没有考虑模型本身的概率。


1、贝叶斯派思想

贝叶斯派角度:认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。

2、贝叶斯估计
P ( θ ∣ D ) = P ( D ∣ θ ) ⋅ P ( θ ) P ( D ) P\left( \theta |D \right) \,\,=\,\,\frac{P\left( D|\theta \right) \,\,·\,\,P\left( \theta \right)}{P\left( D \right)} P(θ∣D)=P(D)P(D∣θ)⋅P(θ)​
上式表示的是贝叶斯下的参数估计。
它根据参数的先验分布p(θ)和一系列观察X,求出参数θ的后验分布p(θ|X),然后求出θ的期望值,作为其最终值。即:通过现实样本回馈来调整先验假设中参数的概率分布。
使用贝叶斯估计来进行参数估计有以下三种:

  • 使用后验分布的密度函数最大值点作为θ的点估计的最大后验估计(MAP)。
  • 使用后验分布的中位数作为θ的点估计的后验中位数估计。
  • 使用后验分布的均值作为θ的点估计的后验期望估计。

由于后验概率是一个条件分布,通常取后验概率的期望作为参数的估计值。
3、最大后验概率估计MAP推导过程

  • step 1:期望风险函数
    记对数似然损失函数如下: L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) L\left( Y,P\left( Y|X \right) \right) \,\,=\,\,-\log P\left( Y|X \right) L(Y,P(Y∣X))=−logP(Y∣X)
    理解:似然表示的是该参数作为影响因子导出结果的可能性,似然越大越接近真实值,那么损失函数就越小。

回顾一下求期望的方法:
假设X作为随机变量,Y=g(X),且E(Y)存在,则有
(1)变量为离散型:
E ( Y ) = E [ g ( X ) ] = ∑ i = 1 ∞ g ( x i ) p i E\left( Y \right) \,\,=\,\,E\left[ g\left( X \right) \right] \,\,=\,\,\sum_{i=\,\,1}^{\infty}{g\left( x_i \right) p_i} E(Y)=E[g(X)]=i=1∑∞​g(xi​)pi​

(2)变量为连续型:
E ( Y ) = E [ g ( X ) ] = ∫ − ∞ + ∞ g ( x ) f ( x ) d x E\left( Y \right) \,\,=\,\,E\left[ g\left( X \right) \right] \,\, =\int_{-\infty}^{+\infty}{g\left( x \right) f\left( x \right) dx} E(Y)=E[g(X)]=∫−∞+∞​g(x)f(x)dx

于是乎,可对上方似然损失函数进行期望求解,作为理想状态下对全局所有样本预测错误程度的均值。
R exp ⁡ ( f ) = E [ L ( Y , P ( Y ∣ X ) ) ] R_{\exp}\left( f \right) \,\,=\,\,E\left[ L\left( Y,P\left( Y|X \right) \right) \right] \,\, Rexp​(f)=E[L(Y,P(Y∣X))]

若此时,假设有N中可能的类别标记,Y={c1,c2,…,cN},将λij表示为将真实标记j误分类为i所产生的损失,且损失函数使用0-1损失函数表示分类结果,即:
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L\left( Y,f\left( X \right) \right) \,\,=\,\,\begin{cases} 1\text{,}Y\ne f\left( X \right)\\ 0\text{,}Y=f\left( X \right)\\ \end{cases} L(Y,f(X))={1,Y​=f(X)0,Y=f(X)​
得到最终的期望损失函数:
R exp ⁡ ( c i ∣ x ) = ∑ i = 1 N λ i j P ( c j ∣ x ) R_{\exp}\left( c_i|x \right) \,\,=\sum_{i=\,\,1}^N{\lambda _{ij}P\left( c_j|x \right)} Rexp​(ci​∣x)=i=1∑N​λij​P(cj​∣x)

P(ci|x)表示的是取值为x的情况下判为cj后所带来的损失。

  • step 2:转换成MAP问题
    若此时的Rexp作为误差损失,则令P(c|x)作为此时分类器所能达到的最佳性能。
    P ( c ∣ x ) = 1 − R ( c ∣ x ) P\left( c|x \right) \,\,=\,\,1-R\left( c|x \right) P(c∣x)=1−R(c∣x)
    则最小化期望风险转化为最大化后验概率:
    f ( x ) = a r g max ⁡ c ∈ Y P ( c ∣ x ) f\left( x \right) \,\,=\,\,arg\,\,\underset{c\in Y}{\max}\,\,P\left( c|x \right) f(x)=argc∈Ymax​P(c∣x)

参考链接

贝叶斯估计

概率密度函数的参数估计相关推荐

  1. 概率密度函数,参数估计,非参数估计

    1.概率密度函数 在分类器设计过程中(尤其是贝叶斯分类器),需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面.但是,在实际应用中,类条件概率密度通常是未知的.那 ...

  2. 贝叶斯估计(概率密度函数的估计的参数方法)

    接上一篇文章:最大似估计 贝叶斯估计:    参数估计   是最随机变量,根据观测数据对参数的分布进行估计,还要考虑先验分布 最大似然估计:  参数估计  是未知的,根据观测数据来估计  的值. 贝叶 ...

  3. python概率密度函数参数估计_Python与项目反应理论:基于EM和MCMC的参数估计算法...

    项目反应理论的开端 早在上世纪初,智力测验的发明者比奈(也可能是西蒙)便发现了一条神奇的曲线,这条曲线的x轴是智力水平,y轴是试题正确率,而这是项目反应理论(以下简称IRT)的最初雏形.上世界五六十年 ...

  4. 概率密度估计小结--参数估计与非参数估计

    通过观测世界得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,在概率上我们有一个一般性的操作步骤: 1. 观测样本的存在 2. 每个样本之间是独立的 3. 所有样本符合一个概率模型 ...

  5. python概率密度函数_Python中概率密度函数的快速卷积

    您可以使用快速傅立叶变换(FFT)有效地计算所有PDF的卷积:关键事实是,FFT of the convolution是单个概率密度函数FFT的乘积.因此,转换每个PDF,将转换后的PDF相乘,然后执 ...

  6. 【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )

    文章目录 I . 高斯混合模型方法 ( GMM ) II . 硬聚类 与 软聚类 III . GMM 聚类结果概率的作用 IV . 高斯混合分布 V . 概率密度函数 VI . 高斯分布 曲线 ( 仅 ...

  7. 图像处理:图像中噪声分布和概率密度函数的关系

    学习笔记:数字图像处理--图像中噪声分布和概率密度函数的关系 学习的时候,看到各种噪声,高斯.锐利.伽马.均匀等.每个分布有概率密度函数,而这个和噪声有啥具体的连接的关系,我不是很懂,稍微研究了一下, ...

  8. MATLAB概率密度函数估计

    MATLAB概率密度函数估计 2016-03-23 16:12:24 分类: C#/.net 函数:ksdensity 功能:根据给定的数据,估计概率密度分布 示例: 1. 正态分布 x = rand ...

  9. 概率密度函数与分布函数的几何含义

    概率密度函数与分布函数的几何含义 匿名 | 浏览 4603 次 推荐于2016-12-02 03:56:36 最佳答案 1,分布函数F(X)的一阶导数为概率密度函数:f(x) = dF(X)/dX 概 ...

最新文章

  1. 【ARM】arm串行通信
  2. java map缓存6_Java内存缓存-通过Map定制简单缓存
  3. 将 Sidecar 容器带入新的阶段
  4. cmake的使用--从零建立一个小cmake工程
  5. 软件工程能力漫谈:比编码更重要的,是项目管理能力
  6. 干货:数据仓库架构及基础知识
  7. Redhat系统下三种主要的软件包安装方法
  8. excel npoi 连接_Net操作Excel_NPOI(示例代码)
  9. landscape 1
  10. jsp数据传入html页面_曾经风光无限的 JSP,为什么现在很少有人使用了?
  11. 6. OD-去除收费软件次数限制,去除退出软件时弹出的广告(比如可执行5次)
  12. java default类型_java – 带有限定符@Default的ZZZZ类型的不满意依赖项
  13. java home centos_Centos7配置JAVA_HOME
  14. c++拷贝构造函数(深拷贝和浅拷贝)
  15. 测试面试题 用例设计题目回答思路
  16. django 使用mixins时报HTTP方法patch method not allow
  17. 用Excel制作不一样的分割图表
  18. 入侵防御系统 IPS
  19. cad图片怎么转换成pdf格式
  20. 简单介绍Fastboot

热门文章

  1. Lumerical Python API学习(七)——可视化几何
  2. oracle spatial 论文,oraclespatial在实际应用中的六大功能体现
  3. XLINX项目之ZYNQ7000系列之PS端串口打印
  4. 中等专业学校校园广播系统解决方案,职业中专校园IP网络广播系统建设设计指南,校园IP网络广播在职业院校的应用分析
  5. .NET动态生成PDF文件(利用iTextSharp)
  6. Go 语言重要知识点:字符串、UTF-8 编码、rune
  7. word排版小技巧总结
  8. 四足步行机器人的结构设计及仿真
  9. uni-popup简单使用
  10. 参加陈老师《协同》新书分享会及自我感悟