文章目录

  • 概率与统计
  • 频率学派和贝叶斯派
  • 极大似然估计(Maximum Likelihood Estimation, MLE)
  • 最大后验概率估计(Maximum A Posteriori Estimation, MAP)
  • 总结
  • REF

概率与统计

对于一组数据,我们常用某种模型对其进行描述,例如常见的正态分布模型,二项分布模型、以及机器学习中的线性回归模型,甚至是深度学习中的深度神经网络模型。其中每个模型的形式一旦定义,则其最终就由模型中的参数决定了。

根据参数估计的性质不同,可以将参数估计的方法分为点估计区间估计
点估计是通过样本统计量来推断未知总体的参数,如调查一个地区小学生的体重,则随机抽取的100名小学生计算得到的平均体重用来表示总体的平均体重,那么这就是点估计。点估计的常用方法有两种:分别是矩估计最大似然估计
由于总体的参数是一个常数(期望值),而通过样本计算得到的样本统计量(如平均值、方差等)是随机变量,通过这样一个随机变量来估计常数时,必然会有误差,而区间估计就是通过样本统计量的抽样分布特征,估计出总体参数的一个区间,而不是一个数值。通常区间估计会给出一个总体参数的区间,以及落在这个区间的置信度。如估计一个地区总体小学生的平均体重在25kg~35kg之间。

由于在接触概率论和统计学时,是在本科阶段通过《概率论与数理统计》这门学科,其将这两门学科合并到了一本书中,所以就导致了对这两种概念的混淆。简单来说,概率研究的是已知模型和参数,来推数据;统计研究的是已知数据,推模型和参数。以最俗的硬币为例,我们已知每次抛一枚硬币的正反面是服从二项分布的,即X~B(N, p)(模型),并且当硬币正常时p=0.5(参数),以此来推断扔100次硬币的正反面(数据),这就是概率研究的问题。如果我们不知道这枚硬币是否正常,但是有100次扔硬币的记录(数据),通过对数据进行观察,来推断扔硬币的模型以及参数,这就是统计研究的问题。而极大似然估计、最大后验估计以及贝叶斯估计都是统计的范畴,也就是通过已知的数据来估计数据分布的模型以及参数。

频率学派和贝叶斯派

另外在介绍极大似然估计之前,我们再来了解一下极大似然估计和贝叶斯估计的背景知识。根据对概率的不同看法,以前的研究学者们被分为两种派别,一种是频率学派,另一种是贝叶斯派

频率学派认为,我们需要推断的参数是客观存在的,虽然未知,但却有固定值,而样本是随机,其着眼点是针对于样本的分布。贝叶斯派认为,参数是随机的,符合一定的概率分布,而样本则是固定的,其着眼点是参数的分布。需要注意的是,随着数据量的增加,参数分布会越来越向数据靠拢,先验的影响力会越来越小如果先验是均匀分布的(uniform distribution),则贝叶斯方法等价于频率方法。

因此,极大似然估计是频率学派使用的参数估计方法,而最大后验概率估计则是贝叶斯学派使用的参数估计方法

极大似然估计(Maximum Likelihood Estimation, MLE)

首先,前面说了极大似然估计是统计范畴的问题解决方法,其是通过已知数据来估计数据的模型和参数,接着再看极大似然估计的名字,似然表示概率、可能性,因此,极大似然估计的作用则是通过已知的样本数据,来推断最大可能导致这些样本数据出现的模型参数值
在介绍极大似然估计之前,需要先引入似然函数(likelihood function)的概念。以博客详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解的介绍为例:
对于函数f(x∣θ)f(x|\theta)f(x∣θ)来说,如果xxx表示数据,θ\thetaθ表示模型的参数。

  • 如果θ\thetaθ是已知的,xxx是变量,那么这个函数就叫做概率函数(probability function),它描述对于不同的样本xxx,其出现的概率是多少。
  • 如果是xxx已知的,θ\thetaθ是变量,那么这个函数就叫做似然函数,它描述对于不同的模型参数,出现样本xxx的概率是多少。

因此,最大似然估计呢,其实就是求一组参数能使得似然函数最大,也就是:θ^MLE=argmaxθf(X;θ)\hat{\theta}_{MLE}=\mathop{argmax}\limits_{\theta}f(X;\theta)θ^MLE​=θargmax​f(X;θ)上面的式子进一步进行推导,变转换为针对每个样本的形式,再对其进行求对数,即是:θ^MLE=argmaxθf(X;θ)=argmaxθf(x1;θ)f(x2;θ)...f(xn;θ)=argmaxθlog∏i=1nf(xi∣θ)=argmaxθ∑i=1nlogf(xi∣θ)\hat{\theta}_{MLE}=\mathop{argmax}\limits_{\theta}f(X;\theta)\\=\mathop{argmax}\limits_{\theta}f(x_{1};\theta)f(x_{2};\theta)...f(x_{n};\theta)\\=\mathop{argmax}\limits_{\theta}log\prod_{i=1}^{n}f(x_{i}|\theta)\\=\mathop{argmax}\limits_{\theta}\sum_{i=1}^{n}logf(x_{i}|\theta)θ^MLE​=θargmax​f(X;θ)=θargmax​f(x1​;θ)f(x2​;θ)...f(xn​;θ)=θargmax​logi=1∏n​f(xi​∣θ)=θargmax​i=1∑n​logf(xi​∣θ)

下面以最大似然估计来得到逻辑回归(Logistic Regression)模型的最优参数为例进行介绍。逻辑回归常用与解决二分类问题,其常用sigmoid函数的输出表示样本分类结果为正类的概率,即下面的函数f(x)=11+e−θxf(x) = \frac{1}{1+e^{-\theta x}}f(x)=1+e−θx1​所以这里我们想通过最大似然估计来得到一组参数,使得让其对于样本预测正确的概率最大。另外,极大似然估计中采样需满足一个重要的假设,就是采集的样本数据都是独立同分布的
根据逻辑回归的内容我们可以知道,对于样本数据xix_{i}xi​,其标签是yiy_{i}yi​为0或1。那么xix_{i}xi​的预测正确的概率就是Ptrue(xi)=f(xi)yi∗(1−f(xi))1−yiP_{true}(x_{i}) = f(x_{i})^{y_{i}}*(1-f(x_{i}))^{1-y_{i}}Ptrue​(xi​)=f(xi​)yi​∗(1−f(xi​))1−yi​由于样本数据是独立同分布的,那么我们每一次的预测都是独立事件,所以可以根据概率的连乘法则,得到所有样本都分类正确的概率是:Ptrue(x1,x2,...,xn)=Ptrue(x1)∗Ptrue(x2)∗...∗Ptrue(xn)P_{true}(x_{1},x_{2},...,x_{n})=P_{true}(x_{1})*P_{true}(x_{2})*...*P_{true}(x_{n})Ptrue​(x1​,x2​,...,xn​)=Ptrue​(x1​)∗Ptrue​(x2​)∗...∗Ptrue​(xn​)则将上面的式子用连乘符进行表示就是L(θ)=∏i=1nf(xi)yi∗(1−f(xi))1−yiL(\theta)=\prod_{i=1}^{n}f(x_{i})^{y_{i}}*(1-f(x_{i}))^{1-y_{i}}L(θ)=i=1∏n​f(xi​)yi​∗(1−f(xi​))1−yi​由于连乘的形式不利于进一步进行计算,所以我们通常对其进行取对数,使其变为连加的形式,即:lnL(θ)=∑i=1n(yi∗lnf(xi)+(1−yi)∗ln(1−f(xi)))lnL(\theta)=\sum_{i=1}^{n}(y_{i}*lnf(x_{i})+(1-y_{i})*ln(1-f(x_{i})))lnL(θ)=i=1∑n​(yi​∗lnf(xi​)+(1−yi​)∗ln(1−f(xi​)))因此,我们的目的就是得到一组参数使得上面的函数结果越大越好,而我们在优化一个问题时,习惯于将其转换为最小化的问题,所以我们在前面加入一个负号,即:J(θ)=∑i=1n−(yi∗lnf(xi)−(1−yi)∗ln(1−f(xi)))J(\theta)=\sum_{i=1}^{n}-(y_{i}*lnf(x_{i})-(1-y_{i})*ln(1-f(x_{i})))J(θ)=i=1∑n​−(yi​∗lnf(xi​)−(1−yi​)∗ln(1−f(xi​)))这其实就是逻辑回归或者其他二分类问题常用的损失函数,即交叉熵损失函数(corss entropy loss function)。求解上面的交叉熵损失函数就可以通过常用的梯度下降等算法进行求解了。通过这个例子,可以加深我们对于极大似然估计求解模型参数的理解。

最大后验概率估计(Maximum A Posteriori Estimation, MAP)

首先,我们知道最大后验概率估计同极大似然估计的出发点是一样的,都是为了通过已知数据来估计数据的模型和参数。但是不同于极大似然估计的地方在于,最大后验概率估计中,它在进行参数估计时引入了参数的先验概率,先验概率指的是根据以往经验分析得到的概率,例如我们在探究抛硬币的例子中,估计硬币是正面的概率,而根据生活经验知道一枚硬币的正面的概率是0.5。

因此,极大似然估计中,它认为所有参数出现的可能是一样的,而最大后验概率估计中,引入了先验知识,也就是通过这个先验知识可以知道有些值更有可能,而有些值更加没有可能。

最大后验概率估计是贝叶斯学派的方法,因此,它的基础是贝叶斯公式,即:p(θ∣X)=p(X∣θ)p(θ)p(X)p(\theta|X) = \frac{p(X|\theta)p(\theta)}{p(X)}p(θ∣X)=p(X)p(X∣θ)p(θ)​其中p(X∣θ)p(X|\theta)p(X∣θ)就是前面介绍的似然函数,p(θ)p(\theta)p(θ)是参数的先验概率,p(θ∣X)p(\theta|X)p(θ∣X)就是后验概率。所以,最大后验概率估计的目的就是求得一组参数使得后验概率p(θ∣X)p(\theta|X)p(θ∣X)最大。即:θ^MAP=argmaxθp(θ∣X)\hat{\theta}_{MAP} = \mathop{argmax}\limits_{\theta}p(\theta|X)θ^MAP​=θargmax​p(θ∣X)根据贝叶斯公式,以及丢掉与θ\thetaθ无关的项,上面的式子就可以写成θ^MAP=argmaxθp(θ∣X)=argmaxθp(X∣θ)p(θ)p(X)=argmaxθp(X∣θ)p(θ)\hat{\theta}_{MAP} = \mathop{argmax}\limits_{\theta}p(\theta|X)\\=\mathop{argmax}\limits_{\theta}\frac{p(X|\theta)p(\theta)}{p(X)}\\=\mathop{argmax}\limits_{\theta}p(X|\theta)p(\theta)θ^MAP​=θargmax​p(θ∣X)=θargmax​p(X)p(X∣θ)p(θ)​=θargmax​p(X∣θ)p(θ)然后对其求对数,并转换为针对每个样本的形式argmaxθp(X∣θ)p(θ)=argmaxθ∏i=1nln(p(xi∣θ)p(θ))=argmaxθ∑i=1n(lnp(xi∣θ)+lnp(θ))\mathop{argmax}\limits_{\theta}p(X|\theta)p(\theta) = \mathop{argmax}\limits_{\theta}\prod_{i=1}^{n} ln(p(x_{i}|\theta)p(\theta))\\=\mathop{argmax}\limits_{\theta}\sum_{i=1}^{n}(lnp(x_{i}|\theta)+lnp(\theta))θargmax​p(X∣θ)p(θ)=θargmax​i=1∏n​ln(p(xi​∣θ)p(θ))=θargmax​i=1∑n​(lnp(xi​∣θ)+lnp(θ))对比前面极大似然的推导结果,最大后验概率估计不同处在于多了先验概率lnp(θ)lnp(\theta)lnp(θ)这一项。其中,这个先验概率可以是正态分布也可以是β\betaβ分布等。其中,当先验概率是均匀分布时,两种估计方法是一样的效果。

总结

所以一句话来总结MLE和MAP之间的关系就是,极大似然估计的目的是求得一组参数使得似然函数最大,最大后验概率估计的目的就是求得一组参数使得后验概率最大。
另外,我们在处理机器学习任务的时候,通过需要将其转换为一个优化问题,而这个优化问题都需要一个目标函数,MLE和MAP都是用于推导优化函数的基本方法,所以对这两种方法进行学习和梳理是很有必要的。

REF

最大似然估计,最大后验估计,贝叶斯估计联系与区别
极大似然估计与最大后验概率估计 - 张小磊的文章 - 知乎
聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计 - 夏飞的文章 - 知乎
逻辑回归

【机器学习】极大似然估计、最大后验估计的对比与联系相关推荐

  1. 机器学习-极大似然估计

    通俗理解: 就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!(模型已定,参数未知) 注意: 极大似然估计中所有的采样都是独立的. 最大似然估计求解步骤: 例题: ...

  2. 一文看懂 “极大似然估计” 与 “最大后验估计” —— 极大似然估计篇

    参考: 唐宇迪<人工智能数学基础>第8章 Richard O. Duda <模式分类>第三章 白板机器学习 P2 - 频率派 vs 贝叶斯派 频率学派还是贝叶斯学派?聊一聊机器 ...

  3. 透彻理解机器学习中极大似然估计MLE的原理(附3D可视化代码)

    文章目录 相关资料 一.什么是概率,什么是似然 二.极大似然估计 Maximum Likelihood Estimation (MLE) 的含义 2.1 机器学习中的极大化似然函数 2.2 极大似然估 ...

  4. 极大似然估计,最大后验估计的区别

    最近机器学习课程推出了比较细致的作业,让我得已有机会学习的机会 1,通过学习理解,极大似然估计是在"模型已知,参数未知"的情况下,利用采样得到的数据(即类似对现实中的一些数据进行人 ...

  5. 机器学习笔记1.矩估计、极大似然估计。

    1.矩估计 1.1矩估计思想: 矩估计是基于一种简单的"替换"思想,即用样本矩估计总体矩 1.2矩估计理论: 矩估计的理论依据就是基于大数定律的,大数定律语言化表述为:当总体的k阶 ...

  6. 机器学习笔记(VII)线性模型(III)对数几率回归和极大似然估计

    背景知识 常见回归模型 线性回归(linear regression): y=wTx+b(1) y=\mathbf{w}^T\mathbf{x}+b\tag{1} 但是有时候预测值会逼近 y \mat ...

  7. 伽马分布极大似然估计_一文通俗解释极大似然估计

    我们都知道机器学习的大致流程是通过建立一个合理的模型学习现有数据集,然后通过该模型去完成特定的任务.其中每个模型都包含自身的一组特定参数,而这组参数决定着模型的本身.但这里存在一个很关键的一个问题,就 ...

  8. 千字讲解极大似然估计

    上周有读者私信我说,面试被问到了极大似然估计没回答出来,虽然网上有很多讲解,但是不大能看得懂,而且有一些疑问没有解释清楚.经过一周的撰写,今天困哥就专门整理了一篇数千字的文章,来详细介绍一下极大似然估 ...

  9. 干货 | 一文搞懂极大似然估计

    极大似然估计,通俗理解来说,就是在假定整体模型分布已知,利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值! 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数 ...

  10. LR为什么用极大似然估计,损失函数为什么是log损失函数(交叉熵)

    首先,逻辑回归是一个概率模型,不管x取什么值,最后模型的输出也是固定在(0,1)之间,这样就可以代表x取某个值时y是1的概率 这里边的参数就是θ,我们估计参数的时候常用的就是极大似然估计,为什么呢?可 ...

最新文章

  1. JSP第二次作业_6小题
  2. 第四周作业 wcPro
  3. HashMap 散列初体验
  4. Tensorflow 入门教程
  5. 知乎高赞:这个开挂神器简直了!
  6. DataGrid使用心得(附大量代码)
  7. 在C#中对列表/数组进行碎片整理——关闭所有空白
  8. GridView position = 0重复加载的问题
  9. 客户端持久化解决方案: Web SQL
  10. phoenix表操作
  11. javascript高逼格代码实现数组去重,JSON深度拷贝,匿名函数自执行,数字取整等...
  12. [RK3399][Android7.1] 移植笔记 --- GT9XX系列Touch添加
  13. 如何快速开通微信商户现金红包
  14. fadeIn()方法和fadeOut()方法
  15. javascript英语单词音节拆分_英语单词音节的划分法
  16. Allegro PCB设计中Etch层走线阻焊开窗的一种方法
  17. redmine 的安装步骤
  18. linux堆内存管理
  19. 什么是扩散模型(Diffusion Models),为什么它们是图像生成的一大进步?
  20. 网贷平台老板跑路,程序员这波操作很溜

热门文章

  1. java adobe ocr_Acrobat自带的OCR识别文本功能提取图片文字
  2. LTspice使用第三方spice模型进行仿真
  3. windows cmd打开新窗口关闭窗口
  4. echarts自定义饼图
  5. java计算机毕业设计基于web旅游网站的设计与实现源代码+数据库+系统+lw文档
  6. 中国象棋AI在线对弈游戏源码
  7. 从不确定性中寻找“确定性”——一位交管从业者对行业发展趋势的思考
  8. vs2015 :“64位调试操作花费的时间比预期要长“,无法运行调试解决办法
  9. 《ArcGIS10.2》 Part1 在地图上标注地名或坐标
  10. 使用GCC和Makefile编译c文件