上周有读者私信我说,面试被问到了极大似然估计没回答出来,虽然网上有很多讲解,但是不大能看得懂,而且有一些疑问没有解释清楚。经过一周的撰写,今天困哥就专门整理了一篇数千字的文章,来详细介绍一下极大似然估计,顺带介绍一下极大后验估计和贝叶斯估计。

在很多的机器学习问题种,输入x是一个向量,输出p(x)为某一个时间的概率(比如,x属于某个类别的概率)

一观测的数据集D,其中x1,x2,x3……独立同分布。我们将输入x所满足的概率分布建模为p(D,θ),则对新输入的预测为p(x|D,θ),其中θ是一个向量,表示待去顶的所有模型参数。那么如何求解或者估计出θ的值呢?

1. 频率学派VS贝叶斯学派

对于θ的本质不同认识,可以分为两个大派别。

(1)频率学派:认为θ是确定的,有一个真实值,目标是找出或者逼近这个真实值。

(2)贝叶斯学派:认为θ是不确定的,不存在唯一的真实值,而是服从某一个概率分布。

基于不同学派对参数的不同认识,产生了不同的参数估计方法。下面将讨论三种参数估计方法:

(1)极大似然估计:MLE(Maximum Likelihood Estimation)【频率学派】

(2)极大后验估计:MAP(Maximum A Posterior)【贝叶斯学派】

(3)贝叶斯估计:BE(Bayesian Estimation)【贝叶斯学派】

其中,涉及到先验、似然、后验、贝叶斯公式的知识。

先验:p(θ),指在见到数据集D之前,对参数θ的认识

似然:p(D|θ),在给定参数θ下,数据集D被观测到的概率

后验:p(θ|D),在见到数据集D之后,对参数θ的重新认识

贝叶斯公式:

2. 举例

以抛硬币为例,假设我们有一枚硬币, 现在要估计其正面朝上的概率 。为了对 进行估计, 我们进行了10次实验 (独立同分布, i.i.d.) , 这组实验记为 , 其 中正面朝上的次数为6次,反面朝上的次数为4次,结果为 。

3. 极大似然估计

MLE的逻辑是:真实的参数θ是唯一的,既然数据集D被观测到了,那么真实参数θ对应的概率分布一定是可以使D出现的概率最大。即

最后一行的目标函数,是常用的形式。对似然求log是防止数值下溢,因为似然是各个样本点处概率乘积的形式,而概率都在0到1之间,似然通常会超出计算机的精度范围。另一方面,log是一个凸函数,保证了极大化似然和极大化对数似然的等价。

针对抛硬币的问题,似然函数可写作:

402 Payment Required

根据最大似然估计, 使 取得最大值的 即为估计结果, 令 可得 。

由于总体的似然就是每个样本似然的乘积,为了求解方便,我们通常会将似然函数转成对数似然函数,然后再求解。可以转成对数似然函数的主要原因是对数函数并不影响函数的凹凸性。因此上式可变为:

令可得

补充:正态分布的最大似然估计:

假设样本服从正态分布 , 则其似然函数为

对其取对数得:

402 Payment Required

分别对 求偏导,并令偏导数为0, 得:

402 Payment Required

解得:

402 Payment Required

就是正态分布中 的最大似然估计。

最大似然估计的求解步骤:

  • 确定似然函数

  • 将似然函数转换为对数似然函数

  • 求对数似然函数的最大值(求导,解似然方程)

3. 极大后验估计

MAP的逻辑是:最优的参数应该是让后验概率最大。即

402 Payment Required

MAP和MLE的区别是,两者优化的目标函数只是相差了一个先验。更有趣的是,「如果这个先验服从高斯分布的话,MAP将等同于MLE+L2正则」

推导:假设参数G服从高斯分布,即:

则有:

其中,是跟无关的常数。

我们发现在极大后验估计的推导中,忽略了分母,而贝叶斯估计则考虑了这个项。

最大后验概率估计,英文为Maximum A Posteriori Estimation, 简写为MAP。回到抛硬币的问 题, 最大似然估计认为使似然函数 最大的参数 即为最好的 , 此时最大似然估计是 将 看作固定的值,只是其值未知; 最大后验概率分布认为 是一个随机变量,即 具有某种 概率分布,称为先验分布, 求解时除了要考虑似然函数 之外,还要考虑 的先验分布 , 因此其认为使 取最大值的 就是最好的 此时要最大化的函数变为 , 由于 的先验分布 是固定的 (可通过分析数据获得,其实我们也不 关心 的分布, 我们关心的是 ), 因此最大化函数可变为 , 根据贝叶斯法则,要最大化的函数

402 Payment Required

, 因此要最大化的函数是 , 而 是 的后验概率。最大后验概率估计可以看作是正则化的最大似然估计,当然机器学习或深度学习中的正则项通常是加法,而在最大后验概率估计中采用的是乘法, 是正则 项。在最大似然估计中,由于认为 是固定的,因此 。

最大后验概率估计的公式表示:

在抛硬币的例子中, 通常认为 的可能性最大, 因此我们用均值为 , 方差为 的 高斯分布来描述 的先验分布,当然也可以使用其它的分布来描述 的先验分布。 的先验分 布为:

在最大似然估计中, 已知似然函数为 , 因此:

402 Payment Required

转换为对数函数:

402 Payment Required

令 , 可得:

由于 , 解得:

如果我们用均值为 , 方差为 的高斯分布来描述 的先验分布, 则 。由此可见,在最大后验概率估计中, 的估计值与 的先验分布有很大的关系。这也说明一个合理的 先验概率假设是非常重要的。如果先验分布假设错误, 则会导致估计的参数值偏离实际的参数值。

如果用 的Beta分布来描述 的先验分布,则

令 求解可得:

最大后验概率估计的求解步骤:

  • 确定参数的先验分布以及似然函数

  • 确定参数的后验分布函数

  • 将后验分布函数转换为对数函数

  • 求对数函数的最大值(求导,解方程)

4. 贝叶斯估计

贝叶斯估计是最大后验估计的进一步扩展,贝叶斯估计同样假定 是一个随机变量,但贝叶斯估计并不是直接估计出 的某个特定值,而是估计 的分布,这是贝叶斯估计与最大后验概率估计不同的地方。在贝叶斯估计中,先验分布 是不可忽略的。回到抛硬币的例子中,在已知 的情况下,描述 的分布即描述 是一种后验分布。如果后验分布 的范围较窄,则估计值的准确度相对较高,反之,如果后验分布的范围较广,则估计值的准确度就较低。

贝叶斯公式:

402 Payment Required

在连续型随机变量中,由于 , 因此贝叶斯公式变为

402 Payment Required

从上面的公式中可以看出,贝叶斯估计的求解非常复杂,因此选择合适的先验分布就非常重 要。一般来说,计算积分 是不可能的。对于这个抛硬币的例子来说, 如 果使用共轭先验分布,就可以更好的解决这个问题。二项分布参数的共轩先验是Beta分布,由于 的似然函数服从二项分布, 因此在贝叶斯估计中,假设 的先验分布服从 , Beta分布的概率密度公式为:

402 Payment Required

因此,贝叶斯公式可写作:

402 Payment Required

从上面的公式可以看出, 。其中 函数,也称 函数,是一个标准化常量, 用来使整个概率的积分为1。Beta 就是贝叶斯 估计的结果。根据Beta分布 的数学期望公式 可得:

注:二项分布参数的共轭先验是Beta分布, 多项式分布参数的共车先验是Dirichlet分布, 指数 分布参数的共车先验是Gamma分布,高斯分布均值的共功先验是另一个高斯分布, 泊松分布的 共车先验是Gamma分布。

贝叶斯估计要解决的不是如何估计参数, 而是用来估计新测量数据出现的概率, 对于新出现的 数据 :

402 Payment Required

贝叶斯估计的求解步骤:

  • 确定参数的似然函数

  • 确定参数的先验分布,应是后验分布的共轭先验

  • 确定参数的后验分布函数

  • 根据贝叶斯公式求解参数的后验分布

5. 总结

从最大似然估计、最大后验概率估计到贝叶斯估计,从下表可以看出 的估计值 是逐渐接近 的。从公式的变化可以看出,使用的信息是逐渐增多的。最大似然估计、最大后验概率估 计中都是假设 未知,但是确定的值,都将使函数取得最大值的 作为估计值,区别在于最大化的函数不同,最大后验概率估计使用了 的先验概率。而在贝叶斯估计中,假设参数 是未 知的随机变量,不是确定值,求解的是参数 在样本 上的后验分布。

三者之间的联系:

(1)MAP + 高斯先验  = MLE + L2正则

(2)当样本量越来越大,先验所起的作用也越来越小,最后MAP会趋近于MLE。

(3)当先验为均匀分布时,p(θ)为常量,此时MAP与MLE等价。可以理解为这种情况下先验并不能提供任何有价值的信息。

6. 极大似然估计与交叉熵

在分类任务中,我们以常见的二分类任务为例,标签服从「伯努利分布」(推广到多分类单标签问题, 标签服从多项式分布)。伯努利分布是一个离散型概率分布(分类问题为离散型概率问题)。假设 我们的数据集由 个样本构成 , 其中, 构成,极大 似然的目标为 。对于每个样本来说,由于是二分类问题, 假设预测 为正样本的概率 ,负样本的概率为 , 因此,对于 单个样本 , 概率质量函数为:

由于样本之间独立同分布(机器学习的基本假设),因此,极大似然函数 的目标变为

将函数取对数,函数的极值点不会改变,因此:

402 Payment Required

这便是我们熟知的二元交叉熵损失函数。

7. 极大似然估计与MSE

在回归问题中, 我们以线性拟合任务 为例,我们希望拟合得到的预测值 和目标 变量 越相似越好。现在我们假设: 与 之所以存在差别,是因为观察值 本身 存在的随机 性, 不论这种随机性产生的原因是什么,我们假设这一随机性符合一个以 0 为均值,以 为 方差的「高斯分布」。引入一个随机变量 来表示这一随机性, 则有:

402 Payment Required

给定一个输入变量 , 可以基于上述线性回归模型计算对应的目标观察值 的生成概率:

因此, 对于给定的由 个样本构成 的数据集, 其中 ,假设样本之间独立同分布 假设同2) , 该模型生成这一数据集的最大似然估计为:

同样地, 为方便计算,取对数似然函数作为目标函数, 即:

其中前两项与 无关,在第三项中:

402 Payment Required

因此, 对 的最大似然估计等价于对 的最小化, 变为我们通常意义上的均方误差MSE

8. 经验风险最小化

MLE是经验风险最小化的例子。「当模型是条件概率分布,损失函数是对数损失函数」时,经验风险最小化就等价于极大似然估计。在这里举个逻辑回归(LR)的例子。

对于二分类的逻辑回归来说,我们试图把所有数据正确分类,要么0,要么1。 通过累乘每个数据样例来模拟模型产生数据的过程,并且最大化 。 我们需要通过取对数来实现概率之积转为概率之和 。

我们可以根据数据标签的0、1特性来把上式改为

402 Payment Required

这样,我们通过极大似然来推导出了逻辑回归的损失函数,同时极大似然是经验风险最小化的一 个特例。

9. 结构风险最小化

MAP是结构风险最小化的例子。「当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时」,结构风险最小化就等价于最大后验概率估计。

推荐阅读:我的2022届互联网校招分享我的2021总结浅谈算法岗和开发岗的区别互联网校招研发薪资汇总
2022届互联网求职现状,金9银10快变成铜9铁10!!公众号:AI蜗牛车保持谦逊、保持自律、保持进步发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)
发送【1222】获取一份不错的leetcode刷题笔记发送【AI四大名著】获取四本经典AI电子书

千字讲解极大似然估计相关推荐

  1. 什么是极大似然估计?

    ● 每周一言 坚持一定是有毅力,但有毅力不一定能坚持. 导语 统计学中,我们经常能听到极大似然估计,或者最大似然估计,它是一种参数估计方法.在机器学习中,逻辑回归就是基于极大似然估计来计算的损失函数. ...

  2. 逻辑回归_极大似然估计

    二.逻辑回归原理   逻辑回归又叫对数几率回归,是一种广义的线性回归分析模型.虽然名字里有回归,但其实是分类模型,常用于二分类. 1.什么是逻辑回归   由于逻辑回归的原理是用逻辑函数把线性回归的结果 ...

  3. 一文看懂 “极大似然估计” 与 “最大后验估计” —— 极大似然估计篇

    参考: 唐宇迪<人工智能数学基础>第8章 Richard O. Duda <模式分类>第三章 白板机器学习 P2 - 频率派 vs 贝叶斯派 频率学派还是贝叶斯学派?聊一聊机器 ...

  4. 最小二乘与极大似然估计

    两者思想的差异 最小二乘估计与极大似然估计都是用来样本值来估计真实值的,之所以需要估计,是因为用数学量化真实世界事物关系时总是存在误差. 我们尽管痛苦的承认了有不能解释的误差,但是我们依然想尽可能的让 ...

  5. 基于接收信号强度(RSS)的室内定位/无线传感器网络定位——极大似然估计ML/最小二乘估计WLS

    基于接收信号强度(RSS)的室内定位/无线传感器网络定位--极大似然估计ML/最小二乘估计WLS 原创不易,路过的各位大佬请点个赞 针对AOA,TOA,TDOA,RSS等室内定位.导航的探讨.技术支持 ...

  6. 基于到达时间(TOA)的室内定位(/无线传感器网络定位)——极大似然估计ML

    基于到达时间(TOA)的室内定位(/无线传感器网络定位)--极大似然估计ML 原创不易,路过的各位大佬请点个赞 针对AOA,TOA,TDOA,RSS等室内定位.导航的探讨.技术支持.==代码(有偿)= ...

  7. 干货 | 一文搞懂极大似然估计

    极大似然估计,通俗理解来说,就是在假定整体模型分布已知,利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值! 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数 ...

  8. 零基础掌握极大似然估计

    零基础掌握极大似然估计 https://mp.weixin.qq.com/s/v98qGCz_qN_73hnYKrCQFw 1极大似然估计 极大似然估计,通俗理解来说,就是在假定整体模型分布已知,利用 ...

  9. 极大似然估计_计量经济学 | 极大似然估计

    写在前面:本文写作于被新冠病毒 (COVID-19) 笼罩下的英国.前段时间本人的恩师.苏格兰老爷爷.英国伯明翰大学Emeritus讲席教授Peter Sinclair确诊新冠病毒,实乃不幸.在此祝P ...

最新文章

  1. 全线衰退:PC产业一枝孤秀
  2. Nginx 限制百度等爬虫连接
  3. python 图像二值化
  4. class react 获取_「前端进阶」React系列九 - 受控非受控组件
  5. 填报true\false和复选框应用及导出打印显示复
  6. sas不能安装独立的java_SAS安装问题解决办法
  7. CAD系统与PDM系统集成技术研究
  8. 国际象棋渲染测试软件,多线程运算效能Fritz国际象棋测试_CPUCPU评测-中关村在线...
  9. TL431-2.5v基准电压芯片几种基本用法
  10. R语言二进制grd文件读取合并导出
  11. wow Time Blessing Replacer
  12. 当路町-网络下载应用系列之三-认识磁力链接Magnet URL
  13. Cesium实战记录(八)三维风场+风速热力图(水平+垂直)
  14. 你必须知道的家庭急救常识
  15. Altium Designer整理和小插曲
  16. 如何搭建nginx服务器?
  17. MySQL 自增序号
  18. 利用python进行数据分析_第二章_案例2_movielens_电影评分分析
  19. 台阶的意思_正屋大门前几步台阶好 二步台阶进屋的含义 三步台阶进屋的含义...
  20. 5G网络远未成熟,缓建5G运营4G网络才是赚钱之道,5G为何沦落如斯

热门文章

  1. mac安装charls工具
  2. 赛联区块链教育为潍柴动力提供区块链技术培训
  3. 运营规范安全教程:广子平台分析及建议
  4. comp9311第三课
  5. Android recovery 流程分析
  6. 正态分布是离散分布还是连续分布_高中就开始学的正态分布,原来如此重要
  7. 《网络安全0-100》安全策略制定
  8. 阿里云数仓MaxCompute存取性能调研报告,内含纯手搓SQL生成器
  9. 从事IC工作,IC公司招人都看重哪些方面?
  10. python抢券代码_抢券抢不到生气了,准备写一个自动抢券的东东,时间成本最低的 web 方案是什么?...