机器学习数学基础-最大似然估计与贝叶斯法则
以下文章摘录自
《机器学习观止——核心原理与实践》
京东: https://item.jd.com/13166960.html
当当:http://product.dangdang.com/29218274.html
1.最大似然估计 (MLE)
最大似然估计(maximum likelihood estimation),又被译为极大似然估计或者最大概似估计等,是由德国数学家Gauss于1821年提出,并由英国统计学家和生物进化学家R.A. Fisher发展壮大的一种求估计的手段。
假设似然函数定义如下:
其中fD代表的是事件的概率分布的密度函数,表示分布参数。如果我们可以找到一个使得似然函数的取值达到最大,那么它就被称为的最大似然估计。
下面援引wikipedia上的一个范例。假设有三种类型的硬币放在盒子里,因为制作工艺不同它们抛出后正面朝上的概率分别为pH=1/3, pH=1/2, pH=2/3。某次试验中共抛出硬币80次,最后统计出正面朝上共49次,反面朝上31次,现在要通过最大似然估计求出哪种类型硬币的可能性最大。
这三种类型硬币对应的似然值分别为:
可见第3种硬币的可能性最大,换句话说p的最大似然估计是2/3。
2. 贝叶斯法则
贝叶斯法则 (Bayes'theorem/Bayes theorem/Bayesian law)也称为贝叶斯定理或者贝叶斯规则、贝叶斯推理等等,简单而言它是英国学者贝叶斯(1702~1763)于18世纪提出来的一个数学公式。公式本身并不复杂,如下所示:
其中:
l P(A|B)是指B已经发生情况下A的条件概率,也由于得自B的取值而被称作A的后验概率
l P(A)是A的先验概率(或边缘概率)
l P(B|A)是指A已经发生情况下B的条件概率,也由于得自A的取值而被称作B的后验概率
l P(B)是B的先验概率(或边缘概率)
上述释义中出现了前面小节也涉及过的先验概率和后验概率,我们这里再举一个例子来加深大家的印象。我们知道,如果一个人淋了雨,那么他有可能会得感冒。那么:
P(感冒)是先验概率
P(感冒|淋雨)是指淋雨已经发生的情况下,此人会得感冒的条件概率,称为感冒的后验概率。
接下来我们简单推导一下贝叶斯公式。
首先,根据条件概率可知当事件B发生的情况下事件A的条件概率是:
同理,当事件B发生的情况下事件A的条件概率是:
或者换一种表达形式就是:
P(A∩B) = P(B | A)*P(A)
这样一来,不难得出:
P(A|B) = P(A∩B) / P(B)
= P(B | A)*P(A) / P(B)
另外,贝叶斯公式也可以被理解为:
后验概率 = (可能性*先验概率)/标准化常量
下面我们再引用wikipedia上的一个吸毒者检测范例,来解释贝叶斯公式有哪些潜在的实用意义。
假设一个常规的检测结果的敏感度与可靠度均为99%,即吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理却可以揭示了一个潜在的问题——假设某公司对全体雇员进行吸毒检测,已知0.5%的雇员吸毒。那么请问每位检测结果呈阳性的雇员吸毒的概率有多高?
我们假设“D”代表的是雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。那么可以得出:
l P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5%的人吸食毒品,所以这个值就是D的先验概率。
l P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是1-P(D)。
l P(+|D)代表吸毒者阳性检出率,这是一个条件概率,由于阳性检测准确性是99%,因此该值为0.99。
l P(+|N)代表不吸毒者阳性检出率,也就是出错检测的概率,该值为0.01,因为对于不吸毒者,其检测为阴性的概率为99%,因此,其被误检测成阳性的概率为1 - 0.99 = 0.01。
l P(+)代表不考虑其他因素的影响的阳性检出率。该值为0.0149或者1.49%。我们可以通过全概率公式计算得到:此概率 = 吸毒者阳性检出率(0.5% x 99% = 0.495%)+ 不吸毒者阳性检出率(99.5% x 1% = 0.995%)。P(+)=0.0149是检测呈阳性的先验概率。用数学公式描述为:
根据上述描述,我们可以计算出某人检测呈阳性时确定是吸毒的条件概率P(D|+):
换句话说,尽管吸毒检测的准确率高达99%,但贝叶斯定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。假阳性高,则检测的结果并不可靠。
机器学习数学基础-最大似然估计与贝叶斯法则相关推荐
- 估计参数的方法:最大似然估计、贝叶斯推断
一.最大似然估计 假设有3个数据点,产生这3个数据点的过程可以通过高斯分布表达.这三个点分别是9.9.5.11.我们如何计算高斯分布的参数μ .σ的最大似然估计? 我们想要计算的是观测到所有数据的全概 ...
- 参数估计法——最大似然估计和贝叶斯参数估计
为什么要用参数估计? 在贝叶斯方法中,要事先估计先验概率和条件密度函数,然后再设计分类器.但是多数情况下训练样本数总是太少,而且当用于表示特征维数较高时,对条件密度函数的估计就会计算复杂度较高. 因此 ...
- 机器学习(一) 贝叶斯法则与概念学习
贝叶斯学习算法应用于机器学习的有两个原因,第一:贝叶斯学习能够计算显式的假设概率,如 朴素贝叶斯分类器.第二:贝叶斯方法为理解机器学习的其他方法提供了手段,如分析FIND-S算法. 贝叶斯法则对与贝叶 ...
- 人工智能数学基础--概率与统计1:随机试验、样本空间、事件、概率公理定理以及条件概率和贝叶斯法则
随机试验 我们都非常熟悉在科学研究和工程中试验的重要性.试验对我们是有用的,因为我们可以假定,在非常接近的确定条件下进行固定的试验,基本上会得到相同的结果.在这样的环境中,我们可以控制那些对试验结果有 ...
- 【人工智能】— 不确定性、先验概率/后验概率、概率密度、贝叶斯法则、朴素贝叶斯 、最大似然估计
[人工智能]- 不确定性 不确定性 不确定性与理性决策 基本概率符号 先验概率(无条件概率)/后验概率(条件概率) 随机变量 概率密度 联合概率分布 公理 完全联合分布 概率演算 独立性 贝叶斯法则 ...
- 贝叶斯法则与先验概率,后验概率
1.贝叶斯法则 机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设. 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设.贝叶斯理论提供了一种计算 ...
- 贝叶斯法则,先验概率,后验概率,最大后验概率
1.贝叶斯法则 机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设. 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设.贝叶斯理论提供了一种计算 ...
- 概率基础:随机变量、概率分布、期望值、联合概率、条件概率和贝叶斯法则,这些概率公式究竟能做什么?...
相信你对变量这个概念并不陌生,数学方程式和编程代码里经常会用到变量.那什么是变量呢?我们在概率中常说的随机变量( random variable)和普通的变量(variable)又有什么不同呢? 这些 ...
- 贝叶斯法则的举例分析
贝叶斯法则的举例分析 可以将贝叶斯法则的分析思路表达如下. 例子:挑战者B不知道原垄断者A是属于高阻挠成本类型还是低阻挠成本类型,但B知道,如果A属于高阻挠成本类型,B进入市场时A进行阻挠的概率是20 ...
最新文章
- 设计模式——单例模式(Singleton)
- 包含Tomcat 9的JBoss Web Server 5已发布
- mysql和oracle执行计划_mysql explain执行计划详解
- Python if条件判断
- Java常见GC算法_垃圾收集器及内存分配_G1垃圾收集器
- python的一些解释
- 编译Android源码相关资源及文章
- java读写锁死锁例子_Java并发关于重入锁与读写锁的详解
- Hyper-V虚拟化测试12非计划的故障转移
- [渝粤教育] 西南科技大学 单片机原理与应用 在线考试复习资料(1)
- 非连续内存区缺页异常处理
- 路遥《平凡的世界》读后感
- 金蝶kis专业版 服务器系统,金蝶kis专业版服务器设置
- matlab 4维图读取,Matlab或mathmatica画4维图问题
- linux 上 gcc -m32 编译报错解决方案
- 怎样安装win服务器系统,win服务器系统安装教程
- windchill安全标签客制化
- 「Luogu4233」射命丸文的笔记-生成函数+多项式求逆
- AlignedReID: Surpassing Human-Level Performance in Person Re-Identification
- 多协议数据采集网关结合TDEngine时序数据库