一、铺垫部分

1.1 条件概率

我们之前所讨论的诸如：P(A)P(A)P(A) 等，都是无条件公式。下面我们介绍条件概率公式
条件概率公式，我们用 P(A∣B)P(A|B)P(A∣B)，表示在事件 BBB 发生的前提下，事件 AAA 发生的概率。

举个栗子来看看条件概率和无条件概率的区别：还是投骰子吧，事件 AAA = {点数是2}，事件 BBB = {点数是偶数}，问：P(A)P(A)P(A)，P(A∣B)P(A|B)P(A∣B)：
首先，P(A)P(A)P(A)，很简单，一个无条件概率，那么样本空间的总数是 6 ，因此概率就是：16\frac{1}{6}61

下面看看 P(A∣B)P(A|B)P(A∣B)，在事件 BBB 发生的条件下，这句话，你品，你细品，有没有发现：我们的样本空间缩小了！因为前提是事件 BBB 已经发生，所以所有可能的样本情况就是：2，4，6。因此，在这3个样本的情况下，投出点数是 2 的概率就应该是 13\frac{1}{3}31

下面介绍条件概率的计算方法：P(A∣B)=P(AB)P(B)P(A|B) = \frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB)
不过一般看起来用概率相除不一定总是那么顺利，因为有可能 P(AB)P(AB)P(AB) 不太容易求解，这时候我们用有利样本数比上新的样本空间总数也是一种好办法！

1.1.1 条件概率的一些性质

非负性，这很好理解：P(A∣B)≥0）P(A|B) ≥ 0）P(A∣B)≥0）
规范性：P(Ω∣B)=1P(Ω|B) = 1P(Ω∣B)=1
（易错！）若 A1,A2,⋯,AnA_1,A_2,\cdots,A_nA1,A2,⋯,An 是一系列互斥事件，那么有：P(∑i=1nAi∣B)=∑i=1nP(Ai∣B)P(\sum_{i=1}^nA_i|B) = \sum_{i=1}^nP(A_i|B)P(i=1∑nAi∣B)=i=1∑nP(Ai∣B)
我们发现了吗：不管事件 AAA 的下标怎么变，条件是始终不会改变的！！
因此，特别要记忆的：P(A∣B)=1−P(Aˉ∣B)P(A|B) = 1-P(\bar{A}|B)P(A∣B)=1−P(Aˉ∣B)

1.2 乘法公式

从上一节的学习中，我们知道：P(A∣B)=P(AB)P(B)P(A|B) = \frac{P(AB)}{P(B)}\\ P(A∣B)=P(B)P(AB)
那么我们换一下，就变成了：P(AB)=P(B)P(A∣B)P(AB) = P(B)P(A|B)P(AB)=P(B)P(A∣B)，这就是我们的乘法公式！

拓展到 nnn 个事件也是一样的，我们有：P(A1A2A3⋯An)=P(A1)P(A2∣A1)P(A3∣A1A2)⋯P(An∣A1A2⋯An−1)P(A_1A_2A_3\cdots A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1A_2\cdots A_{n-1})P(A1A2A3⋯An)=P(A1)P(A2∣A1)P(A3∣A1A2)⋯P(An∣A1A2⋯An−1)

你可能觉得这个公式这么长，这么复杂，会不会很难记？其实，如果我们分析一下这个很长一串的公式，它的实际意义是相当清晰的。我们也写一个三个事件的情况：
P(ABC)=P(A)P(B∣A)P(C∣AB)P(ABC) = P(A)P(B|A)P(C|AB)P(ABC)=P(A)P(B∣A)P(C∣AB)

我们看看这个公式的意义：我们试想，你现在在一个布满陷阱的迷宫里面~~，你需要走三步才能逃脱这个迷宫，你有很多路径可以选，但是只有一条路是正确的，（也就是沿着 A→B→CA\to B\to CA→B→C)，走错了其中任何一条路，你就会因遭遇机关而再也无法逃出去。

所以，你逃出迷宫的概率，就可以用 P(ABC)P(ABC)P(ABC) 表示了，所以，P(A)P(A)P(A) 就表示你第一步走对了，P(B∣A)P(B|A)P(B∣A) 就表示在第一步走对了的情况下，你又走对了第二步！P(C∣AB)P(C|AB)P(C∣AB) 表示在前两步都走对了的前提下，你成功地找到了最后一条路！

这样是不是就很容易记忆了？哈哈

二、全概率公式

我们先把全概率公式的定义给出来：
定理：假设 B1,B2,⋯,BnB_1, B_2, \cdots, B_nB1,B2,⋯,Bn 是一个互斥完备群（也即是它们两两互斥，而且 ∑i=1nBi=Ω\sum_{i=1}^nB_i = Ω∑i=1nBi=Ω），而且 P(Bj)>0P(B_j) > 0P(Bj)>0，那么对于任何的事件 AAA，我们有：P(A)=∑i=1nP(Bi)P(A∣Bi)P(A) = \sum_{i=1}^nP(B_i)P(A|B_i)P(A)=i=1∑nP(Bi)P(A∣Bi)

这个公式想表达的意义是什么呢？我们可以这样理解：

假设我们准备参加一场数学考试，如果我们设考试成功为事件 A。那么，能够造成你考试成功的因素有哪些呢？我们知道比如说：1. 你日积月累的努力 2. 试卷题目简单 3. 你那天早餐吃得不错 4. 你前一晚睡得不错甚至可能还有 5. 运气也不错、、、我们把这些能够影响最终事件 A 的称为影响因素，用 BBB 来表示。这每一个因素都有自己发生的概率，这个好理解，比如说你前一晚睡得好这不是一定的，而是有一定概率的。

那么，我现在表示一下你考试成功这件事的概率：（现在我们就假设影响因素是五个好了）
P(A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)+P(B3)P(A∣B3)+P(B4)P(A∣B4)+P(B5)P(A∣B5)P(A) = P(B_1)P(A|B_1) + P(B_2)P(A|B_2) + P(B_3)P(A|B_3) \\ \space+ P(B_4)P(A|B_4) + P(B_5)P(A|B_5)P(A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)+P(B3)P(A∣B3) +P(B4)P(A∣B4)+P(B5)P(A∣B5)
我们解释一下其中一项：P(B2)P(A∣B2)P(B_2)P(A|B_2)P(B2)P(A∣B2)：这一项就可以解释为试卷简单而且在试卷简单的情况下你考试成功的概率。

证明部分：我们只需要记得，全概率公式的证明从 A=AΩA = AΩA=AΩ 入手：
由于 A=AΩ=A∑i=1nBiA = AΩ = A\sum_{i=1}^nB_iA=AΩ=A∑i=1nBi，因此，我们得出：P(A)=P(A∑i=1nBi)=∑i=1nP(ABi)P(A) = P(A\sum_{i=1}^nB_i) = \sum_{i=1}^nP(AB_i)P(A)=P(Ai=1∑nBi)=i=1∑nP(ABi)
对于P(ABi)P(AB_i)P(ABi)，由乘法公式可知：P(ABi)=P(Bi)P(A∣Bi)P(AB_i) = P(B_i)P(A|B_i)P(ABi)=P(Bi)P(A∣Bi)，因此，得到：P(A)=∑i=1nP(Bi)P(A∣Bi)P(A) = \sum_{i=1}^nP(B_i)P(A|B_i)P(A)=i=1∑nP(Bi)P(A∣Bi)

三、贝叶斯公式

上一节的全概率公式中，我们是通过影响因素去推断结果发生的概率。而贝叶斯公式，则是通过一个已经发生的结果，去推断导致这个结果产生的那些影响因素的概率。

我们也是先给出定理：
设 B1,B2,⋯,BnB_1, B_2, \cdots, B_nB1,B2,⋯,Bn 是互斥完备群。且 P(Bi)>0P(B_i) > 0P(Bi)>0，那么对于任意一个具有正概率的事件 A （这个是已经发生的结果），有：P(Bk∣A)=P(Bk)P(A∣Bk)∑i=1nP(Bi)P(A∣Bi)P(B_k|A) = \frac{P(B_k)P(A|B_k)}{\sum_{i=1}^nP(B_i)P(A|B_i)}P(Bk∣A)=∑i=1nP(Bi)P(A∣Bi)P(Bk)P(A∣Bk)

乍一看这个公式巨复杂，因此我们要从思想上理解它。我们先证明它：P(Bk∣A)=P(BkA)P(A)=P(Bk)P(A∣Bk)P(A)=P(Bk)P(A∣Bk)∑i=1nP(Bi)P(A∣Bi)(1)\begin{aligned} P(B_k|A) &=\frac{P(B_kA)}{P(A)}\tag{1}\\ &=\frac{P(B_k)P(A|B_k)}{P(A)}\\ &=\frac{P(B_k)P(A|B_k)}{\sum_{i=1}^nP(B_i)P(A|B_i)} \end{aligned} P(Bk∣A)=P(A)P(BkA)=P(A)P(Bk)P(A∣Bk)=∑i=1nP(Bi)P(A∣Bi)P(Bk)P(A∣Bk)(1)
上面的证明中，第一行的分子变换用的是乘法公式，第二行到第三行的分母变换用的是全概率公式

在实际中，我们更加常用的，是第二条表达式：P(Bk∣A)=P(Bk)P(A∣Bk)P(A)P(B_k|A) = \frac{P(B_k)P(A|B_k)}{P(A)}P(Bk∣A)=P(A)P(Bk)P(A∣Bk)

这个式子也好理解，我们画一张图：

那么，为了计算 P(B4∣A)P(B_4|A)P(B4∣A)，我们首先得计算一下因为 B4B_4B4 条件而造成 A 发生得概率，也即是：P(A∣B4)=P(B4)P(A∣B4)P(A|B_4) = P(B_4)P(A|B_4)P(A∣B4)=P(B4)P(A∣B4)，这个值也就是图中 B4B_4B4 区域和 A 重叠的面积。那么最后在看看这个面积占整个 A 的比例，就可以知道影响因素 B4B_4B4 占多大的比重了。

其中，我们称：P(Bk)P(B_k)P(Bk) 是先验概率，P(Bk∣A)P(B_k|A)P(Bk∣A) 是后验概率。

贝叶斯公式意义非常重大，像现在流行的神经网络，很大程度是基于贝叶斯估计的知识。下面我们看一个很有趣的例题，体会一下贝叶斯公式的威力，颠覆你的三观！

某地区患 X 病的可能性是 0.0004，现在有一个智能疾病诊断器，真正患病的人被这个机器检测显示患病的概率是 99%，被这个机器显示没病的概率是 1%；没病的人被这个机器检测显示没病的概率是99.9%，被机器检测有病的概率是 0.1%，那么，假如现在有一个被机器检测显示出他患病，那么，问这个人真正患病的概率是多大？

首先，请大家先根据自己的经验估计一下，这个准确率看起来很高的机器诊断这个人患病，一般来说，我们都会相信他确实患病。那么实际上是什么情况呢？？

解：首先，我们设真正患病是事件 A ，被机器检测出来患病是事件 B。那么，题目问的就是：P(A∣B)P(A|B)P(A∣B)
根据公式：P(A∣B)=P(AB)P(B)=P(A)P(B∣A)P(B)P(A|B) = \frac{P(AB)}{P(B)} = \frac{P(A)P(B|A)}{P(B)}P(A∣B)=P(B)P(AB)=P(B)P(A)P(B∣A)
首先，我们计算 P(B)P(B)P(B)，这就可能是两种情况：

人有病，机器检测出来显示有病
人没病，机器检测显示出来有病

那么， P(B)P(B)P(B) 就可以表示为：P(B)=P(A)P(B∣A)+P(Aˉ)P(B∣Aˉ)P(B) =P(A)P(B|A) + P(\bar{A})P(B|\bar{A})P(B)=P(A)P(B∣A)+P(Aˉ)P(B∣Aˉ)
带入数据得：P(B)=0.0004P(B) = 0.0004P(B)=0.0004x0.99+0.99960.99 + 0.99960.99+0.9996x0.001=0.00139560.001 = 0.00139560.001=0.0013956
而我们又知道：P(A)=0.0004P(A) = 0.0004P(A)=0.0004，P(B∣A)=0.99P(B|A) = 0.99P(B∣A)=0.99
因此，最终结果是：P(A∣B)=0.0004×0.990.0013956≈0.28=28%P(A|B) = \frac{0.0004×0.99}{0.0013956} ≈ 0.28 = 28\%P(A∣B)=0.00139560.0004×0.99≈0.28=28%

天哪，看起来这么准的机器，说一个人有病居然这么不可信！

【概率论与数理统计 Probability and Statistics 3】—— （important）全概率公式和贝叶斯公式相关推荐

【概率论与数理统计 Probability and Statistics 1】—— 必需夯实的几个概念以及几个重要的概率模型，蒙特卡洛方法介绍
这是<概率论与数理统计>网上授课的第一次笔记,记录一下这门课基本的几个概念.概率论是相当重要的一门课,在许多领域,例如深度学习,机器学习,数据挖掘等都广泛地运用了概率论的知识文章目录一 ...
【概率论与数理统计 Probability and Statistics 8】—— 深入地理解二维随机变量及其分布函数、分布密度函数的意义
文章目录一.为什么是二维随机变量二.二维随机变量的分布函数 2.1 二维随机变量分布函数的性质 2.2 二维随机变量的边缘分布函数三.二维离散型随机变量的联合分布和边缘分布求法四.二维连续型随 ...
【概率论与数理统计 Probability and Statistics 9】——二维随机变量的条件分布（离散+连续）与条件密度（连续）
文章目录一.条件分布的定义二.二维离散型条件分布的计算三.连续型随机变量的条件分布和条件密度一.条件分布的定义 F(x∣A)=P{X≤x∣A}F(x|A) = P\{X≤x|A\}F(x∣A) ...
概率论与数理统计(Probability Statistics I)
Table of Contents 概率论的基本概念(The Basic Concept of Probability Theory) 随机变量及其分布(Random Variable and Its ...
概率论与数理统计 1 Overview and Descriptive Statistics(概述和描述性统计) （上篇）
概率论_1.1_1.2 1.1 Populations,Samples,and Processes Branches of Statistics the Scope of Modern Statist ...
概率论在实际生活的例子_概率论与数理统计在实际生活中的应用-论文.doc
您所在位置:网站首页 > 海量文档 &nbsp>&nbsp学术论文&nbsp>&nbsp大学论文概率论与数理统计在实际生活中的应用-论文.doc19 ...
概率论与数理统计常用英文词汇对照
概率论与数理统计常用英文词汇对照 Probability Theory 概率论 Trial 试验 intersection交 union 并 frequency 频率 difference 差 add ...
概率与统计在计算机应用,计算机技术在概率论和数理统计中的应用
计算机技术在概率论和数理统计中的应用 (5页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.90 积分概率论与数理统计期中论文计算机技术在概率论和 ...
【概率论与数理统计】小结8 - 三大抽样分布
注:抽样分布就是统计量的分布,其特点是不包含未知参数且尽可能多的概括了样本信息.除了常见的正态分布之外,还有卡方分布.t分布和F分布为最常见的描述抽样分布的分布函数.这几个分布函数在数理统计中也非常有 ...
python实现概率论与数理统计_《统计思维：程序员数学之概率统计》读书笔记
更多 1.书籍信息书名:Think Stats: Probability and Statistics for Programmers 译名:<统计思维:程序员数学之概率统计> 作者:A ...

【概率论与数理统计 Probability and Statistics 3】—— （important）全概率公式和贝叶斯公式

文章目录