深度学习中需要掌握的概率统计

1.常见的概率分布
- 1.1伯努利分布（二值分布，0-1分布）
- 1.2二项分布（离散的）
- 1.3均匀分布
- 1.4`高斯分布`（连续）
2.独立事件的解释
3.多变量概率分布中基本概念解释
4.贝叶斯公式(逆概公式)
- 全概率公式
- 引例
- 贝叶斯公式的例子
- 为什么
- 贝叶斯公式解决了什么问题?
- 贝叶斯公式有哪些应用
更加简单的理解贝叶斯
- 举例1
- 举例2
- 举例3
极大似然估计
- 举例
- - 例子1
  - 例子2
- 计算步骤
先验分布、后验分布、似然估计的联系与区别
参考文献

1.常见的概率分布

1.数据类型（也叫随机变量）有2种：离散数据类型（例如抛硬币的结果），连续数据类型（例如时间）
2.分布：数据在统计图中的形状
3.概率分布就是将数据类型+分布组合起来的一种表现手段：
- 概率分布就是在统计图中表示概率，横轴是数据的值，纵轴是横轴上对应数据值的概率密度

1.1伯努利分布（二值分布，0-1分布）

伯努利试验：只可能要两种结果的单次随机实验
其概率分布：P(X=1)=p,P(X=0)=1−pP(X=1)=p,P(X=0)=1-pP(X=1)=p,P(X=0)=1−p.

1.2二项分布（离散的）

二项分布即重复n次伯努利试验，各试验之间都相互独立
如果每次试验时，事件发生的概率为p，不发生的概率为1-p，则n次重复独立试验中事件发生k次的概率为
P(X=k)=Cnkpk(1−p)n−kP(X = k) = C_n^kp^k(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k
怎么判断判断某事件是二项分布
- 1.做某件事的次数（也叫试验次数）是固定的，用n表示，例如抛硬币3次，投资5支股票）
- 2.每一次事件都有两个可能的结果（成功，或者失败），例如每一次抛硬币有2个结果：正面表示成功，反面表示失败。每一次投资美股有2个结果：投资成功，投资失败
- 3.每一次成功的概率都是相等的，成功的概率用p表示，例如每一次抛硬币正面朝上的概率都是1/2。你投资了5家公司的股票，假设每一家投资盈利成功的概率都相同
- 4.你感兴趣的是成功x次的概率是多少，你已经知道了我前面讲的5家美股的赚钱概率最大，所以你买了这5家公司的股票，假设投资的这5家公司成功的概率都相同，那么你关心其中只要有3个投资成功，你就可以赚翻了，所以想知道成功3次的概率
- 根据这4个特点，我们就知道抛硬币是一个典型的二项分布，还有你投资的这5支股票也是一个典型的二项分布（在假设每家公司投资成功的前提下）。
这个公式就是计算做某件事情n次，成功x次的概率的。
期望E(x)=np （表示某事情发生n次，预期成功多少次。）
知道这个期望有啥用呢？
做任何事情之前，知道预期结果肯定对你后面的决策有帮助。比如你抛硬币5次，每次概率是1/2，那么期望E(x)=5*1/2=2.5次，也就是有大约3次你可以抛出正面。
在比如你之前投资的那5支股票，假设每支股票帮你赚到钱的概率是80%，那么期望E(x)=5*80%=4，也就是预期会有4只股票投资成功帮你赚到钱。

1.3均匀分布

又称矩形分布，
在给定长度间隔[a,b]内的分布概率是等可能的，均匀分布由参数a，b定义，
概率密度函数为： p(x)=1b−a,a<x<bp(x) = \frac{1}{b-a}, \quad a < x <b p(x)=b−a1,a<x<b

1.4`高斯分布`（连续）

又称正态分布(normal)，
是实数中最常用的分布，由均值μ和标准差σ决定其分布，
概率密度函数为： p(x)=12πσe−(x−μ)22σ2p(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}} p(x)=2πσ1e−2σ2(x−μ)2
常用来表示独立随机事件发生的时间间隔，参数为λ>0的指数分布概率密度函数为：p(x)=λe−λxx≥0p(x) = \lambda e^{-\lambda x} \quad x \geq 0p(x)=λe−λxx≥0. 指数分布重要特征是无记忆性。

2.独立事件的解释

独立的条件：如A1,A2,A3A_1,A_2,A_3A1,A2,A3
有以下条件：
- 1.P(A1A2)=P(A1)P(A2)P(A_1A_2)=P(A_1)P(A_2)P(A1A2)=P(A1)P(A2)
- 2.P(A1A3)=P(A1)P(A3)P(A_1A_3)=P(A_1)P(A_3)P(A1A3)=P(A1)P(A3)
- 3.P(A2A3)=P(A2)P(A3)P(A_2A_3)=P(A_2)P(A_3)P(A2A3)=P(A2)P(A3)
- 4.P(A1A2A3)=P(A1)P(A2)P(A3)P(A_1A_2A_3)=P(A_1)P(A_2)P(A_3)P(A1A2A3)=P(A1)P(A2)P(A3)
满足1，2，3就是两两独立，全满足就是互相独立

3.多变量概率分布中基本概念解释

条件概率(Conditional probability)：事件X在事件Y发生的条件下发生的概率，P(X∣Y)P(X|Y)P(X∣Y)。
联合概率(Joint probability)：表示两个事件X和Y共同发生的概率P(X,Y)P(X,Y)P(X,Y)（也可以写成P(XY)P(XY)P(XY)）。
条件概率和联合概率的性质：P(Y∣X)=P(Y,X)P(X)P(Y|X) = \frac{P(Y,X)}{P(X)}P(Y∣X)=P(X)P(Y,X), (P(X)>0P(X ) > 0P(X)>0)。
推广到 n 个事件，条件概率的链式法则： P(X1,X2,…,Xn)=P(X1X2,…,Xn)P(X2X3,X4,…,Xn)…P(Xn−1Xn)P(Xn)\begin{aligned} P(X_{1}, X_{2}, \ldots, X_{n}) &=P(X_{1} X_{2}, \ldots, X_{n}) P(X_{2} X_{3}, X_{4}, \ldots, X_{n}) \ldots P(X_{n-1} X_{n}) P(X_{n})\end{aligned}P(X1,X2,…,Xn)=P(X1X2,…,Xn)P(X2X3,X4,…,Xn)…P(Xn−1Xn)P(Xn)
=P(Xn)∏i=1n−1P(Xi∣Xi+1,…,Xn)\begin{aligned} =P\left(X_{n}\right) \prod_{i=1}^{n-1} P\left(X_{i} \mid X_{i+1}, \ldots, X_{n}\right) \end{aligned} =P(Xn)i=1∏n−1P(Xi∣Xi+1,…,Xn)
先验概率(Prior probability)：根据以往经验和分析得到的概率，在事件发生前已知，它往往作为“由因求果”问题中的“因”出现。
后验概率(Posterior probability)：指得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因”，后验概率是基于新的信息，修正后来的先验概率所获得的更接近实际情况的概率估计。
举例说明：一口袋里有3只红球、2只白球，采用不放回方式摸取，求: (1) 第一次摸到红球(记作A)的概率; (2) 第二次摸到红球(记作B)的概率; (3) 已知第二次摸到了红球，求第一次摸到的是红球的概率?
- 解：
  - (1) P(A=1)=3/5P(A=1) = 3/5P(A=1)=3/5，这就是先验概率;
  - (2) P(B=1)=P(A=1)P(B=1∣A=1)+P(A=0)P(B=1∣A=0)=3524+2534=35P(B=1) = P(A=1) P(B=1|A=1)+ P(A=0)P(B=1|A=0)=\frac{3}{5}\frac{2}{4}+\frac{2}{5}\frac{3}{4} = \frac{3}{5}P(B=1)=P(A=1)P(B=1∣A=1)+P(A=0)P(B=1∣A=0)=5342+5243=53
  - (3) P(A=1∣B=1)=P(A=1)P(B=1∣A=1)P(B=1)=12P(A=1|B=1) = \frac{P(A = 1)P(B = 1|A = 1)}{P(B = 1)} = \frac{1}{2}P(A=1∣B=1)=P(B=1)P(A=1)P(B=1∣A=1)=21，这就是后验概率。

4.贝叶斯公式(逆概公式)

生成模型是所有变量的全概率模型

全概率公式

设事件Ai{A_i}Ai是样本空间 ΩΩΩ 的一个划分，且P(Ai)>0(i=1,2,...,n)P(A_i)>0(i=1,2,...,n)P(Ai)>0(i=1,2,...,n)，那么：P(B)=∑i=1nP(B∣Ai)P(Ai)=∑i=1nP(Ai,B)P(B) = \sum_{i = 1}^nP(B|A_i)P(A_i)=\sum_{i = 1}^nP(A_i,B)P(B)=∑i=1nP(B∣Ai)P(Ai)=∑i=1nP(Ai,B)
全概率公式说明了边缘概率与联合概率的关系，而条件概率公式则说明了联合概率与条件概率的关系。
全概率公式说明，边缘概率可以由联合概率对另一个随机事件求和（或积分）求得。p(x)=∫zp(x∣z)p(z)dzp(x)=\int_zp(x|z)p(z)dzp(x)=∫zp(x∣z)p(z)dz

引例

一个村子，有三个小偷，A1=A_1=A1=小张，A2=A_2=A2=小政，A3=A_3=A3=小英，两两互斥，事件B为村子发生失窃。已知小张去偷东西成功的概率为0，小英去偷东西成功的概率是1/2，小郑去偷东西成功的概率是1。每次只能有一个人去偷窃，求P(B)=P{失窃}P(B)=P\{失窃\}P(B)=P{失窃}
分析：
- 分为两个阶段：1，选人；2，偷东西
  - 1.选人：每个人被选中打概率都是1/31/31/3，所以P(A1)=P(A2)=P(A3)=1/3P(A_1)=P(A_2)=P(A_3)=1/3P(A1)=P(A2)=P(A3)=1/3
  - 2.偷东西：
    - 小张去偷：P(B∣A1)=0P(B|A_1)=0P(B∣A1)=0
    - 小政去偷：P(B∣A2)=1/2P(B|A_2)=1/2P(B∣A2)=1/2
    - 小郑去偷：P(B∣A3)=1P(B|A_3)=1P(B∣A3)=1
- 注意到A1=A_1=A1=,A2=A_2=A2=,A3=A_3=A3=是互斥的，A1∪A2∪A3A_1\cup A_2\cup A_3A1∪A2∪A3和AiAj=∅,i≠jA_iA_j=\varnothing,i \neq jAiAj=∅,i=j，称作完备事件组
- 由P(AB)=P(A)P(B∣A)P(AB)=P(A)P(B|A)P(AB)=P(A)P(B∣A)得：
  P(B)=P(BS)=P(B∩(A1∪A2∪A3))P(B)=P(BS)=P(B\cap(A_1\cup A_2\cup A_3))P(B)=P(BS)=P(B∩(A1∪A2∪A3))
  =P(BA1∪BA2∪BA3)=P(BA1)+P(BA2)+P(BA3)=P(BA_1 \cup BA_2 \cup BA_3)=P(BA_1)+P(BA_2)+P(BA_3)=P(BA1∪BA2∪BA3)=P(BA1)+P(BA2)+P(BA3)
  =P(A1)P(B∣A1)+P(A2)P(B∣A2)+P(A3)P(B∣A3)=1/2=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)=1/2=P(A1)P(B∣A1)+P(A2)P(B∣A2)+P(A3)P(B∣A3)=1/2
  - 即P(B)=∑i=1nP(Ai)P(B∣Ai)P(B)=\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)P(B)=i=1∑nP(Ai)P(B∣Ai)
  - 上面这个就是全概率公式
全概率公式给我们提供了计算后验概率的途径，即贝叶斯公式 P(AiB)=P(BdAi)P(Ai)P(B)=P(BAi)P(Ai)∑j=1nP(Aj)P(BAj)P(\mathrm{A}_{i} \mathrm{B})=\frac{P(\mathrm{B} d \mathrm{A}{i}) P(\mathrm{~A}{i})}{P(\mathrm{B})}=\frac{P(\mathrm{B} \mathrm{A}{i}) P(\mathrm{~A}{i})}{\sum_{j=1}^{n} P(\mathrm{A}_{j}) P(\mathrm{B} \mathrm{A}_{j})} P(AiB)=P(B)P(BdAi)P( Ai)=∑j=1nP(Aj)P(BAj)P(BAi)P( Ai)

贝叶斯公式的例子

某一天，村子一个人大喊：失窃啦！！！然后警察来了。一共有3个嫌疑人：A1A_1A1小张，A2A_2A2小英，A3A_3A3小郑。警局已经对他们的偷窃能力有备案：小张去偷东西成功的概率为0，小英去偷东西成功的概率是1/2，小郑去偷东西成功的概率是1。试问：这三人中，与这次失窃案件有关的概率是多少。
- 分析：
  - 这个问题和引例有一点不同，引例是已知3人的偷窃能力，求村子失窃的概率。而这个问题是已知3人的偷窃能力，和村子失窃的概率，求每个人去偷窃的概率。这就是所谓的逆事件概率，贝叶斯公式需要解决的问题。
- 先验：三个人去偷窃的概率都是一样的(这是我们的主观感受)
  - P(A1)=P(A2)=P(A3)=1/3P(A_1)=P(A_2)=P(A_3)=1/3P(A1)=P(A2)=P(A3)=1/3
- P(B)=1/2P(B)=1/2P(B)=1/2
- P(B∣A1)=0P(B|A_1)=0P(B∣A1)=0
- P(B∣A2)=1/2P(B|A_2)=1/2P(B∣A2)=1/2
- P(B∣A3)=1P(B|A_3)=1P(B∣A3)=1
- 要求的是，在失窃发生时，是他们三个人的概率是多少，即求P(A1∣B)P(A_1|B)P(A1∣B)、P(A2∣B)P(A_2|B)P(A2∣B)、P(A3∣B)P(A_3|B)P(A3∣B)
- P(A1∣B)=P(A1B)P(B)=P(A1)P(B∣A1)∑i=1nP(Ai)P(B∣Ai)=0P(A_1|B)=\frac{P(A_1B)}{P(B)}=\frac{P(A_1)P(B|A_1)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=0P(A1∣B)=P(B)P(A1B)=i=1∑nP(Ai)P(B∣Ai)P(A1)P(B∣A1)=0
- P(A2∣B)=P(A2B)P(B)=P(A2)P(B∣A2)∑i=1nP(Ai)P(B∣Ai)=1/3P(A_2|B)=\frac{P(A_2B)}{P(B)}=\frac{P(A_2)P(B|A_2)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=1/3P(A2∣B)=P(B)P(A2B)=i=1∑nP(Ai)P(B∣Ai)P(A2)P(B∣A2)=1/3
- P(A3∣B)=P(A3B)P(B)=P(A3)P(B∣A3)∑i=1nP(Ai)P(B∣Ai)=2/3P(A_3|B)=\frac{P(A_3B)}{P(B)}=\frac{P(A_3)P(B|A_3)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=2/3P(A3∣B)=P(B)P(A3B)=i=1∑nP(Ai)P(B∣Ai)P(A3)P(B∣A3)=2/3
P(Ai)P(A_i)P(Ai)就是所谓的先验概率，而P(B∣AI)P(B|A_I)P(B∣AI)就是后验概率

为什么

在失窃发生之前，我们认为333个人去偷窃的概率都是1/31/31/3。
但是失窃发生后，由于每个人的偷窃能力不同，我们预判谁去偷窃的概率就会发生变化。
这个例子中，先验概率P(Ai)=1/3P(A_i)=1/3P(Ai)=1/3。先验概率往往都是我们的主观映像：在失窃发送之前，我们认为所有人去偷窃的概率都是一样的。
而后验概率是什么呢？因为每个人偷窃的成功率不同，所以偷窃发生后，到底谁去偷窃的概率也就发生了变化。所以后验概率就是一个调整因子，当一件事件发生后，对原事件发生的概率产生了影响。

贝叶斯公式解决了什么问题?

贝叶斯解决的是逆向概率的问题。什么叫逆向概率呢？
- 比如在村子失窃的例子中，正向概率就是：已知每个人的偷窃能力，求村子失窃的概率。
- 而逆向概率就是：已知村子失窃的概率和每个人的偷窃能力，偷窃事件发生了，然后求每个人与这起偷窃案件相关的概率。

贝叶斯公式有哪些应用

贝叶斯公式真正被应用起来，是在其发表一百多年后了。为什么一开始贝叶斯公式不背重视呢？因为加入了先验概率，而先验概率是我们的主观映像，传统的概率学认为，概率统计是不能被主观引导的，这就导致了贝叶斯公式不被重视。
后来，人们逐渐发现了贝叶斯公式大有用处，并且将其广泛应用与天气预报，垃圾邮件处理等一系列的问题之中。贝叶斯公式也是机器学习中及其重要的模型。

更加简单的理解贝叶斯

举例1

这里有A，B两个箱子有大小形状和数量都一样的球，A箱子1/3是白球，2/3是黑球。B箱子全部是黑球，我们蒙着眼睛，伸手从箱子取球：由于球的大小形状和数量都一样，所以我们认为取的球来自A箱和B箱的概率都是1/2。但是我摸出来以后，我瞄了一眼，发现：这是白球。然后我就断定：这个球一定来自A箱子。摸出来的球来自A箱的概率由1/2变成了1。这是为什么呢？就是因为有后验概率是不一样的，摸出来球的颜色会对一开始的概率产生影响。
我们用贝叶斯公式来计算一下：
我们定义：
P(A)=P(取出的球来自A箱子)P(A)=P({取出的球来自A箱子})P(A)=P(取出的球来自A箱子)，P(B)=P(取出的球来自B箱子)P(B)=P({取出的球来自B箱子})P(B)=P(取出的球来自B箱子)，P(C)=P(取出的球是白色)P(C)=P({取出的球是白色})P(C)=P(取出的球是白色)
已知P(A)=1/2,P(B)=1/2,P(C)=1/6,P(C∣A)=1/3,P(C∣B)=0P(A)=1/2,P(B)=1/2,P(C)=1/6,P(C|A)=1/3,P(C|B)=0P(A)=1/2,P(B)=1/2,P(C)=1/6,P(C∣A)=1/3,P(C∣B)=0
由贝叶斯公式得：
p(A∣C)=P(C∣A)P(A)P(C)=1p(A|C)=\frac{P(C|A)P(A)}{P(C)}=1p(A∣C)=P(C)P(C∣A)P(A)=1
p(B∣C)=P(C∣B)P(B)P(C)=0p(B|C)=\frac{P(C|B)P(B)}{P(C)}=0p(B∣C)=P(C)P(C∣B)P(B)=0
可见：摸出来的球来自A箱的概率从1/2变成了1，这是因为后验概率对原概率发生了影响。

举例2

已知：在夏季，某公园男性穿凉鞋的概率为1/21/21/2，女性穿凉鞋的概率为2/32/32/3，并且该公园中男女比例通常为2:1，问题：若你在公园中随机遇到一个穿凉鞋的人，请问他的性别为男性或女性的概率分别为多少？
- 设AAA=男性，BBB=女性，xxx=穿凉鞋
- 问题要求的是若你在公园中随机遇到一个穿凉鞋的人，请问他的性别为男性或女性的概率，也就是问在穿凉鞋的条件下，性别是男或者女，即P(A∣x)P(A|x)P(A∣x)和P(B∣x)P(B|x)P(B∣x)
- 由题干可知：
  - 先验概率:
    - 公园里遇到的人是男性的概率P(A)=2/3P(A)=2/3P(A)=2/3
    - 公园里遇到的人是女性的概率P(B)=2/3P(B)=2/3P(B)=2/3
  - 类条件概率:
    - 男性穿凉鞋的概率P(x∣A)=1/2P(x|A)=1/2P(x∣A)=1/2
    - 女性穿凉鞋的概率P(x∣B)=2/3P(x|B)=2/3P(x∣B)=2/3
  - 公园穿凉鞋的概率:
    - P(x)=P(A)P(x∣A)+P(B)P(x∣B)P(x)=P(A)P(x|A)+P(B)P(x|B)P(x)=P(A)P(x∣A)+P(B)P(x∣B)
  - 题目求解：
    - P(A∣x)=P(A,x)P(x)=P(x∣A)P(A)P(x)=3/5P(A|x)=\frac{P(A,x)}{P(x)}=\frac{P(x|A)P(A)}{P(x)}=3/5P(A∣x)=P(x)P(A,x)=P(x)P(x∣A)P(A)=3/5
    - P(B∣x)=P(B,x)P(x)=P(x∣B)P(B)P(x)=2/5P(B|x)=\frac{P(B,x)}{P(x)}=\frac{P(x|B)P(B)}{P(x)}=2/5P(B∣x)=P(x)P(B,x)=P(x)P(x∣B)P(B)=2/5

举例3

设有甲和乙两名运动员，甲命中射击的概率为0.6，乙的威0.5，求下列概率：1.从甲乙中任选一个人去射击，若目标命中，则是甲命中的概率是多少2.甲乙各自独立射击，若目标命中，则是甲命中的概率是多少
1.分阶段:(1)选人：A甲,A乙A_甲,A_乙A甲,A乙.(2)射击：命中=BBB

p(A甲∣B)=P(A甲B)P(B)=P(A甲)P(B∣A甲)P(B)p(A_甲|B)=\frac{P(A_甲B)}{P(B)}=\frac{P(A_甲)P(B|A_甲)}{P(B)}p(A甲∣B)=P(B)P(A甲B)=P(B)P(A甲)P(B∣A甲)=P(A甲)P(B∣A甲)P(A甲)P(B∣A甲)+P(A乙)P(B∣A乙)=\frac{P(A_甲)P(B|A_甲)}{P(A_甲)P(B|A_甲)+P(A_乙)P(B|A_乙)}=P(A甲)P(B∣A甲)+P(A乙)P(B∣A乙)P(A甲)P(B∣A甲)=12∗0.612∗0.6+12∗0.5=611=\frac{\frac{1}{2}*0.6}{\frac{1}{2}*0.6+\frac{1}{2}*0.5}=\frac{6}{11}=21∗0.6+21∗0.521∗0.6=116

2.不分阶段
A甲=A_甲=A甲={甲命中}
A乙=A_乙=A乙={乙命中}
B=B=B={目标被命中}
B=A甲∪A乙B=A_甲 \cup A_乙B=A甲∪A乙甲或者乙命中
p(A甲∣B)=P(A甲B)P(B)=P(A甲)P(A甲)+P(A乙)−P(A甲A乙)p(A_甲|B)=\frac{P(A_甲B)}{P(B)}=\frac{P(A_甲)}{P(A_甲)+P(A_乙)-P(A_甲A_乙)}p(A甲∣B)=P(B)P(A甲B)=P(A甲)+P(A乙)−P(A甲A乙)P(A甲)

极大似然估计

离散型和连续性，即L(θ)={∏i=1np(Xi,θ)∏i=1nf(Xi,θ)L(\theta)=\begin{cases}\prod\limits_{i=1}^n p(X_i,\theta)\\\prod\limits_{i=1}^n f(X_i,\theta)\end{cases}L(θ)=⎩⎪⎨⎪⎧i=1∏np(Xi,θ)i=1∏nf(Xi,θ)，当θ\thetaθ取多少时，概率最大
只是一种概率论在统计学的应用，它是参数估计的方法之一

举例

例子1

运动员射箭，运动员分1和2级运动员，射箭成绩为(10,9,10,10)(10,9,10,10)(10,9,10,10)，所以我们可以推测这个是1级运动员，换句话说，在他为1级运动员时，射出(10,9,10,10)(10,9,10,10)(10,9,10,10)的成绩的概率最大，即p(10,9,10,10∣1)=max⁡p(10,9,10,10 | 1)=\maxp(10,9,10,10∣1)=max，就是参数为多少时，观测值出现的概率最大，p(10,9,10,10∣?)=max⁡p(10,9,10,10 | ?)=\maxp(10,9,10,10∣?)=max，???处就是我们要算的θ\thetaθ.

例子2

比如，如果其他条件一定的话，抽烟者发生肺癌的危险时不抽烟者的5倍，那么如果现在我已经知道有个人是肺癌，我想问你这个人抽烟还是不抽烟。你怎么判断？你可能对这个人一无所知，你所知道的只有一件事，那就是抽烟更容易发生肺癌，那么你会猜测这个人不抽烟吗？我相信你更有可能会说，这个人抽烟。为什么？这就是“最大可能”，我只能说他“最有可能”是抽烟的，“他是抽烟的”这一估计值才是“最有可能”得到“肺癌”这样的结果。这就是最大似然估计。

计算步骤

一般取对数，令dlog⁡L(θ)dθ=0\frac{d\log L(\theta)}{d\theta}=0dθdlogL(θ)=0，得出θ^\hat\thetaθ^，此处log⁡\loglog就是ln⁡\lnln
取对数为什么可以求出θ^\hat\thetaθ^，是因为对数函数严格单调增；也可以不取对数，直接求导；
如果L(θ)L(\theta)L(θ)关于θ\thetaθ单调，直接定义法，取两端，一般是样本的max⁡\maxmax或者minminmin。Notice：对于连续性的，要根据分布函数先求出概率密度，XXX ~ F(x,θ)F(x,\theta)F(x,θ)求导得XXX ~ f(x,θ)f(x,\theta)f(x,θ)

先验分布、后验分布、似然估计的联系与区别

这几个概念可以用原因的可能性和结果的可能性的先后顺序及条件关系来理解。
下面举例：
- 隔壁老王要去10公里外的一个地方办事，他可以选择走路，骑自行车或者开车，并花费了一定时间到达目的地。
- 在这个事件中，可以把交通方式(记为www)（走路w1w_1w1、骑车w2w_2w2或开车w3w_3w3）认为是原因，花费的时间(记为xxx)认为是结果。
- 若老王花了一个小时的时间完成了10公里的距离，那么很大可能是骑车过去的，当然也有较小可能老王是个健身达人跑步过去的，或者开车过去但是堵车很严重。
- 若老王一共用了两个小时的时间完成了10公里的距离，那么很有可能他是走路过去的。
- 若老王只用了二十分钟，那么很有可能是开车。
- 这种先知道结果，然后由结果估计原因的概率分布，P(交通方式∣时间)=P(w∣x)P(交通方式|时间)=P(w|x)P(交通方式∣时间)=P(w∣x)，就是后验概率。
- 老王早上起床的时候觉得精神不错，想锻炼下身体，决定跑步过去；
- 也可能老王想做个文艺青年试试最近流行的共享单车，决定骑车过去；
- 也可能老王想炫个富，决定开车过去。
- 老王的选择与到达目的地的时间无关。
- 先于结果，确定原因的概率分布，p(交通方式)=P(w)p(交通方式)=P(w)p(交通方式)=P(w)，就是先验概率。
- 老王决定步行过去，那么很大可能10公里的距离大约需要两个小时；较小可能是老王平时坚持锻炼，跑步过去用了一个小时；更小可能是老王是个猛人，40分钟就到了。
- 老王决定骑车过去，很可能一个小时就能到；较小可能是老王那天精神不错加上单双号限行交通很通畅，40分钟就到了；还有一种较小可能是老王运气很差，连着坏了好几辆共享单车，花了一个半小时才到。
- 老王决定开车过去，很大可能是20分钟就到了，较小可能是那天堵车很严重，磨磨唧唧花了一个小时才到。
- 这种先确定原因，根据原因来估计结果的概率分布，P(时间∣交通方式=P(x∣w))P(时间|交通方式=P(x|w))P(时间∣交通方式=P(x∣w))，就是似然估计。
- 老王去那个地方好几趟，不管是什么交通方式，得到了一组关于时间的概率分布。
- 这种不考虑原因，只看结果的概率分布，P(时间)=P(x)P(时间)=P(x)P(时间)=P(x)，证据/迹象evidence。
  P(θ∣x)=P(x∣θ)P(θ)P(x)P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)}P(θ∣x)=P(x)P(x∣θ)P(θ)
- xxx：观察得到的数据(结果)
- θ\thetaθ：决定数据分布的参数（原因）
- P(θ∣x)P(\theta|x)P(θ∣x)：后验
- P(θ)P(\theta)P(θ)：先验
- P(x∣θ)P(x|\theta)P(x∣θ)：似然
- P(x)P(x)P(x)：证据/迹象
将上例改成具体数值的例子:
“因”为交通方式www，“果”为所用时间xxx：
1.先验P(w)P(w)P(w)：要去10公里外的某地，老王开车的可能性最大，P(开车)=P(w3)=0.6P(开车)=P(w_3)=0.6P(开车)=P(w3)=0.6，而骑车和走路可能性为P(骑车)=P(w2)=0.3P(骑车)=P(w_2)=0.3P(骑车)=P(w2)=0.3，P(步行)=P(w1)=0.1P(步行)=P(w_1)=0.1P(步行)=P(w1)=0.1。
2.似然P(x∣w)P(x|w)P(x∣w)：
- 开车时，花20分钟比较多，也可能堵到2小时。大家想象一个分布——横轴为时间，从0到120分钟；纵轴为概率，0到1；
- 分布是一条曲线，线下面积为1（总概率为1），20分钟时值为0.5，120分钟时值为0.05。
- 相同的，有两条骑车和步行时的条件概率图，骑车时时间为60分钟的概率最大，为0.4，其他时间概率相应地较小；步行时120分钟的概率最大，为0.5。
3.迹象/证据P(x)P(x)P(x)：老王去过这个地方20次了，所花分钟数分别为：20，30，20，60，90，120，20，60，120，110，40，50，60，70，90，120，110，20，70，9020，30，20，60，90，120，20，60，120，110，40，50，60，70，90，120，110，20，70，9020，30，20，60，90，120，20，60，120，110，40，50，60，70，90，120，110，20，70，90，则可做出时间分布的直方图，不做也行。“20分钟”这个值出现了4次，所以P(x=20)=4/20=0.2P(x=20)=4/20=0.2P(x=20)=4/20=0.2，同样的，P(x=120)=3/20=0.15P(x=120)=3/20=0.15P(x=120)=3/20=0.15。
4.后验P(w∣x)P(w|x)P(w∣x)：
老王告诉妻子，这次去某地花了120分钟。妻子知道老王选交通方式的概率（先验），知道3种交通方式对应的概率分布（似然），知道老王去的20次的时间分布（迹象/证据）。
于是妻子用贝叶斯公式，就能知道花了120分钟的老王，采用的交通方式应该是什么。由P(w∣x)=P(x∣w)P(w)P(x)P(w|x)=\frac{P(x|w)P(w)}{P(x)}P(w∣x)=P(x)P(x∣w)P(w)，有P(步行∣时间=120分钟)=P(120分钟∣步行)P(步行)P(120分钟)P(步行|时间=120分钟)=\frac{P(120分钟|步行)P(步行)}{P(120分钟)}P(步行∣时间=120分钟)=P(120分钟)P(120分钟∣步行)P(步行)。
由数据知，P(步行)=0.1P(步行)=0.1P(步行)=0.1，P(120分钟｜步行)=0.5P(120分钟｜步行)=0.5P(120分钟｜步行)=0.5，P(120分钟)=0.15P(120分钟) = 0.15P(120分钟)=0.15。代入三个数字，求出值为0.333。类似的，可求出P(骑车∣时间=120分钟)=0.002P(骑车|时间=120分钟) =0.002P(骑车∣时间=120分钟)=0.002，P(开车∣时间=120分钟)=0.02P(开车|时间=120分钟) =0.02P(开车∣时间=120分钟)=0.02。
其中步行的概率最大，所以妻子觉得老王最有可能是走着去的。这就是后验啦。这个例子里先验和似然也是经验值提供的，不来自样本，分类属性值也只有“交通方式”一个，没有“路况”、“身体条件”什么的。
总的来说：
- 先验概率可理解为统计概率，后验概率可理解为条件概率。
- 再举个简单的例子：
  - 设定背景：酒至半酣,忽阴云漠漠,骤雨将至。
  - 情景一：
    - “天不会下雨的，历史上这里下雨的概率是20%”，这个就是先验概率
    - “但阴云漠漠时，下雨的概率是80%”，这个就是后验概率
    - 分析：因为下雨导致乌云，下雨是因，乌云是果。
      - P(下雨)P(下雨)P(下雨)就是先验概率（有历史，说明统计过了，多次）
      - P(下雨∣乌云)P(下雨|乌云)P(下雨∣乌云)就是后验概率
      - P(乌云∣下雨)P(乌云|下雨)P(乌云∣下雨)就是似然
      - P(乌云)P(乌云)P(乌云)就是证据/迹象

参考文献

简单理解贝叶斯公式
先验后验似然的解释：作者：Agenter
先验后验似然的解释：作者：徐冬冬

深度学习中需要掌握的数学1之概率统计相关推荐

机器学习与深度学习中的数学知识点汇总
点击上方"AI算法与图像处理",选择加"星标"或"置顶" 重磅干货,每天 8:25 送达来源:SIGAI 在机器学习与深度学习中需要大量使 ...
一文读懂深度学习中的矩阵微积分
点击视学算法标星,更快获取CVML新技术鱼羊编译整理量子位报道 | 公众号 QbitAI 想要真正了解深度神经网络是如何训练的,免不了从矩阵微积分说起. 虽然网络上已经有不少关于多元微积分和线 ...
[人工智能-数学基础-1]：深度学习中的数学地图：计算机、数学、数值计算、数值分析、数值计算、微分、积分、概率、统计.....
作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing 本文网址:https://blog.csdn.net/HiWangWenBing/article ...
深度学习中的数学-线性代数
深度学习中的数学-线性代数 1 矩阵和向量相乘 1.1 标准乘积 1.2 元素对应乘积 2 线性相关和生成子空间 3 特征分解 4 奇异值分解推荐书目参考 1 矩阵和向量相乘 1.1 标准乘积如 ...
机器学习中的数学——深度学习中的优化理论
分类目录:<机器学习中的数学>总目录深度学习算法在许多情况下都涉及优化.例如,模型中的进行推断涉及求解优化问题.我们经常使用解析优化去证明或设计算法.在深度学习涉及的诸多优化问题中,最难 ...
深度学习中的一些英文解释
A: (1)anchors:锚点.(anchors(锚点)定义在RPN网络中) B: (1)bounding box:预测边界框. (2)Botton-up 3D proposal generatio ...
深度学习中的优化算法之MBGD
之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...
深度学习中的优化算法之BGD
之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...
深度学习中的优化算法串讲
Datawhale原创作者:谢文睿,Datawhale成员寄语:优化算法是一个超参数,一个优化算法不是适合所有损失函数的,没有哪个优化算法是绝对的好或绝对的坏,是要根据损失函数判断的本文对深度学 ...

深度学习中需要掌握的数学1之概率统计

深度学习中需要掌握的概率统计

1.常见的概率分布

1.1伯努利分布（二值分布，0-1分布）

1.2二项分布（离散的）

1.3均匀分布

1.4`高斯分布`（连续）

2.独立事件的解释

3.多变量概率分布中基本概念解释

4.贝叶斯公式(逆概公式)

全概率公式

引例

贝叶斯公式的例子

为什么

贝叶斯公式解决了什么问题?

贝叶斯公式有哪些应用

更加简单的理解贝叶斯

举例1

举例2

举例3

极大似然估计

举例

例子1

例子2

计算步骤

先验分布、后验分布、似然估计的联系与区别

参考文献

深度学习中需要掌握的数学1之概率统计相关推荐

最新文章

热门文章

深度学习中需要掌握的数学1之概率统计

深度学习中需要掌握的概率统计

1.常见的概率分布

1.1伯努利分布（二值分布，0-1分布）

1.2二项分布（离散的）

1.3均匀分布

1.4高斯分布（连续）

2.独立事件的解释

3.多变量概率分布中基本概念解释

4.贝叶斯公式(逆概公式)

全概率公式

引例

贝叶斯公式的例子

为什么

贝叶斯公式解决了什么问题?

贝叶斯公式有哪些应用

更加简单的理解贝叶斯

举例1

举例2

举例3

极大似然估计

举例

例子1

例子2

计算步骤

先验分布、后验分布、似然估计的联系与区别

参考文献

深度学习中需要掌握的数学1之概率统计相关推荐

最新文章

热门文章

1.4`高斯分布`（连续）