深度学习中需要掌握的数学1之概率统计
深度学习中需要掌握的概率统计
- 1.常见的概率分布
- 1.1伯努利分布(二值分布,0-1分布)
- 1.2二项分布(离散的)
- 1.3均匀分布
- 1.4`高斯分布`(连续)
- 2.独立事件的解释
- 3.多变量概率分布中基本概念解释
- 4.贝叶斯公式(逆概公式)
- 全概率公式
- 引例
- 贝叶斯公式的例子
- 为什么
- 贝叶斯公式解决了什么问题?
- 贝叶斯公式有哪些应用
- 更加简单的理解贝叶斯
- 举例1
- 举例2
- 举例3
- 极大似然估计
- 举例
- 例子1
- 例子2
- 计算步骤
- 先验分布、后验分布、似然估计的联系与区别
- 参考文献
1.常见的概率分布
- 1.数据类型(也叫随机变量)有2种:离散数据类型(例如抛硬币的结果),连续数据类型(例如时间)
- 2.分布:数据在统计图中的形状
- 3.概率分布就是将数据类型+分布组合起来的一种表现手段:
- 概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率密度
1.1伯努利分布(二值分布,0-1分布)
- 伯努利试验:只可能要两种结果的单次随机实验
- 其概率分布:P(X=1)=p,P(X=0)=1−pP(X=1)=p,P(X=0)=1-pP(X=1)=p,P(X=0)=1−p.
1.2二项分布(离散的)
- 二项分布即重复n次伯努利试验,各试验之间都相互独立
- 如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中事件发生k次的概率为
P(X=k)=Cnkpk(1−p)n−kP(X = k) = C_n^kp^k(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k - 怎么判断判断某事件是二项分布
- 1.
做某件事的次数(也叫试验次数)是固定的,用n表示
,例如抛硬币3次,投资5支股票) - 2.
每一次事件都有两个可能的结果(成功,或者失败)
,例如每一次抛硬币有2个结果:正面表示成功,反面表示失败。每一次投资美股有2个结果:投资成功,投资失败 - 3.
每一次成功的概率都是相等的,成功的概率用p表示
,例如每一次抛硬币正面朝上的概率都是1/2。你投资了5家公司的股票,假设每一家投资盈利成功的概率都相同 - 4.
你感兴趣的是成功x次的概率是多少
,你已经知道了我前面讲的5家美股的赚钱概率最大,所以你买了这5家公司的股票,假设投资的这5家公司成功的概率都相同,那么你关心其中只要有3个投资成功,你就可以赚翻了,所以想知道成功3次的概率 - 根据这4个特点,我们就知道抛硬币是一个典型的二项分布,还有你投资的这5支股票也是一个典型的二项分布(在假设每家公司投资成功的前提下)。
- 1.
- 这个公式就是计算做某件事情n次,成功x次的概率的。
- 期望E(x)=np (表示某事情发生n次,预期成功多少次。)
- 知道这个期望有啥用呢?
- 做任何事情之前,知道预期结果肯定对你后面的决策有帮助。比如你抛硬币5次,每次概率是1/2,那么期望E(x)=5*1/2=2.5次,也就是有大约3次你可以抛出正面。
- 在比如你之前投资的那5支股票,假设每支股票帮你赚到钱的概率是80%,那么期望E(x)=5*80%=4,也就是预期会有4只股票投资成功帮你赚到钱。
1.3均匀分布
- 又称矩形分布,
- 在给定长度间隔[a,b]内的分布概率是等可能的,均匀分布由参数a,b定义,
- 概率密度函数为: p(x)=1b−a,a<x<bp(x) = \frac{1}{b-a}, \quad a < x <b p(x)=b−a1,a<x<b
1.4高斯分布
(连续)
- 又称正态分布(normal),
- 是实数中最常用的分布,由均值μ和标准差σ决定其分布,
- 概率密度函数为: p(x)=12πσe−(x−μ)22σ2p(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}} p(x)=2πσ1e−2σ2(x−μ)2
- 常用来表示独立随机事件发生的时间间隔,参数为λ>0的指数分布概率密度函数为:p(x)=λe−λxx≥0p(x) = \lambda e^{-\lambda x} \quad x \geq 0p(x)=λe−λxx≥0. 指数分布重要特征是无记忆性。
2.独立事件的解释
独立的条件:如A1,A2,A3A_1,A_2,A_3A1,A2,A3
有以下条件:
- 1.P(A1A2)=P(A1)P(A2)P(A_1A_2)=P(A_1)P(A_2)P(A1A2)=P(A1)P(A2)
- 2.P(A1A3)=P(A1)P(A3)P(A_1A_3)=P(A_1)P(A_3)P(A1A3)=P(A1)P(A3)
- 3.P(A2A3)=P(A2)P(A3)P(A_2A_3)=P(A_2)P(A_3)P(A2A3)=P(A2)P(A3)
- 4.P(A1A2A3)=P(A1)P(A2)P(A3)P(A_1A_2A_3)=P(A_1)P(A_2)P(A_3)P(A1A2A3)=P(A1)P(A2)P(A3)
满足1,2,3就是两两独立,全满足就是互相独立
3.多变量概率分布中基本概念解释
条件概率(Conditional probability)
:事件X在事件Y发生的条件下发生的概率,P(X∣Y)P(X|Y)P(X∣Y)。联合概率(Joint probability)
:表示两个事件X和Y共同发生的概率P(X,Y)P(X,Y)P(X,Y)(也可以写成P(XY)P(XY)P(XY))。条件概率和联合概率的性质
:P(Y∣X)=P(Y,X)P(X)P(Y|X) = \frac{P(Y,X)}{P(X)}P(Y∣X)=P(X)P(Y,X), (P(X)>0P(X ) > 0P(X)>0)。推广到 n 个事件,
条件概率的链式法则
: P(X1,X2,…,Xn)=P(X1X2,…,Xn)P(X2X3,X4,…,Xn)…P(Xn−1Xn)P(Xn)\begin{aligned} P(X_{1}, X_{2}, \ldots, X_{n}) &=P(X_{1} X_{2}, \ldots, X_{n}) P(X_{2} X_{3}, X_{4}, \ldots, X_{n}) \ldots P(X_{n-1} X_{n}) P(X_{n})\end{aligned}P(X1,X2,…,Xn)=P(X1X2,…,Xn)P(X2X3,X4,…,Xn)…P(Xn−1Xn)P(Xn)
=P(Xn)∏i=1n−1P(Xi∣Xi+1,…,Xn)\begin{aligned} =P\left(X_{n}\right) \prod_{i=1}^{n-1} P\left(X_{i} \mid X_{i+1}, \ldots, X_{n}\right) \end{aligned} =P(Xn)i=1∏n−1P(Xi∣Xi+1,…,Xn)先验概率(Prior probability)
:根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现。后验概率(Posterior probability)
:指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因”,后验概率是基于新的信息,修正后来的先验概率所获得 的更接近实际情况的概率估计。举例说明
:一口袋里有3只红球、2只白球,采用不放回方式摸取,求: (1) 第一次摸到红球(记作A)的概率; (2) 第二次摸到红球(记作B)的概率; (3) 已知第二次摸到了红球,求第一次摸到的是红球的概率?- 解:
- (1) P(A=1)=3/5P(A=1) = 3/5P(A=1)=3/5, 这就是
先验概率;
- (2) P(B=1)=P(A=1)P(B=1∣A=1)+P(A=0)P(B=1∣A=0)=3524+2534=35P(B=1) = P(A=1) P(B=1|A=1)+ P(A=0)P(B=1|A=0)=\frac{3}{5}\frac{2}{4}+\frac{2}{5}\frac{3}{4} = \frac{3}{5}P(B=1)=P(A=1)P(B=1∣A=1)+P(A=0)P(B=1∣A=0)=5342+5243=53
- (3) P(A=1∣B=1)=P(A=1)P(B=1∣A=1)P(B=1)=12P(A=1|B=1) = \frac{P(A = 1)P(B = 1|A = 1)}{P(B = 1)} = \frac{1}{2}P(A=1∣B=1)=P(B=1)P(A=1)P(B=1∣A=1)=21, 这就是
后验概率
。
- (1) P(A=1)=3/5P(A=1) = 3/5P(A=1)=3/5, 这就是
- 解:
4.贝叶斯公式(逆概公式)
- 生成模型是所有变量的全概率模型
全概率公式
- 设事件Ai{A_i}Ai是样本空间 ΩΩΩ 的一个划分,且P(Ai)>0(i=1,2,...,n)P(A_i)>0(i=1,2,...,n)P(Ai)>0(i=1,2,...,n),那么:P(B)=∑i=1nP(B∣Ai)P(Ai)=∑i=1nP(Ai,B)P(B) = \sum_{i = 1}^nP(B|A_i)P(A_i)=\sum_{i = 1}^nP(A_i,B)P(B)=∑i=1nP(B∣Ai)P(Ai)=∑i=1nP(Ai,B)
- 全概率公式说明了边缘概率与联合概率的关系,而条件概率公式则说明了联合概率与条件概率的关系。
- 全概率公式说明,边缘概率可以由联合概率对另一个随机事件求和(或积分)求得。p(x)=∫zp(x∣z)p(z)dzp(x)=\int_zp(x|z)p(z)dzp(x)=∫zp(x∣z)p(z)dz
引例
- 一个村子,有三个小偷,A1=A_1=A1=小张,A2=A_2=A2=小政,A3=A_3=A3=小英,两两互斥,事件B为村子发生失窃。已知小张去偷东西成功的概率为0,小英去偷东西成功的概率是1/2,小郑去偷东西成功的概率是1。每次只能有一个人去偷窃,求P(B)=P{失窃}P(B)=P\{失窃\}P(B)=P{失窃}
- 分析:
- 分为两个阶段:1,选人;2,偷东西
- 1.选人:每个人被选中打概率都是1/31/31/3,所以P(A1)=P(A2)=P(A3)=1/3P(A_1)=P(A_2)=P(A_3)=1/3P(A1)=P(A2)=P(A3)=1/3
- 2.偷东西:
- 小张去偷:P(B∣A1)=0P(B|A_1)=0P(B∣A1)=0
- 小政去偷:P(B∣A2)=1/2P(B|A_2)=1/2P(B∣A2)=1/2
- 小郑去偷:P(B∣A3)=1P(B|A_3)=1P(B∣A3)=1
- 注意到A1=A_1=A1=,A2=A_2=A2=,A3=A_3=A3=是互斥的,A1∪A2∪A3A_1\cup A_2\cup A_3A1∪A2∪A3和AiAj=∅,i≠jA_iA_j=\varnothing,i \neq jAiAj=∅,i=j,称作
完备事件组
- 由P(AB)=P(A)P(B∣A)P(AB)=P(A)P(B|A)P(AB)=P(A)P(B∣A)得:
P(B)=P(BS)=P(B∩(A1∪A2∪A3))P(B)=P(BS)=P(B\cap(A_1\cup A_2\cup A_3))P(B)=P(BS)=P(B∩(A1∪A2∪A3))
=P(BA1∪BA2∪BA3)=P(BA1)+P(BA2)+P(BA3)=P(BA_1 \cup BA_2 \cup BA_3)=P(BA_1)+P(BA_2)+P(BA_3)=P(BA1∪BA2∪BA3)=P(BA1)+P(BA2)+P(BA3)
=P(A1)P(B∣A1)+P(A2)P(B∣A2)+P(A3)P(B∣A3)=1/2=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)=1/2=P(A1)P(B∣A1)+P(A2)P(B∣A2)+P(A3)P(B∣A3)=1/2- 即P(B)=∑i=1nP(Ai)P(B∣Ai)P(B)=\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)P(B)=i=1∑nP(Ai)P(B∣Ai)
- 上面这个就是
全概率公式
- 分为两个阶段:1,选人;2,偷东西
全概率公式给我们提供了计算后验概率的途径
,即贝叶斯公式
P(AiB)=P(BdAi)P(Ai)P(B)=P(BAi)P(Ai)∑j=1nP(Aj)P(BAj)P(\mathrm{A}_{i} \mathrm{B})=\frac{P(\mathrm{B} d \mathrm{A}{i}) P(\mathrm{~A}{i})}{P(\mathrm{B})}=\frac{P(\mathrm{B} \mathrm{A}{i}) P(\mathrm{~A}{i})}{\sum_{j=1}^{n} P(\mathrm{A}_{j}) P(\mathrm{B} \mathrm{A}_{j})} P(AiB)=P(B)P(BdAi)P( Ai)=∑j=1nP(Aj)P(BAj)P(BAi)P( Ai)
贝叶斯公式的例子
- 某一天,村子一个人大喊:失窃啦!!!然后警察来了。一共有3个嫌疑人:A1A_1A1小张,A2A_2A2小英,A3A_3A3小郑。警局已经对他们的偷窃能力有备案:小张去偷东西成功的概率为0,小英去偷东西成功的概率是1/2,小郑去偷东西成功的概率是1。试问:这三人中,与这次失窃案件有关的概率是多少。
- 分析:
- 这个问题和引例有一点不同,引例是已知3人的偷窃能力,求村子失窃的概率。而这个问题是已知3人的偷窃能力,和村子失窃的概率,求每个人去偷窃的概率。这就是所谓的逆事件概率,贝叶斯公式需要解决的问题。
- 先验:三个人去偷窃的概率都是一样的(这是我们的主观感受)
- P(A1)=P(A2)=P(A3)=1/3P(A_1)=P(A_2)=P(A_3)=1/3P(A1)=P(A2)=P(A3)=1/3
- P(B)=1/2P(B)=1/2P(B)=1/2
- P(B∣A1)=0P(B|A_1)=0P(B∣A1)=0
- P(B∣A2)=1/2P(B|A_2)=1/2P(B∣A2)=1/2
- P(B∣A3)=1P(B|A_3)=1P(B∣A3)=1
- 要求的是,在失窃发生时,是他们三个人的概率是多少,即求P(A1∣B)P(A_1|B)P(A1∣B)、P(A2∣B)P(A_2|B)P(A2∣B)、P(A3∣B)P(A_3|B)P(A3∣B)
- P(A1∣B)=P(A1B)P(B)=P(A1)P(B∣A1)∑i=1nP(Ai)P(B∣Ai)=0P(A_1|B)=\frac{P(A_1B)}{P(B)}=\frac{P(A_1)P(B|A_1)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=0P(A1∣B)=P(B)P(A1B)=i=1∑nP(Ai)P(B∣Ai)P(A1)P(B∣A1)=0
- P(A2∣B)=P(A2B)P(B)=P(A2)P(B∣A2)∑i=1nP(Ai)P(B∣Ai)=1/3P(A_2|B)=\frac{P(A_2B)}{P(B)}=\frac{P(A_2)P(B|A_2)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=1/3P(A2∣B)=P(B)P(A2B)=i=1∑nP(Ai)P(B∣Ai)P(A2)P(B∣A2)=1/3
- P(A3∣B)=P(A3B)P(B)=P(A3)P(B∣A3)∑i=1nP(Ai)P(B∣Ai)=2/3P(A_3|B)=\frac{P(A_3B)}{P(B)}=\frac{P(A_3)P(B|A_3)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=2/3P(A3∣B)=P(B)P(A3B)=i=1∑nP(Ai)P(B∣Ai)P(A3)P(B∣A3)=2/3
- 分析:
- P(Ai)P(A_i)P(Ai)就是所谓的
先验概率
,而P(B∣AI)P(B|A_I)P(B∣AI)就是后验概率
为什么
- 在失窃发生之前,我们认为333个人去偷窃的概率都是1/31/31/3。
- 但是失窃发生后,由于每个人的偷窃能力不同,我们预判谁去偷窃的概率就会发生变化。
- 这个例子中,先验概率P(Ai)=1/3P(A_i)=1/3P(Ai)=1/3。
先验概率
往往都是我们的主观映像
:在失窃发送之前,我们认为所有人去偷窃的概率都是一样的。 - 而后验概率是什么呢?因为每个人偷窃的成功率不同,所以偷窃发生后,到底谁去偷窃的概率也就发生了变化。所以后验概率就是一个调整因子,当一件事件发生后,对原事件发生的概率产生了影响。
贝叶斯公式解决了什么问题?
- 贝叶斯解决的是逆向概率的问题。什么叫逆向概率呢?
- 比如在村子失窃的例子中,
正向概率
就是:已知每个人的偷窃能力,求村子失窃的概率。 - 而
逆向概率
就是:已知村子失窃的概率和每个人的偷窃能力,偷窃事件发生了,然后求每个人与这起偷窃案件相关的概率。
- 比如在村子失窃的例子中,
贝叶斯公式有哪些应用
- 贝叶斯公式真正被应用起来,是在其发表一百多年后了。为什么一开始贝叶斯公式不背重视呢?因为加入了先验概率,而先验概率是我们的主观映像,传统的概率学认为,概率统计是不能被主观引导的,这就导致了贝叶斯公式不被重视。
后来,人们逐渐发现了贝叶斯公式大有用处,并且将其广泛应用与天气预报,垃圾邮件处理等一系列的问题之中。贝叶斯公式也是机器学习中及其重要的模型。
更加简单的理解贝叶斯
举例1
- 这里有A,B两个箱子有大小形状和数量都一样的球,A箱子1/3是白球,2/3是黑球。B箱子全部是黑球,我们蒙着眼睛,伸手从箱子取球:由于球的大小形状和数量都一样,所以我们认为取的球来自A箱和B箱的概率都是1/2。但是我摸出来以后,我瞄了一眼,发现:这是白球。然后我就断定:这个球一定来自A箱子。摸出来的球来自A箱的概率由1/2变成了1。这是为什么呢?就是因为有后验概率是不一样的,摸出来球的颜色会对一开始的概率产生影响。
- 我们用贝叶斯公式来计算一下:
- 我们定义:
P(A)=P(取出的球来自A箱子)P(A)=P({取出的球来自A箱子})P(A)=P(取出的球来自A箱子),P(B)=P(取出的球来自B箱子)P(B)=P({取出的球来自B箱子})P(B)=P(取出的球来自B箱子),P(C)=P(取出的球是白色)P(C)=P({取出的球是白色})P(C)=P(取出的球是白色) - 已知P(A)=1/2,P(B)=1/2,P(C)=1/6,P(C∣A)=1/3,P(C∣B)=0P(A)=1/2,P(B)=1/2,P(C)=1/6,P(C|A)=1/3,P(C|B)=0P(A)=1/2,P(B)=1/2,P(C)=1/6,P(C∣A)=1/3,P(C∣B)=0
- 由贝叶斯公式得:
p(A∣C)=P(C∣A)P(A)P(C)=1p(A|C)=\frac{P(C|A)P(A)}{P(C)}=1p(A∣C)=P(C)P(C∣A)P(A)=1
p(B∣C)=P(C∣B)P(B)P(C)=0p(B|C)=\frac{P(C|B)P(B)}{P(C)}=0p(B∣C)=P(C)P(C∣B)P(B)=0 - 可见:摸出来的球来自A箱的概率从1/2变成了1,这是因为后验概率对原概率发生了影响。
举例2
- 已知:在夏季,某公园男性穿凉鞋的概率为1/21/21/2,女性穿凉鞋的概率为2/32/32/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?
- 设AAA=男性,BBB=女性,xxx=穿凉鞋
- 问题要求的是若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率,也就是问在穿凉鞋的条件下,性别是男或者女,即P(A∣x)P(A|x)P(A∣x)和P(B∣x)P(B|x)P(B∣x)
- 由题干可知:
- 先验概率:
- 公园里遇到的人是男性的概率P(A)=2/3P(A)=2/3P(A)=2/3
- 公园里遇到的人是女性的概率P(B)=2/3P(B)=2/3P(B)=2/3
- 类条件概率:
- 男性穿凉鞋的概率P(x∣A)=1/2P(x|A)=1/2P(x∣A)=1/2
- 女性穿凉鞋的概率P(x∣B)=2/3P(x|B)=2/3P(x∣B)=2/3
- 公园穿凉鞋的概率:
- P(x)=P(A)P(x∣A)+P(B)P(x∣B)P(x)=P(A)P(x|A)+P(B)P(x|B)P(x)=P(A)P(x∣A)+P(B)P(x∣B)
- 题目求解:
- P(A∣x)=P(A,x)P(x)=P(x∣A)P(A)P(x)=3/5P(A|x)=\frac{P(A,x)}{P(x)}=\frac{P(x|A)P(A)}{P(x)}=3/5P(A∣x)=P(x)P(A,x)=P(x)P(x∣A)P(A)=3/5
- P(B∣x)=P(B,x)P(x)=P(x∣B)P(B)P(x)=2/5P(B|x)=\frac{P(B,x)}{P(x)}=\frac{P(x|B)P(B)}{P(x)}=2/5P(B∣x)=P(x)P(B,x)=P(x)P(x∣B)P(B)=2/5
- 先验概率:
举例3
设有甲和乙两名运动员,甲命中射击的概率为0.6,乙的威0.5,求下列概率:1.从甲乙中任选一个人去射击,若目标命中,则是甲命中的概率是多少2.甲乙各自独立射击,若目标命中,则是甲命中的概率是多少
1.分阶段:(1)选人:A甲,A乙A_甲,A_乙A甲,A乙.(2)射击:命中=BBB
p(A甲∣B)=P(A甲B)P(B)=P(A甲)P(B∣A甲)P(B)p(A_甲|B)=\frac{P(A_甲B)}{P(B)}=\frac{P(A_甲)P(B|A_甲)}{P(B)}p(A甲∣B)=P(B)P(A甲B)=P(B)P(A甲)P(B∣A甲)=P(A甲)P(B∣A甲)P(A甲)P(B∣A甲)+P(A乙)P(B∣A乙)=\frac{P(A_甲)P(B|A_甲)}{P(A_甲)P(B|A_甲)+P(A_乙)P(B|A_乙)}=P(A甲)P(B∣A甲)+P(A乙)P(B∣A乙)P(A甲)P(B∣A甲)=12∗0.612∗0.6+12∗0.5=611=\frac{\frac{1}{2}*0.6}{\frac{1}{2}*0.6+\frac{1}{2}*0.5}=\frac{6}{11}=21∗0.6+21∗0.521∗0.6=116
- 2.不分阶段
A甲=A_甲=A甲={甲命中}
A乙=A_乙=A乙={乙命中}
B=B=B={目标被命中}
B=A甲∪A乙B=A_甲 \cup A_乙B=A甲∪A乙 甲或者乙命中
p(A甲∣B)=P(A甲B)P(B)=P(A甲)P(A甲)+P(A乙)−P(A甲A乙)p(A_甲|B)=\frac{P(A_甲B)}{P(B)}=\frac{P(A_甲)}{P(A_甲)+P(A_乙)-P(A_甲A_乙)}p(A甲∣B)=P(B)P(A甲B)=P(A甲)+P(A乙)−P(A甲A乙)P(A甲)
极大似然估计
- 离散型和连续性,即L(θ)={∏i=1np(Xi,θ)∏i=1nf(Xi,θ)L(\theta)=\begin{cases}\prod\limits_{i=1}^n p(X_i,\theta)\\\prod\limits_{i=1}^n f(X_i,\theta)\end{cases}L(θ)=⎩⎪⎨⎪⎧i=1∏np(Xi,θ)i=1∏nf(Xi,θ),当θ\thetaθ取多少时,概率最大
- 只是一种概率论在统计学的应用,它是参数估计的方法之一
举例
例子1
- 运动员射箭,运动员分1和2级运动员,射箭成绩为(10,9,10,10)(10,9,10,10)(10,9,10,10),所以我们可以推测这个是1级运动员,换句话说,在他为1级运动员时,射出(10,9,10,10)(10,9,10,10)(10,9,10,10)的成绩的概率最大,即p(10,9,10,10∣1)=maxp(10,9,10,10 | 1)=\maxp(10,9,10,10∣1)=max,就是参数为多少时,观测值出现的概率最大,p(10,9,10,10∣?)=maxp(10,9,10,10 | ?)=\maxp(10,9,10,10∣?)=max,???处就是我们要算的θ\thetaθ.
例子2
- 比如,如果其他条件一定的话,抽烟者发生肺癌的危险时不抽烟者的5倍,那么如果现在我已经知道有个人是肺癌,我想问你这个人抽烟还是不抽烟。你怎么判断?你可能对这个人一无所知,你所知道的只有一件事,那就是抽烟更容易发生肺癌,那么你会猜测这个人不抽烟吗?我相信你更有可能会说,这个人抽烟。为什么?这就是“最大可能”,我只能说他“最有可能”是抽烟的,“他是抽烟的”这一估计值才是“最有可能”得到“肺癌”这样的结果。这就是最大似然估计。
计算步骤
- 一般取对数,令dlogL(θ)dθ=0\frac{d\log L(\theta)}{d\theta}=0dθdlogL(θ)=0,得出θ^\hat\thetaθ^,此处log\loglog就是ln\lnln
- 取对数为什么可以求出θ^\hat\thetaθ^,是因为对数函数严格单调增;也可以不取对数,直接求导;
- 如果L(θ)L(\theta)L(θ)关于θ\thetaθ单调,直接定义法,取两端,一般是样本的max\maxmax或者minminmin。Notice:对于连续性的,要根据分布函数先求出概率密度,XXX ~ F(x,θ)F(x,\theta)F(x,θ)求导得XXX ~ f(x,θ)f(x,\theta)f(x,θ)
先验分布、后验分布、似然估计的联系与区别
这几个概念可以用
原因的可能性
和结果的可能性
的先后顺序
及条件关系
来理解。下面举例:
- 隔壁老王要去10公里外的一个地方办事,他可以选择
走路
,骑自行车
或者开车
,并花费了一定时间
到达目的地。 - 在这个事件中,可以把
交通方式
(记为www)(走路w1w_1w1、骑车w2w_2w2或开车w3w_3w3)认为是原因
,花费的时间
(记为xxx)认为是结果
。
- 隔壁老王要去10公里外的一个地方办事,他可以选择
- 若老王花了一个小时的时间完成了10公里的距离,那么很大可能是骑车过去的,当然也有较小可能老王是个健身达人跑步过去的,或者开车过去但是堵车很严重。
- 若老王一共用了两个小时的时间完成了10公里的距离,那么很有可能他是走路过去的。
- 若老王只用了二十分钟,那么很有可能是开车。
这种先知道结果,然后由结果估计原因的概率分布
,P(交通方式∣时间)=P(w∣x)P(交通方式|时间)=P(w|x)P(交通方式∣时间)=P(w∣x),就是后验概率
。
- 老王早上起床的时候觉得精神不错,想锻炼下身体,决定跑步过去;
- 也可能老王想做个文艺青年试试最近流行的共享单车,决定骑车过去;
- 也可能老王想炫个富,决定开车过去。
- 老王的选择与到达目的地的时间无关。
先于结果,确定原因的概率分布
,p(交通方式)=P(w)p(交通方式)=P(w)p(交通方式)=P(w),就是先验概率
。
- 老王决定步行过去,那么很大可能10公里的距离大约需要两个小时;较小可能是老王平时坚持锻炼,跑步过去用了一个小时;更小可能是老王是个猛人,40分钟就到了。
- 老王决定骑车过去,很可能一个小时就能到;较小可能是老王那天精神不错加上单双号限行交通很通畅,40分钟就到了;还有一种较小可能是老王运气很差,连着坏了好几辆共享单车,花了一个半小时才到。
- 老王决定开车过去,很大可能是20分钟就到了,较小可能是那天堵车很严重,磨磨唧唧花了一个小时才到。
这种先确定原因,根据原因来估计结果的概率分布
,P(时间∣交通方式=P(x∣w))P(时间|交通方式=P(x|w))P(时间∣交通方式=P(x∣w)),就是似然估计
。- 老王去那个地方好几趟,不管是什么交通方式,得到了一组关于时间的概率分布。
这种不考虑原因,只看结果的概率分布
,P(时间)=P(x)P(时间)=P(x)P(时间)=P(x),证据/迹象evidence
。
P(θ∣x)=P(x∣θ)P(θ)P(x)P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)}P(θ∣x)=P(x)P(x∣θ)P(θ)- xxx:观察得到的数据(结果)
- θ\thetaθ:决定数据分布的参数(原因)
- P(θ∣x)P(\theta|x)P(θ∣x):后验
- P(θ)P(\theta)P(θ):先验
- P(x∣θ)P(x|\theta)P(x∣θ):似然
- P(x)P(x)P(x):证据/迹象
将上例改成具体数值的例子:
“因”
为交通方式www,“果”
为所用时间xxx:1.
先验
P(w)P(w)P(w):要去10公里外的某地,老王开车的可能性最大,P(开车)=P(w3)=0.6P(开车)=P(w_3)=0.6P(开车)=P(w3)=0.6,而骑车和走路可能性为P(骑车)=P(w2)=0.3P(骑车)=P(w_2)=0.3P(骑车)=P(w2)=0.3,P(步行)=P(w1)=0.1P(步行)=P(w_1)=0.1P(步行)=P(w1)=0.1。2.
似然
P(x∣w)P(x|w)P(x∣w):- 开车时,花20分钟比较多,也可能堵到2小时。大家想象一个分布——
横轴为时间,从0到120分钟;纵轴为概率,0到1
; - 分布是一条曲线,线下面积为1(总概率为1),20分钟时值为0.5,120分钟时值为0.05。
- 相同的,有两条骑车和步行时的条件概率图,骑车时时间为60分钟的概率最大,为0.4,其他时间概率相应地较小;步行时120分钟的概率最大,为0.5。
- 开车时,花20分钟比较多,也可能堵到2小时。大家想象一个分布——
3.
迹象/证据
P(x)P(x)P(x):老王去过这个地方20次了,所花分钟数分别为:20,30,20,60,90,120,20,60,120,110,40,50,60,70,90,120,110,20,70,9020,30,20,60,90,120,20,60,120,110,40,50,60,70,90,120,110,20,70,9020,30,20,60,90,120,20,60,120,110,40,50,60,70,90,120,110,20,70,90,则可做出时间分布的直方图,不做也行。“20分钟”这个值出现了4次,所以P(x=20)=4/20=0.2P(x=20)=4/20=0.2P(x=20)=4/20=0.2,同样的,P(x=120)=3/20=0.15P(x=120)=3/20=0.15P(x=120)=3/20=0.15。4.
后验
P(w∣x)P(w|x)P(w∣x):老王告诉妻子,这次
去某地花了120分钟
。妻子知道老王选交通方式的概率(先验)
,知道3种交通方式对应的概率分布(似然)
,知道老王去的20次的时间分布(迹象/证据)
。于是妻子用
贝叶斯公式
,就能知道花了120分钟的老王,采用的交通方式应该是什么。由P(w∣x)=P(x∣w)P(w)P(x)P(w|x)=\frac{P(x|w)P(w)}{P(x)}P(w∣x)=P(x)P(x∣w)P(w),有P(步行∣时间=120分钟)=P(120分钟∣步行)P(步行)P(120分钟)P(步行|时间=120分钟)=\frac{P(120分钟|步行)P(步行)}{P(120分钟)}P(步行∣时间=120分钟)=P(120分钟)P(120分钟∣步行)P(步行)。由数据知,P(步行)=0.1P(步行)=0.1P(步行)=0.1,P(120分钟|步行)=0.5P(120分钟|步行)=0.5P(120分钟|步行)=0.5,P(120分钟)=0.15P(120分钟) = 0.15P(120分钟)=0.15。代入三个数字,求出值为0.333。类似的,可求出P(骑车∣时间=120分钟)=0.002P(骑车|时间=120分钟) =0.002P(骑车∣时间=120分钟)=0.002,P(开车∣时间=120分钟)=0.02P(开车|时间=120分钟) =0.02P(开车∣时间=120分钟)=0.02。
其中步行的概率最大,所以妻子觉得老王最有可能是走着去的。这就是后验啦。这个例子里先验和似然也是经验值提供的,不来自样本,分类属性值也只有“交通方式”一个,没有“路况”、“身体条件”什么的。
总的来说:
先验概率可理解为统计概率,后验概率可理解为条件概率
。- 再举个简单的例子:
- 设定背景:酒至半酣,忽阴云漠漠,骤雨将至。
- 情景一:
- “天不会下雨的,历史上这里下雨的概率是20%”,这个就是先验概率
- “但阴云漠漠时,下雨的概率是80%”,这个就是后验概率
- 分析:因为下雨导致乌云,下雨是因,乌云是果。
- P(下雨)P(下雨)P(下雨)就是先验概率(有历史,说明统计过了,多次)
- P(下雨∣乌云)P(下雨|乌云)P(下雨∣乌云)就是后验概率
- P(乌云∣下雨)P(乌云|下雨)P(乌云∣下雨)就是似然
- P(乌云)P(乌云)P(乌云)就是证据/迹象
参考文献
简单理解贝叶斯公式
先验后验似然的解释:作者:Agenter
先验后验似然的解释:作者:徐冬冬
深度学习中需要掌握的数学1之概率统计相关推荐
- 机器学习与深度学习中的数学知识点汇总
点击上方"AI算法与图像处理",选择加"星标"或"置顶" 重磅干货,每天 8:25 送达 来源:SIGAI 在机器学习与深度学习中需要大量使 ...
- 一文读懂深度学习中的矩阵微积分
点击视学算法标星,更快获取CVML新技术 鱼羊 编译整理 量子位 报道 | 公众号 QbitAI 想要真正了解深度神经网络是如何训练的,免不了从矩阵微积分说起. 虽然网络上已经有不少关于多元微积分和线 ...
- [人工智能-数学基础-1]:深度学习中的数学地图:计算机、数学、数值计算、数值分析、数值计算、微分、积分、概率、统计.....
作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing 本文网址:https://blog.csdn.net/HiWangWenBing/article ...
- 深度学习中的数学-线性代数
深度学习中的数学-线性代数 1 矩阵和向量相乘 1.1 标准乘积 1.2 元素对应乘积 2 线性相关和生成子空间 3 特征分解 4 奇异值分解 推荐书目 参考 1 矩阵和向量相乘 1.1 标准乘积 如 ...
- 机器学习中的数学——深度学习中的优化理论
分类目录:<机器学习中的数学>总目录 深度学习算法在许多情况下都涉及优化.例如,模型中的进行推断涉及求解优化问题.我们经常使用解析优化去证明或设计算法.在深度学习涉及的诸多优化问题中,最难 ...
- 深度学习中的一些英文解释
A: (1)anchors:锚点.(anchors(锚点)定义在RPN网络中) B: (1)bounding box:预测边界框. (2)Botton-up 3D proposal generatio ...
- 深度学习中的优化算法之MBGD
之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...
- 深度学习中的优化算法之BGD
之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...
- 深度学习中的优化算法串讲
Datawhale原创 作者:谢文睿,Datawhale成员 寄语:优化算法是一个超参数,一个优化算法不是适合所有损失函数的,没有哪个优化算法是绝对的好或绝对的坏,是要根据损失函数判断的 本文对深度学 ...
最新文章
- Python学习教程(Python学习视频_Python学些路线):Day05 总结和练习
- 算法---------至少有K个重复字符的最长子串(Java版本)
- [整理I]精选微软等公司数据结构+算法面试100题 [第1-40题]
- 图像降噪算法——图像噪声模型
- 实验:PIO外部中断
- 新浪2017校园招聘---C++后台研发
- 内核中自带的内存调试方法CONFIG_DEBUG_SLAB
- 使用新浪微博开发者平台的第一步---注册
- windows系统自带工具dxdiag查看电脑信息
- java的time_Java TimeUnit使用
- 世界杯海信再出圈,三星:“谈不上愉悦”
- 软件项目管理_作业1
- hive sql 向上取整、向下取整、保留小数位的函数
- 计算机的正确配置文件,Windows10如何正确配置显示器颜色配置文件?
- 图像分割常见Loss
- vue 解决: target is not existed: .page-component__scroll .el-scrollbar__wrap“问题
- Angular 组件类测试
- C++信号量实现线程间同步,windows使用SetEvent,linux使用sem_t,QT测试
- 魔兽世界出错排查以及解决方案
- window的dos命令学习笔记 七
热门文章
- Linux常用命令实训题,初入Linux,M35作业第二弹,课后实验练习常用命令,牛刀小试...
- 对抗网易相册不能贴图(解决)
- 在表格中展示订单的倒计时定时器,用一个定时器显示多个倒计时
- 软件制作 asp.net sqlserver access
- 记一次攻防演练之vcenter后渗透利用
- web期末大作业 使用HTML+CSS制作蓝色版爱宠之家带留言板(5页)
- React(7)—— SPA应用 - React路由机制 - react-router-dom
- 超详细的MySQL入门教程(五)
- simulink中 Bernoulli binary generator(贝努力二进制产生器)各个参数
- 常用英文单词的标准缩写