qq:2781993753@qq.com

  1. 介绍

概率论不过是简化为计算的常识。-皮埃尔·拉普拉斯,1812年。

在前一章中,我们看到了概率在机器学习中如何发挥有用的作用。在本章中,我们将更详细地讨论概率论。我们不需要太多的篇幅来深入讨论细节——为此,您最好查阅一些关于这一主题的优秀教科书,例如(Jaynes 2003;Bertsekas and Tsitsiklis 2008;Wasserman 2004)。但我们将在后面的章节中简要回顾您需要的许多关键思想。

在我们开始更多的技术性材料之前,让我们停下来问:什么是概率?我们都熟悉这样一句话:“硬币正面落地的概率是0.5”。但这是什么意思?实际上,对概率至少有两种不同的解释。一种被称为频率学派解释。在这种观点中,概率代表事件的长期频率。例如,上面的陈述意味着,如果我们多次抛硬币,我们期望经常正面落地。

另一种解释称为概率贝叶斯解释。在这种观点中,概率被用来量化我们对某事的不确定性,因此它基本上与信息有关,而不是重复试验(Jaynes 2003)。在贝叶斯观点中,上述说法意味着我们相信硬币在下一次掷硬币时同样可能正面或反面着地。

贝叶斯解释的一大优点是,它可以用来模拟我们对不具有长期频率的事件的不确定性。例如,我们可能想计算到2020年北极冰盖融化的概率。此事件将发生零次或一次,但不能重复发生。然而,我们应该能够量化我们对这一事件的不确定性,基于我们认为这一事件的可能性,我们将(希望)采取适当的行动(关于不确定性下的最优决策的讨论,见第5.7节)。为了给出更多面向机器学习的例子,我们可能已经收到了一个特定的电子邮件,并希望计算它是垃圾邮件的概率,或者我们可以在我们的雷达屏幕上观察到一个“光点”,并想计算相应目标(无论是鸟、飞机还是导弹)位置上的概率分布。

在所有这些情况下,重复试验的想法是没有意义的,但贝叶斯解释是有效的,确实是相当自然的。因此,我们将采用本书中的贝叶斯解释。幸运的是,无论采用哪种解释,概率论的基本规则都是一样的。

图1 (a)在{1,2,3,4}上的均匀分布,p(x=k)=1/4。(b)退化分布p(x)=1如果x=1,p(x)=0如果x∈{2,3,4}

1.2 概率论简述

这一节是对概率论基础知识的一个非常简短的回顾,对于那些“生疏”的读者来说,它仅仅是一个提神剂。已经熟悉这些基本知识的读者可以安全地跳过本节。

1.2.1 离散随机变量

表达式p(A)表示事件a为真的概率。例如,A可能是逻辑表达式“明天会下雨”。我们要求0≤p(A)≤1,其中p(A)=0表示事件肯定不会发生,p(A)=1表示事件肯定会发生。我们写来表示事件不是A的概率,这被定义为。我们经常写A=1表示事件A为真,A=0表示事件A为假。

我们可以通过定义一个离散随机变量x来扩展二元事件的概念,它可以取有限或可数无限集合x的任意值,我们用p(X=x)来表示X=x事件的概率,或者简称p(x)。这里p()被称为概率质量函数或pmf。这满足性质0≤p(x)≤1和。图2.1显示了在有限状态空间x={1,2,3,4,5}上定义的两个pmf。左边是均匀分布,p(x)=1/5,右边是退化分布,p(x)=I(x=1),其中i()是二进制指示符函数。这个分布表示x总是等于值1,换句话说,它是一个常数。

1.2.2 基本规则

在本节中,我们将回顾概率的基本规则

1.2.2.1 两事件并的概率

给定两个事件a和b,我们定义a或b的概率如下:

p(A B) = p(A) + p(B) p(A B)

= p(A) + p(B) if A and B are mutually exclusive

1.2.2.2 联合概率

我们定义联合事件a和b的概率如下

p(A,B) = p(A B) = p(A|B)p(B)

这有时称为乘积规则。 给定两个事件p(A,B)的联合分布,我们定义边缘分布如下:

在这里我们对b的所有可能状态求和,我们可以用类似的方法定义p(b)。这有时被称为加法定律或全概率可以多次应用乘积规则来得出概率链规则

p(X1:D) = p(X1)p(X2|X1)p(X3|X2,X1)p(X4|X1,X2,X3) . . . p(XD|X1:D1)

在这里我们引入类似于Matlab的符号1:d来表示集合{1,2,…,d}。

1.2.2.3  条件概率

假设事件b为真,我们定义事件a的条件概率如下:

1.2.3 贝叶斯规则

将条件概率的定义与乘积和规则相结合,产生了贝叶斯规则,也称为贝叶斯定理

1.2.3.1 示例:医疗诊断

作为如何使用此规则的示例,请考虑以下医疗诊断问题。假设你是一个40多岁的女人,你决定做一个乳腺癌的医学检查,叫做乳房X光检查。如果检测呈阳性,你患癌症的概率是多少?这显然取决于测试的可靠性。假设你被告知测试的敏感性为80%,这意味着,如果你得了癌症,测试的阳性概率为0.8。换句话说

p(x = 1|y = 1) = 0.8

其中x=1表示乳腺X光检查呈阳性,y=1表示乳腺癌。许多人认为他们有80%可能患癌症。但这是错误的! 它忽略了患乳腺癌的先验概率,幸运的是,这一概率非常低。

p(y = 1) = 0.004

忽略这一先验被称为基率谬误。我们还需要考虑到这一事实,即测试可能是假阳性或假警报。不幸的是,这种假阳性很有可能(用目前的筛查技术):

p(x = 1|y = 0) = 0.1

使用贝叶斯规则将这三个术语结合起来,我们可以如下计算正确答案

其中p(y = 0)= 1-p(y = 1)= 0.996。 换句话说,如果您测试呈阳性,那么您实际患乳腺癌的几率只有3%!

  1. 2.3.2 示例:生成分类器

我们可以概括医学诊断示例,以对任意类型的特征向量x进行如下分类:

这被称为生成分类器,因为它指定如何使用分类条件密度p(x | y = c)和先验分类p(y = c)生成数据,我们将在第3章和第4章中详细讨论此类模型。另一种方法是直接拟合后验类p(y = c | x)。而后一种方法是直接拟合类,这被称为判别式分类器。我们将在第8.6节中讨论两种方法的优缺点。

1.2.4  独立与条件独立

图2.1 计算p(x,y)= p(x)p(y),其中X⊥Y。 这里X和Y是离散的随机变量; X具有6个可能的状态(值),Y具有5个可能的状态。 两个这样的变量的一般联合分布将需要(6×5)-1 = 29个参数来定义(由于总和一的限制,我们减去1)。 通过假设(无条件)独立性,我们只需要(6 − 1)+(5 − 1)= 9个参数即可定义p(x,y)。

如果我们可以将结合表示为两个边缘的乘积(见图2.2),则我们说X和Y是无条件独立或边际独立的,表示为X⊥Y。

X ⊥ Y ⇐⇒ p(X, Y ) = p(X)p(Y )

通常,如果结合可以写为边缘的乘积,则我们说一组变量是相互独立的。

不幸的是,无条件的独立性是很少见的,因为大多数变量可以影响大多数其他变量。然而,通常这种影响是通过其他变量而不是直接的。因此,给定Z,我们说x和y是条件独立的(ci),前提是条件连接可以写成条件边缘的乘积。

当我们在第10章中讨论图形模型时,我们将看到我们可以把这个假设写成一个图形X-Z-Y,它捕捉到了一个直觉,即X和Y之间的所有依赖关系都是通过Z介导的。例如,如果知道今天是否下雨(事件Z),则明天(事件X)下雨的概率与今天地面是否潮湿(事件Y)无关。直觉上,这是因为Z“导致”了X和Y,所以如果我们知道Z,我们不需要知道y就可以预测x,反之亦然。我们将在第十章中进一步阐述这一概念。

ci的另一个特征是:

定理2.2.1。x y z如果存在函数g和h,则

p(x, y|z) = g(x, z)h(y, z)

对于所有的x,y,z使得p(z)>0。

证明见练习2.8

CI假设使我们能够从小块构建大型概率模型。 在整本书中,我们将看到许多示例。 特别是在3.5节中,我们讨论了朴素的贝叶斯分类器,在17.2节中,我们讨论了马尔可夫模型,在10章中,我们讨论了图形模型; 所有这些模型都大量利用CI属性。

  1. 2.5 连续随机变量

到目前为止,我们只考虑了不确定离散量的推理。我们现在将展示(以下(jaynes 2003,p107))如何将概率扩展到不确定连续量的推理。

假设X是某个不确定的连续量。 X位于a≤X≤b的任何间隔中的概率可以如下计算。 定义事件A =(X≤a),B =(X≤b)和W =(a <X≤b)。 我们有B = A∨W,并且由于A和W是互斥的,所以求和规则为

p(B) = p(A) + p(W)

因此

p(W) = p(B) p(A)

定义函数。这被称为x的累积分布函数或cdf。这显然是单调递增函数。示例见图2.3(a)。用这个符号我们有

p(a < X b) = F(b) F(a)

现在定义(我们假设这个导数存在);这称为概率密度函数或pdf。示例见图2.3(b)。给定pdf,我们可以计算连续变量在有限区间内的概率,如下所示:

当间隔变小时,我们可以写

P(x ≤ X ≤ x + dx) ≈ p(x)dx

我们要求p(x)≥0,但对于任何给定的x,p(x)>1是可能的,只要密度积分为1。例如,考虑均匀分布unif(a,b)

如果我们设置a=0和b=1/2,对于任意x∈[0,1/2],我们有p(x)=2

图2.3(a)标准法线N(0,1)的cdf图。 (b)对应的pdf。 每个阴影区域包含概率质量的α/ 2。 因此,非阴影区域包含1-α的概率质量。 如果分布是高斯N(0,1),则最左边的截止点是,其中Φ是高斯的cdf。 通过对称,最右边的截止点是。 如果α= 0.05,则中心间隔为95%,左边界为-1.96,右边界为1.96。

  1. 2.6 分位数

由于累计分布函数F是单调递增函数,它有一个逆函数;让我们用来表示它。如果F是X的累计分布函数,则的值,使得,这称为F的分位数。是分布的中值,一半概率质量在左边,一半概率质量在右边。值是下四分位数和上四分位数。

我们也可以使用逆分布函数来计算尾区概率。例如,如果是高斯分布的分布函数,则指向的左侧包含概率质量,如图2.3(b)所示。根据对称性,在右侧的点也包含质量的。因此中心间隔包含质量的。如果我们设置,中心95%的间隔被范围覆盖。

如果分布为,则95%的区间变为。有时可以通过写μ±2σ来近似。

  1. 2.7 均值和方差

分布最常见的性质是其平均值或期望值,用μ表示。对于离散rv(随机变量),定义为,对于连续rv(随机变量),定义为。如果这个积分不是有限的,平均数就没有定义(我们稍后会看到一些例子)

方差是分布“扩散”的度量,用表示。定义如下:

从中我们得到有用的结果

标准差定义为 

这很有用,因为它与x本身具有相同的单位。

  1. 3 几种常见的离散分布

在这一节中,我们回顾了在离散状态空间上定义的一些常用的参数分布,包括有限和可数无限。

  1. 3.1 二项分布和伯努利分布

假设我们抛硬币一次。 令X∈{0,...,n}是正面向上的数量。 如果正面概率为θ,那么我们说X具有二项式分布,记作X〜Bin(n,θ)。 概率质量函数是

其中

是从n中选择k项的方法数(这称为二项式系数,称为为”n choose k”),有关二项式分布的一些示例,请参见图2.4。此分布具有以下均值和方差:

mean = θ, var = (1 θ)

现在假设我们只掷一次硬币。设x∈{0,1}为二元随机变量,其“成功”或“正面向上”的概率为θ。我们说x有bernoulli分布。这被写成,其中概率质量函数被定义为:

换句话,

这显然只是n=1的二项分布的一个特例。

图 2.4  n = 10且θ∈{0.25,0.9}的二项式分布的图示。

1.3.2 多项式和多努利分布

二项分布可以用来模拟投币的结果。我们可以使用多项式分布来模拟抛K边骰子的结果。定义如下:设x=(x1,…,xk)是一个随机向量,其中xj是骰子j侧发生的次数。那么x具有以下概率质量函数:

其中θj是j边出现的概率,并且

是多项式系数(将一组大小划分为大小x1到xk的子集的方法数)。

现在假设n=1。这就像掷一次k边骰子,所以x是0和1的向量(一个位向量),其中只能打开一个位。具体来说,如果骰子显示为k面,则第k位将打开。在这种情况下,我们可以认为x是一个具有k个状态(值)的标量分类随机变量,x是它的伪编码,即x=[i(x=1),…,i(x= k)]。例如,如果k=3,我们将状态1、2和3编码为

(1,0,0),(0,1,0)和(0,0,1)。这也被称为一个独热编码,因为我们认为只有一个k“线”是“热”或开。在这种情况下,概率质量函数变成

示例见图2.1(b-c)。这种非常常见的特例称为分类分布或离散分布。(gustavo lacerda建议我们称之为multinoulli分布,类似于二项/bernoulli区别,我们将在本书中采用这个术语)对于这种情况,我们将使用以下符号:

换句话说,如果x类(i),那么。摘要见表2.1

图 2.5 (a)一些比对的DNA序列。 (b)相应的序列标志

  1. 3.2.1 应用:DNA序列模体

多项式模型在生物序列分析中的一个有趣的应用。假设我们有一组(对齐的)DNA序列,如图2.5(a)所示,其中有10行(序列)和15列(沿着基因组的位置)。我们发现进化过程中有几个位置是保守的(例如,因为它们是基因编码区的一部分),因为相应的列往往是“纯”的。例如,第7列都是g

直观总结数据的一种方法是使用序列标志:参见图2.5(b)。我们绘制字母a,c,g和t,字体大小与它们的经验概率成正比,最可能的字母在上面。位置t的经验概率分布t,,是通过对计数向量进行归一化得到的(见等式3.48)

这种分布称为基序。我们还可以计算每个位置的最可能字母,这称为一致序列。

1.3.3  泊松分布

我们说x∈{0,1,2,…}具有参数λ>0的泊松分布,写入,如果其概率质量函数为

第一项只是标准化常数,确保分布和为1。

泊松分布常被用作放射性衰变和交通事故等罕见事件计数的模型。一些曲线图见图2.6

图2.6 λ∈{1,10}的一些泊松分布的图示。 为了清楚起见,我们已将x轴截断为25,但是分布的支持遍及所有非负整数

  1. 3.4 经验分布

给定一组数据,d={x1,…,xn},我们定义了经验分布,也称为经验度量,如下所示:

其中δx(a)是狄拉克测度,定义为

一般来说,我们可以将“权重”与每个样本关联起来:

其中我们要求0≤wi≤1 和。我们可以认为这是一个直方图,在数据点Xi上有“尖峰”,Wi决定了尖峰的高度i。此分布将0概率分配给不在数据集中的任何点。

1.4 几种常见的连续分布

在本节中,我们将介绍一些常用的单变量(一维)连续概率分布。

1.4.1 正常分布

在统计学和机器学习中应用最广泛的分布是高斯分布或正态分布。其概率分布函数由

这里μ=e[x]是平均值(和模式),σ2=var[x]是方差,是确保密度积分为1所需的标准化常数(见练习2.11)

我们写X〜N(μ,σ2)表示p(X = x)= N(x |μ,σ2)。 如果X〜N(0,1),我们说X遵循标准正态分布。 请参见图2.3(b)以获得该概率分布函数的图。 这有时称为钟形曲线。

我们经常谈论高斯的精度,用它来表示反方差:。 高精度意味着以μ为中心的窄分布(低方差)。

请注意,由于这是概率分布函数,因此我们可以让p(x)>1。要看到这一点,请考虑评估其中心的密度x =μ。 我们有,因此如果σ<1 /2π,则p(x)> 1。

高斯函数的累积分布函数或cdf定义为:

当μ=0,时,该概率分布函数的曲线见图2.3(a)。这个积分没有封闭形式的表达式,但是内置于大多数软件包中。特别是,我们可以用误差函数(ERF)来计算:

高斯分布是统计学中应用最广泛的分布。这有几个原因。首先,它有两个易于解释的参数,它们捕捉了分布的一些最基本的特性,即均值和方差。其次,中心极限定理(第2.6.3节)告诉我们,独立随机变量的和具有近似高斯分布,这使得它成为建模残差或“噪声”的一个很好的选择。第三,高斯分布使得假设的数量最少(具有最大熵),受到具有指定均值和方差的约束,如我们在第9.2.6节中所示;这使得它在许多情况下是一个很好的默认选择。最后,它有一个简单的数学形式,结果很容易实现,但往往非常有效的方法,如我们将看到的。参见(Jaynes 2003,ch 7)了解有关高斯函数为何如此广泛使用的更广泛讨论。

1.4.2  退化概率密度函数

在σ2→0的限制下,高斯变为以μ为中心的无限高和无限薄的“尖峰”:

其中δ称为狄拉克三角函数函数,定义为

这样

delta数的一个有用特性是筛选特性,它从和或积分中选择一个项。

因为如果x-μ=0,则被积函数仅为非零。

高斯分布的一个问题是它对异常值敏感,因为对数概率只随着距离中心的距离呈二次衰减。更稳健的分布是student t分布,其概率分布函数如下:

其中μ为平均值,为标度参数,而v>0为自由度。一些曲线图见图2.7。为了以后的参考,我们注意到该分布具有以下属性:

只有当v>2时,才定义方差。平均值仅在v>1时定义。

为了说明学生分布的稳健性,请考虑图2.8。在左边,我们展示了一个高斯函数和一个学生拟合的数据,没有离群值。在右边,我们添加一些异常值。我们发现高斯分布受到很大影响,而学生分布几乎没有变化。这是因为这个学生分布的尾巴比较重,至少小v的尾巴比较重(见图2.7)。

如果v=1,这个分布称为柯西分布或洛伦兹分布。这是值得注意的有如此重的尾巴,以至于定义平均值的积分不收敛。

为了保证有限方差,我们需要v>2。通常使用v=4,它在一系列问题中都有很好的性能(Lange等人,1989)。对于ν>>5,student分布迅速接近高斯分布,并失去其鲁棒性。

图2.7 (a)N(0,1),T(0,1,1)和的pdf。 高斯和拉普拉斯的均值为0,方差为1。 当ν= 1时,学生的均值和方差不确定。(b)这些pdf的日志。 请注意,对于任何参数值,Student分布都不是对数凹入的,这与Laplace分布不同,后者始终是对数凹入的(和log-convex ...)。然而,两者都是单峰的。

图2.8 离群值对拟合高斯,学生和拉普拉斯分布的影响的图示。 (a)没有异常值(高斯曲线和学生曲线位于彼此的顶部)。 (b)有异常值。 我们看到,高斯分布受异常值的影响要大于学生分布和拉普拉斯分布。

图2.9 (a)一些Ga(a,b = 1)分布。 如果a≤1,则模式为0,否则为>0。当我们增加比率b时,我们减小了水平比例,因此将所有内容向左和向上挤压。 (b)一些降雨数据的经验pdf,其中叠加了拟合的Gamma分布。

1.4.3 拉普拉斯分布

另一个重尾分布是拉普拉斯分布,也称为双面指数分布。有以下概率分布函数:

这里μ是一个位置参数,b>0是一个比例参数。图见图2.7。此发行版具有以下属性:

其对异常值的鲁棒性如图2.8所示。它还将更多的概率密度设为0,而不是高斯分布。正如我们将在第13.3节中看到的,这个属性是鼓励模型稀疏性的有用方法。

  1. 4.4 伽马分布

gamma分布是正实值rv的一种灵活分布,x>0。它由两个参数定义,称为形状a>0和速率b>0:

其中是伽马函数:

一些曲线图见图2.9。为了以后的参考,我们注意到该分布具有以下属性:

有几个分布只是伽马的特殊情况,我们在下面讨论。

指数分布这是由定义的,其中λ是速率参数。该分布描述了poisson过程中事件之间的时间间隔,即事件以恒定平均速率λ连续独立发生的过程。

爱尔朗分布这与gamma分布相同,其中a是一个整数。通常固定a=2,得到单参数爱尔朗分布,,其中λ是速率参数。

卡方分布,这是由定义的。这是高斯随机变量平方和的分布。更准确地说,如果,和,那么

另一个有用的结果如下:如果X〜Ga(a,b),则可以显示(练习2.10),其中IG是由定义的反伽马分布

仅当a> 1时才存在平均值。仅当a> 2时才存在方差。稍后我们将看到这些分布的应用

1.4.5  β分布

beta分布在区间[0,1]上有支持,定义如下:

这里B(p,q)是β函数,

一些β分布图见图2.10。我们需要a,b>0来确保分布是可积的(即确保B(a,b)存在)。如果a=b=1,我们得到均匀分布。如果a和b都小于1,我们得到一个双峰分布,在0和1处有尖峰;如果a和b都大于1,则该分布是单峰的。为了以后的参考,我们注意到分布具有以下属性(练习2.16)

图2.10 一些Beta发行版

  1. 4.6  帕累托分布

帕累托分布用于对表现出长尾巴(也称为重尾巴)的数量的分布进行建模。例如,已经观察到英语中最常见的单词(“ the”)的出现频率大约是第二最常见的单词(“ of”)的两倍,第二最频繁的单词的出现频率是第四最频繁的单词的两倍,等等。如果我们将单词的频率与它们的等级进行比较,我们将得到一个幂律,这就是齐普夫定律。财富也有类似的倾斜分布,特别是在美国这样的富豪阶层。

pareto 概率分布函数定义如下:

该密度断言x必须大于某个常数m,但不能太大,其中k控制“太多”。 当k→∞时,分布接近δ(x-m)。 有关某些图,请参见图2.11(a)。 如果我们以对数对数比例绘制分布,则它会形成一条直线,对于某些常数a和c,其形式为。 有关说明,请参见图2.11(b)(这称为幂律)。 此分布具有以下属性

图2.11 (a)m = 1时的帕累托分布Pareto(x | m,k)。(b)对数-对数刻度的pdf

2.5 联合概率分布

到目前为止,我们主要关注于单变量概率分布的建模。在本节中,我们开始讨论在多个相关随机变量上建立联合概率分布的更具挑战性的问题,这将是本书的中心主题。

对于一组d>1的变量,联合概率分布的形式为p(x1,...,xd),并对变量之间的(随机)关系建模。如果所有的变量都是离散的,我们就可以把联合分布表示为一个大的多维数组,每维有一个变量。然而,定义这样一个模型所需的参数数目是,其中k是每个变量的状态数目。

正如我们在第10章中所解释的,我们可以通过条件独立性假设,使用较少的参数定义高维联合分布。在连续分布的情况下,另一种方法是将概率密度函数的形式限制为某些函数形式,我们将在下面讨论其中的一些。

2.5.1 协方差和相关性

两个rv的X和Y之间的协方差衡量X和Y(线性)相关的程度。 协方差定义为

如果x是一个d维随机向量,其协方差矩阵被定义为以下对称正定矩阵

协方差可以介于0和无穷之间。有时使用一个有限上界的标准化度量更方便。x和y之间的(皮尔逊)相关系数定义为

相关矩阵的形式如下我们可以证明(练习4.3),-1≤corr[x,y]≤1。因此,在相关矩阵中,对角线上的每个项都是1,其他项介于-1和1之间。

我们还可以证明,对于某些参数a和b,corr[X,Y]=1,如果且仅当Y=aX+b,即X和Y之间存在线性关系(见练习4.4)。直观地说,人们可能期望相关系数与回归线的斜率相关,即表达式Y=aX+b中的系数a。然而,正如我们稍后在等式7.99中所示,回归系数实际上由a=cov[X,Y]/var[X]给出。考虑相关系数的更好方法是线性度:见图2.12

如果X和Y是独立的,意味着p(X,Y)=p(X)p(Y)(见第2.2.4节),那么cov[X,Y]=0

因此corr[X,Y]=0,所以它们是不相关的。然而,事实并非如此:不相关并不意味着独立例如,设X~ U(-1,1)和。很明显Y依赖于X(事实上,Y是由X唯一确定的),但是可以显示(练习4.1)corr[X,Y]=0。图2.12显示了这一事实的一些显著例子。这显示了一些数据集,其中X和Y之间存在明显的依赖关系,但相关系数为0。随机变量之间相关性的一个更一般的度量是互信息,在第2.8.3节中讨论。如果变量真的是独立的,那么这个值只有零。

图 2.12 几组(x,y)点,每组的相关系数分别为x和y。 请注意,相关关系反映的是线性关系的嘈杂性和方向(上排),但不反映该关系的斜率(中),也不反映非线性关系的许多方面(下)。 N.B .:中间的数字的斜率为0,但在这种情况下,相关系数不确定,因为Y的方差为零

2.5.2 多元高斯

多元高斯或多元正态(mvn)是连续变量最常用的联合概率密度函数。我们在第4章中详细讨论了mvns;这里我们只给出一些定义和图。

三维中mvn的概率分布函数定义如下:

式中是平均向量,是D×D协方差矩阵。有时我们会用精确矩阵或浓度矩阵来代替。这只是协方差矩阵的逆,即。标准化常数仅确保概率分布函数集成到1(见练习4.5)。

图2.13描绘了三种不同协方差矩阵的二维mvn密度。全协方差矩阵有D(D+1)/2个参数(我们除以2,因为∑是对称的)。对角协方差矩阵有D个参数,非对角项为0。球面或各向同性协方差,有一个自由参数。

2.5.3 多元学生t分布

mvn的另一个更稳健的选择是多元student t分布,其概率分布函数由

其中称为标度矩阵(因为它不是协方差矩阵),。它的尾巴比高斯型的还粗。v越小,尾巴就越胖。当,分布趋于高斯分布。分布具有以下属性

图2.13  我们显示了二维高斯的水平集。 (a)完整的协方差矩阵具有椭圆轮廓。(b)对角协方差矩阵是轴对齐的椭圆。 (c)球形协方差矩阵具有圆形形状。 (d)(c)中的球形高斯曲面图。

2.5.4 Dirichlet分布

β分布的一个多元推广是dirichlet分布,它支持概率单纯形,定义如下

概率分布函数定义如下:

式中B(α1,.…,αk)是β函数对K个变量的自然推广

其中

图2.14显示了当k=3时dirichlet的一些图,图2.15显示了一些抽样概率向量。我们看到控制分布的强度(它是如何达到峰值的),αk控制峰值出现的位置。例如,dir(1,1,1)是均匀分布,dir(2,2,2)是以(1/3,1/3,1/3)为中心的宽分布,dir(20,20,20)是以(1/3,1/3,1/3)为中心的窄分布。如果所有k的,我们在单纯形的拐角处得到“尖峰”。

为了将来参考,发行版具有以下属性

其中。通常我们使用形式的对称dirichlet。在这种情况下,平均值变为1/k,方差变为。因此增加α可以提高分布的精度(减小方差)。

图 2.14 (a)当K = 3时,狄利克雷分布定义了单形上的分布,可以用三角形表面表示。 该表面上的点满足0≤θk≤1且3 k = 1θk=1。(b)当α=(2,2,2)时的狄利克雷密度图。 (c)α=(20,2,2)。 (d)α=(0.1,0.1,0.1)。 (边缘上的梳状结构是绘图伪像)

图2.15 来自5维对称Dirichlet分布的样本,用于不同的参数值。(a)α=(0.1,...,0.1)。 这导致分布非常稀疏,具有许多0。 (b)α=(1,...,1)。 这导致更均匀(和密集)的分布。

2.6 随机变量的变换

如果x~p()是随机变量,y=f(x),y的分布是什么?这是我们在这一节要讨论的问题。

2.6.1 线性转换

假设f()是一个线性函数

在这种情况下,我们可以轻松地得出y的均值和协方差,如下所示。 首先,对于平均值,我们有

其中,μ= E [x]。 这称为期望线性。 如果f()是标量值函数,,则对应的结果为

对于协方差,我们有

其中Σ= cov [x]。 我们将证明保留为练习。 如果f()是标量值,则结果变为

我们将在后面的章节中广泛使用这两个结果。然而,注意,均值和协方差仅完全定义了y的分布,如果x是高斯的。一般来说,我们必须使用下面所描述的技术来推导y的全部分布,而不是仅仅是它的前两个时刻。

2..6.2 一般变换

如果X是离散的rv,我们可以通过简单地将所有x的概率质量求和得出f(x)= y来得出y的概率质量函数:

例如,如果f(X)= 1,则X为偶数,否则f(X)= 0,并且在集合{1,...,10},则同样的。 请注意,在此示例中,f是多对一函数。

如果X是连续的,我们不能使用方程2.83,因为是密度,而不是概率质量函数,并且我们不能计算密度总和。相反,我们和累计分布函数一起,写

我们可以通过对累积分布函数f求微分来得出y的概率密度函数。

在单调和可逆函数的情况下,我们可以写

我们得到衍生品

其中。我们可以把dx看作x空间中体积的量度,dy也可以看作y空间中体积的量度。因此dx/dy测量体积的变化。由于这个变化的符号并不重要,我们取绝对值来得到一般表达式。

这叫做变量变化公式。我们可以更直观地理解这个结果如下。在(x,x+δx)范围内的观测值将转换为(y,y+δy),其中px(x)δx≈py(y)δy。因此。例如,假设x ~u(–1,1)和。则。另见练习2.10

2.6.2.1 变量的多元变化

我们可以将先前的结果推广到多元分布,如下所示。设f是将rn映射到rn的函数,设y=f(x)。然后它的雅可比矩阵J是由

| det J|测量应用f时单位立方体体积的变化量。

如果f是一个可逆映射,我们可以用逆映射y->x的雅可比矩阵定义变换变量的概率密度函数。

在练习4.5中,你将使用这个公式导出多元高斯的归一化常数。

作为一个简单的例子,考虑将密度从笛卡尔坐标x=(x1,x2)转换到极坐标,其中。那么

并且

要从几何角度看这一点,请注意图2.16中阴影面片的面积由

在极限范围内,这等于分片中心的密度p(r,θ)乘以分片大小,r drdθ。 因此

2.6.3 中心极限定理

现在考虑具有概率密度函数(不一定高斯)p(Xi)的n个随机变量,每个均具有平均μ和方差。我们假设每个变量都是独立的、同分布的或者简称为iid。设为rv的和。这是rv的一个简单但广泛使用的变换。可以表明,随着n的增加,这个和的分布接近

因此数量的分布

收敛到标准正态,其中是样本平均值。这叫做中心极限定理。如需证明,请参见(Jaynes 2003,第22页)或(Rice 1995,第169页)

在图2.17中,我们给出了一个例子,其中我们计算了从β分布中得出的RV的平均值。我们发现,均值分布的采样分布迅速收敛到高斯分布。

图2.16 变量从极坐标到笛卡尔坐标的变化。 阴影补丁的面积为r drdθ。

图2.17 图片中的中心极限定理。 我们绘制的直方图 ,其中xij〜Beta(1,5),对于j = 1:10000。当N→∞时,分布趋于高斯分布。 (a)N =1。(b)N =5。基于(Bishop 2006a

2.7 蒙特卡洛近似

一般来说,使用变量公式计算RV函数的分布是困难的。一个简单但强大的替代方案如下。首先我们从分布中生成S样本,称它们为X1,..,XS.(产生高维分布的方法有很多种,称为马尔可夫链蒙特卡洛或MCMC,这将在第24章中解释)。对于样本,我们可以利用的经验分布来近似f(X)的分布。这被称为蒙特卡洛近似法,以欧洲一个以其豪华赌博娱乐场而闻名的城市命名。蒙特卡洛技术最初是在统计物理学领域发展的,特别是在原子弹发展期间,但现在也广泛应用于统计学和机器学习。

我们可以用蒙特卡洛来逼近随机变量的任何函数的期望值。我们简单地绘制样本,然后计算应用于样本的函数的算术平均值。可以这样写:

其中。这被称为蒙特卡罗积分,与数值积分(基于在固定网格点处对函数的求值)相比,它的优点是只在存在不可忽略的概率的地方对函数求值。

通过改变函数f(),我们可以逼近许多兴趣,例如

我们在下面给出一些例子,并在后面的章节中看到更多

图2.18 计算y = x2的分布,其中p(x)是均匀的(左)。 分析结果显示在中间,蒙特卡洛近似显示在右侧

2.7.1 示例:变量的更改,mc方式

在第2.6.2节中,我们讨论了如何解析计算随机变量y=f(x)的函数分布。一个更简单的方法是使用蒙特卡洛近似。例如,假设x~ unif(-1,1)和。我们可以通过从p(x)中抽取许多样本,对它们进行平方运算,并计算所得的经验分布来近似p(y)。如图2.18所示。我们将在后面的章节中广泛使用这种技术,见图5.2。

图2.19 通过蒙特卡洛积分估算π。 蓝点在圆圈内,红叉在圆圈外。

2.7.2 示例:通过蒙特卡罗积分估计π

MC逼近可用于许多应用,而不只是统计应用。假设我们要估计π。我们知道半径为r的圆的面积是,但它也等于下列定积分:

因此,让我们通过蒙特卡洛一体化来近似。设是圆内点为1,圆外点为0的指示函数,设p(x)和p(y)是[-r,r]上的均匀分布,则p(x)=p(y)=1/(2r)。那么

我们发现,标准误差为0.09(关于标准误差的讨论,见第2.7.3节)。我们可以画出接受/拒绝的点,如图2.19所示。

2.7.3 蒙特卡洛近似的精度

mc近似的精度随样本量的增加而增加。这在图2.20中示出,在顶线上,我们绘制高斯分布样本的直方图。最后,我们绘制了这些样本的平滑版本,使用内核密度估计(第7.7.2节)创建。然后在密集的网格点上评估该平滑分布并绘制。请注意,此平滑仅用于绘图,而不用于蒙特卡罗估计本身。

如果我们用表示精确平均值,用表示mc近似值,我们可以证明,对于独立样本

其中

这是中心极限定理的结果。当然,上述表达式中的是未知的,但也可以由MC来估计:

然后我们有

术语被称为(数值或经验)标准误差,是对我们估计μ的不确定性的估计。(有关标准错误的更多讨论,请参见第6.2节。)

如果我们想要报告一个准确度在以内且概率至少为95%的答案,我们需要使用一些满足的样本S。我们可以用2近似1.96因子,得出

图2.20 高斯分布N(μ= 1.5,σ2= 0.25)的10和100个样本。 实心红线是真实的pdf。 第一行:样本的直方图。 底线:由虚线蓝色,实心红色线的样本得出的核密度估计值为pdf。

2.8 信息论

信息论涉及以紧凑的方式表示数据(被称为数据压缩或源代码编码的任务),以及以对误差具有鲁棒性的方式发送和存储数据(称为纠错或信道编码的任务)。起初,这似乎远离了概率论和机器学习的顾虑,但实际上存在着密切的联系。要看到这一点,请注意,紧凑地表示数据需要将短码字分配给高度可能的位字符串,并将长码字保留给不太可能的位字符串。这类似于自然语言中的情况,其中常用词(如“A”、“the”和“and”)一般比稀有词短很多。此外,解码通过噪声信道发送的消息需要有一个良好的概率模型,即人们倾向于发送的消息类型。在这两种情况下,我们都需要一个模型来预测哪些数据是可能的,哪些是不可能的,这也是机器学习中的一个核心问题(请参阅(麦凯2003),以了解信息理论和机器学习之间的联系)。

显然,我们不能进入这里的信息理论的细节(例如,如果你有兴趣去了解更多,请参阅封面和托马斯2006)。不过,我们将在本书后面介绍一些基本概念。

2.8.1 熵

一个随机变量x的分布p,用H(X)或有时H(p)表示,是它不确定性的度量。特别地,对于具有K状态的离散变量,它由

通常我们使用对数基2,在这种情况下,单位称为位(二进制数字的缩写)。如果我们使用log base ,那么这些单元称为nats。例如,如果x∈{1,...,5}直方图分布p=[0.25,0.25,0.2,0.15,0.15],我们发现h=2.2855。具有最大熵的离散分布是均匀分布(见证明部分92.6)。因此,对于k元随机变量,如果p(x=k)=1/k,则熵最大;在这种情况下,h(x)=log2k。相反,最小熵(即零)的分布是将其所有质量放在一个状态上的任何delta函数。这样的分布没有不确定性。在图2.5(b)中,我们绘制了一个DNA序列标志,每个条的高度被定义为2~h,其中H是该分布的熵,2是最大可能熵。因此,高度0的条线对应于均匀分布,而高度2的条线对应于确定性分布。

对于二元随机变量的特殊情况,x∈{0,1},我们可以写出p(x=1)=θ和p(x=0)=1-θ。因此熵变成

这叫做二元熵函数,也被写成H()。我们将其绘制在图2.21中。我们看到,当分布均匀时,θ=0.5出现最大值1。

图2.21 伯努利随机变量的熵作为θ的函数。 最大熵为log2 2 = 1

2.8.2 相对熵

测量两个概率分布p和q的不同的一种方法称为kullback-leibler散度(kl散度)或相对熵。定义如下

将总和替换为概率分布函数的整数。我们可以将其重写为

其中H(p,q)称为交叉熵

一个可以显示(覆盖和托马斯2006),交叉熵是当使用模型Q来定义我们的码本时,编码来自分布P源的数据所需的比特的平均数。因此,第2.8.1节中定义的“正则”熵h(p)=h(p,p)是我们使用真模型时的期望比特数,因此kl散度是这两者之间的差。换句话说,kl散度是编码数据所需的额外比特的平均数,因为我们使用分布q来编码数据,而不是使用真正的分布p。

“额外比特数”的解释应该清楚地表明,KL仅等于零IFF q= p。现在我们给出这个重要结果的证明。

定理2.8.1。 (信息不等式)KL(p || q)≥0,且等式iff p = q。

证明。为了证明这个定理,我们需要使用jensen不等式。这表明,对于任何凸函数f,我们都有

其中λi≥0且。这对于n = 2(根据凸度的定义)显然是正确的,并且可以通过对n> 2进行归纳证明。

接下来,让我们证明主要定理(Cover和Thomas 2006,第28页)。 令A = {x:p(x)> 0}是p(x)的支持。 然后

其中,第一个不等式遵循Jensen的。由于Log(x)是一个严格凹函数,我们在等式2.115中有等式p(x)=cq(x)对于某些c。我们在等式2.116中有等式IFF ,这意味着c=1。因此,对于所有x, iff p(x)=q(x)。

这一结果的一个重要结果是具有最大熵的离散分布是均匀分布。更准确地说,H(X)≤log | X |,其中| X | 是X的状态数,等式iff p(x)是一致的。 要看到这一点,让u(x)= 1 / | X |。 然后

这是拉普拉斯的理由不足的原则的提法,该原则主张在没有其他理由偏爱一种分布优于另一种分布的情况下,主张使用统一分布。 关于如何创建满足某些约束条件的分布的讨论,请参见第9.2.6节。 (例如,高斯满足第一和第二矩约束,但本身具有最大熵)

2.8.3 相互信息

考虑两个随机变量,x和y。假设我们想知道一个变量对另一个变量的影响有多大。我们可以计算相关系数,但这只针对实值随机变量定义,而且,如图2.12所示,这是一个非常有限的相关性度量。更一般的方法是确定联合分布P(x,y)与因式分布p(x)p(y)有多么相似。这称为互信息或mi,定义如下:

当p(x,y)=p(x)p(y)时,我们有I(x;y)≥0。也就是说,如果变量是独立的,mi为零

为了深入了解mi的含义,它有助于用联合熵和条件熵来重新表达mi。可以显示(练习2.12)上述表达式等效于以下表达式

其中H(Y|X)是条件熵,定义为。因此,我们可以将X和Y之间的MI解释为观察Y之后X的不确定性的减少,或者通过对称性,观察X之后的Y的不确定性的减少。我们将在本书后面遇到MI的几个应用。关于mi和相关系数之间的关系,另见练习2.13和2.14。

与mi密切相关的量是逐点互信息或pmi。对于两个事件(不是随机变量)x和y,定义为

这衡量了一起发生的这些事件与偶然发生的事件之间的差异。 显然,X和Y的MI只是PMI的期望值。 有趣的是,我们可以如下重写PMI:

这是我们从将先验p(x)更新为后验p(x | y)或等效地将先验p(y)更新为后验p(y | x)所学到的量。

2.8.3.1 连续随机变量的互信息

MI的以上公式是为离散随机变量定义的。 对于连续随机变量,通常首先将它们离散化或量化,方法是将每个变量的范围划分为bin,然后计算每个直方图bin中有多少值(Scott,1979年)。 然后,我们可以使用上面的公式轻松计算MI(有关某些代码,请参见commonInfoAllPairsMixed;有关演示,请参见miMixedDemo

不幸的是,使用的分箱数量以及分箱边界的位置可能会对结果产生重大影响。 解决此问题的一种方法是尝试直接估算MI,而无需先执行密度估算(Learned-Miller 2004)。 另一种方法是尝试许多不同的箱尺寸和位置,并计算所达到的最大MI。 经过适当归一化后的统计数据称为最大信息系数(MIC(Reshed et al。2011)。更准确地说,定义:

其中G(x,y)是大小为x×y的2d网格的集合,而X(G),Y(G)表示变量在该网格上的离散化。 (可以使用动态编程有效地执行bin位置的最大化(Reshed等,2011)。)现在将MIC定义为

其中B是一些样本大小依赖于容器数量的约束,我们可以使用并且仍然可靠地估计分布(RESHE等)。2011)建议)。可以表明,mic位于范围[0,1]内,其中0表示变量之间没有关系,1表示任何形式的无噪声关系,而不仅仅是线性关系。

图2.22给出了这个统计数据的一个例子。这些数据由世界卫生组织(世卫组织)收集的357个变量组成,这些变量衡量各种社会、经济、健康和政治指标。在图的左边,我们看到了对所有63566个变量对的MIC绘制的相关系数(CC)。在图的右边,我们看到了特定变量对的散点图,我们现在讨论。

标记为C的点具有较低的CC和较低的MIC。 相应的散点图清楚地表明,这两个变量之间没有关系(因伤害而丧生的百分比和人口中牙医的密度)。

标记D和H的点具有高CC(绝对值)和高MIC,因为它们表示近似线性关系。

标记E、F和G的点具有低CC但高MIC。这是因为它们对应于变量之间的非线性(有时,在e和f的情况下,是非函数的,即一对多)关系。

总之,我们看到,基于相互信息的统计(如mic)可以用来发现变量之间有趣的关系,而简单的度量(如相关系数)则不能。因此,mic被称为“21世纪的相关性”(speed 2011)。

图2.22 左:WHO数据中所有成对关系的相关系数与最大信息标准(MIC)。 右:某些变量对的散点图。 红线是分别适用于每种趋势的非参数平滑回归(第15.4.6节)。

MLAPP翻译---第二章相关推荐

  1. Learn Prolog Now 翻译 - 第二章 - 合一和证明搜索 - 第一节, 合一

    Learn Prolog Now 翻译 - 第二章 - 合一和证明搜索 - 第一节, 合一 内容提要: 合一的定义: 一些合一的例子: 触发校验: 使用合一编程: 合一的定义 在上一章的知识库KB4中 ...

  2. Gradle2.0用户指南翻译——第二章. 概述

    翻译项目请关注Github上的地址: https://github.com/msdx/gradledoc 本文翻译所在分支: https://github.com/msdx/gradledoc/tre ...

  3. 《Fundamentals of Computer Grahpics》虎书第三版翻译——第二章 各种各样的数学

    大部分图形学只是把数学直接转化成代码.数学越清晰,对生成的代码越清晰;这本书的大部分内容都集中在如何正确的使用数学.本章回顾了高中和大学数学中的各种工具,旨在作为参考而不是教程.这本书的主题看起来像是 ...

  4. 《Real-Time Rendering 4th Edition》读书笔记--简单粗糙翻译 第二章 渲染管线 The Graphics Rendering Pipeline

    写在前面的话:因为英语不好,所以看得慢,所以还不如索性按自己的理解简单粗糙翻译一遍,就当是自己的读书笔记了.不对之处甚多,以后理解深刻了,英语好了再回来修改.相信花在本书上的时间和精力是值得的. -- ...

  5. MLAPP(翻译)—第一章

    1  什么是机器学习 我们沉浸在信息中,渴望知识.-约翰奈斯比特. 我们正在进入大数据时代.例如,大约有1万亿个网页:每秒钟有一小时的视频上传到youtube上,每天的内容相当于10年的总和:1000 ...

  6. Programming in Lua 4th(不完全翻译) 第二章

    闭包 Functions in Lua are first-class values with proper lexical scoping 什么意味着"first-class values ...

  7. jBPM3.12用户指南中文翻译----第二章 起步

    这是Jboss 的jBPM3.12框架的用户指南的中文翻译.我的翻译风格是中英文对照,只翻译部分我认为重要的,不翻译简单的英文,以免浪费你我的时间.        同时,对于其中的部分内容,我会在翻译 ...

  8. [翻译] 第二章 处理借口 (Remote)

    书籍简介 书名: Remote 作者: Jason Fried and David Heinemeier Hansson 只有当我们都在一个房间里时,魔术才会发生 每个人都围坐在桌子旁,想法互相碰撞, ...

  9. Box2D翻译_第二章

    本文是对Box2D v2.1.2 manual中文翻译(现在网上流行的一个中文翻译是针对以前版本的,跟最新的2.1.2版有些不对应)的第二章.持续更新中...... 2. Hello Box2D 在B ...

最新文章

  1. 微信小程序点击图片实现长按预览、保存、识别带参数二维码、转发等功能
  2. go chan 缓存与阻塞
  3. padding与margin的差别
  4. “睡服”面试官系列第二篇之promise(建议收藏学习)
  5. 打开文件对话框的演练 c# 1614821885
  6. 拖拽上传及读取文件实现
  7. 15.1 异常(异常的基本概念+自定义异常)
  8. 向上沟通2-冰山理论
  9. mysql 为表添加索引
  10. 渗透测试工具--Nessue漏洞扫描与分析软件
  11. OC中category(分类)中添加属性
  12. js 和php 互操cookie 作用域
  13. 51单片机 玩转按键加减切换+数码管+Proteus仿真
  14. UIpath发送邮件--outlook和smtp----企业级
  15. Matlab缩放曲线局部窗口
  16. 使用docker-compose启动MySQL、Redis和Mongo
  17. 推荐给大家的一款很不错的PHP文库管理系统(知沃文库)-php 开源系统
  18. c# 小票打印机打条形码_C#条形码的生成与打印
  19. 安卓之SharedPreferences存储
  20. ISO20000和ITSS认证有什么区别

热门文章

  1. 张宇1000题高等数学 第二章 数列极限
  2. 暗黑下品中文图文全集,mo下载。没听说过的就别进了,不是爱好者打不开
  3. 我的文品指数 搜狗的新服务
  4. 2017最新版SCI期刊目录发布
  5. [计算机网络] 电路交换、报文交换、分组交换的对比
  6. 预测性维护是物联网的终极解决方案吗?ZETA预测性维护方案保持机器设备高效率运行
  7. WebGIS开发遇到的坑
  8. 【C++】Visual Studio教程(十三) -默认键盘快捷方式
  9. cadence ORCAD因为不正常关闭导致opj文件打不开的解决办法
  10. 串口wifi模块串口无线模块