机器学习中的数学：概率统计

内容亮点

详解 6 大核心板块：概率思想、随机变量、统计推断、随机过程、采样理论、概率模型，筑牢机器学习核心基础。
教你熟练使用 Python 工具库：依托 NumPy、SciPy、Matplotlib、Pandas 工具，无缝对接工程实践。
有理论还有实战：大量实战案例与完整详细源码，反复加深概率统计思想的深刻理解。

为什么要学习概率统计？

机器学习是一个综合性强、知识栈长的学科，需要大量的前序知识作为铺垫。其中最核心的就是：绝大多数算法模型和实际应用都依赖于以概率统计、线性代数和微积分为代表的数学理论和思想方法。

《机器学习中的数学》 系列专栏的第一部《概率统计》首先将为大家揭示的，就是与机器学习紧密相关的概率统计核心内容。

概率统计是利用数据发现规律、推测未知的思想方法。这和机器学习的目标高度一致，机器学习中的思想方法和核心算法大多构筑在统计思维方法之上。本专栏介绍的核心概率思想和基础概念将围绕着条件概率、随机变量、随机过程、极限思想、统计推断、概率图等内容展开。

通过学习本专栏，你可以筑牢机器学习理论和实践的概率统计基础。如果你正在学习概率统计相关知识，本专栏会让你对概率统计产生更浓厚的兴趣、更深层的思考和多角度的认识，同时收获不同于传统教材的思维体验。如果你正在进行数据分析方面的工程实践，本专栏中所着重强调的思维逻辑和处理方法也将会为你提供一种新的视角。

专栏思路与内容大纲

本专栏将围绕以下六大部分展开：

第 1 部分：概率思想。我们首先从条件概率和贝叶斯方法入手，阐明条件、独立、相关等基本概念，掌握联合、边缘的计算方法，我们将一起构建起认知世界的概率思维体系。

第 2 部分：随机变量。我们将重点介绍随机变量主干内容，从单一随机变量的分布过渡到多元随机变量的分析，最后重点阐述大数定理和中心极限定理，并初步接触蒙特卡洛方法，和读者一起建立重要的极限思维。

第 3 部分：统计推断。这部分我们关注的是如何通过部分的样本集合推断出我们关心的总体特征，这在现实世界中非常重要。在参数估计的思想方法基础上，我们重点关注极大似然估计和贝叶斯估计这两种方法。

第 4 部分：随机过程。我们将关注由一组随机变量构成的集合，即随机过程。股票的波动、语音信号、视频信号、布朗运动等都是随机过程在现实世界中的实例。我们在随机过程的基本概念之上，将重点分析马尔科夫链，梳理其由静到动的演变，探索变化的过程和不变的稳态。

第 5 部分：采样理论。我们将重点关注如何获取服从目标分布的近似采样方法，从基本的接受-拒绝采样入手，逐渐深入到马尔科夫链-蒙特卡洛方法，通过动态的过程进一步深化对随机过程、随机理论以及极限思想的理解。

第 6 部分：概率模型。这里我们将介绍概率图模型中的一种典型模型：隐马尔科夫模型，熟悉状态序列的概率估计和状态解码的基本方法，为后续学习的概率图模型打好基础。

作者介绍

适宜人群

对人工智能感兴趣的开发者
想入门机器学习的初学者
想加强数学基本功的读者

购买须知

本专栏为图文内容，共计 21 篇。
每周一、三、五更新，预计于 2019 年 11 月 15 日更新完毕。
付费用户可享受文章永久阅读权限。
付费用户可获取读者圈 PASS 权限，与讲师进一步互动。
本专栏为虚拟产品，一经付费概不退款，敬请谅解。
本专栏可在 GitChat 服务号、App 及网页端 gitbook.cn 上购买，一端购买，多端阅读。

订阅福利

本专栏限时特价 29 元，10 月 30 日恢复至原价 49 元。
订购本专栏可获得专属海报，分享专属海报每成功邀请一位好友购买，即可获得 25% 的返现奖励，多邀多得，上不封顶，立即提现。
提现流程：在 GitChat 服务号中点击「我-我的邀请-提现」。
购买本专栏后，可加入读者群交流（入群方式可查看第 3 篇文末说明）。

课程内容

建立统计思维，玩转机器学习

机器学习中，数学为什么重要？

大家好，我是张雨萌，毕业于清华大学计算机系，目前从事自然语言处理相关的研究工作。撰写《机器学习中的数学》系列专栏并和大家一起共同交流学习，是我们准备了很久的一个计划。

当下，机器学习、人工智能领域吸引了许多有志者投身其中，其中包含了大量非科班出身或从其他行业切换赛道转行而来的朋友。大家在学习的过程中经常会感觉学习曲线陡峭、难度较大，而机器学习之所以这么难，首要原因就是数学知识需要得太多了！

的确如此，机器学习是一个综合性强、知识栈长的学科，需要大量的前序知识作为铺垫。其中最核心的就是：绝大多数算法模型和实际应用都依赖于以概率统计、线性代数和微积分为代表的数学理论和思想方法。

比方说吧，如果你想对高维数据进行降维分析，提取和聚焦其主成分，需要的就是线性代数中空间的概念和矩阵分解的技巧；想理解神经网络的训练过程，离不开多元微分和优化方法；想过滤垃圾邮件，不具备概率论中的贝叶斯思维恐怕不行；想试着进行一段语音识别，则必须要理解随机过程中的隐马尔科夫模型；想通过一个数据样本集推测出这类对象的总体特征，统计学中的估计理论和大数定理的思想必须得建立。因此，数学基础是机器学习绕不开的重要阵地。

机器学习中，三部分数学知识各自扮演什么角色？

针对这三部分内容，我们将在近期依次推出 《机器学习中的数学：概率统计》、 《机器学习中的数学：线性代数》 和 《机器学习中的数学：微积分与最优化》 三个专栏。

在进入到概率统计这部分之前，我们先来看看这三部分数学知识在机器学习中各自扮演着什么样的角色，并梳理一下学科的内在逻辑。

第一：概率统计是利用数据发现规律、推测未知的思想方法

「发现规律、推测未知」也正是机器学习的目标，所以两者的目标高度一致。机器学习中的思想方法和核心算法大多构筑在统计思维方法之上。本专栏介绍的核心概率思想和基础概念将围绕着条件概率、随机变量、随机过程、极限思想、统计推断、概率图等内容展开。

第二：线性代数是利用空间投射和表征数据的基本工具

通过线性代数，我们可以灵活地对数据进行各种变换，从而直观清晰地挖掘出数据的主要特征和不同维度的信息。整个线性代数的主干就是空间变换，我们将从构筑空间、近似拟合、相似矩阵、数据降维这四大板块，环环相扣地呈现出与机器学习算法紧密相关的最核心内容。

第三：微积分与最优化是机器学习模型中最终解决方案的落地手段

当我们建立好算法模型之后，问题的最终求解往往都会涉及到优化问题。在探寻数据空间极值的过程中，如果没有微分理论和计算方法作为支撑，任何漂亮的模型都无法落地。因此，夯实多元微分的基本概念，掌握最优化的实现方法，是通向最终解决方案的必经之路。

学过概率统计，为什么不会用、用不好？

在大学阶段，大家都学过概率统计，那么为什么在机器学习中需要使用这部分知识时，却难以支撑了呢？我认为有以下几点原因，相信你也曾感同身受。

第一，大学课程中的内容并没有完全覆盖机器学习领域所需知识点。 机器学习数学基础萌发于高等数学、线性代数和概率统计，但绝不等同于大学本科的教学内容。回想一下大学概率统计课程包含了什么？事件的概率、随机变量及其分布、数字特征、参数估计与假设检验。差不多就这些，很重要、很核心，但这是远远不够的吧。事实上，我们还需要补充随机过程、随机理论、蒙特卡洛思想、采样方法 和 概率图等一些重要的基础知识，才能构建相对完整的知识结构。

第二，大学课程的学习重计算技巧，轻内在逻辑。 大家一定还记得，我们在学习概率统计的时候，首先罗列的就是多种分布，然后算期望、算方差、算事件概率。这样的结果就是数学变成了算术，而且还是在不停重复程序一秒钟就能做好的事。至于知识背后的内在逻辑和应用方法，我们在学习过程中是非常欠缺的，因此大家很容易用完就忘。

第三，虽然我们在大学学了概率统计这门课，却不知道学了能干什么。几十年如一日的教学内容没能深刻挖掘学科与当下前沿技术的交汇点，使得同学们常常有这样的困惑：这门课学了之后有什么用？于是在学完之后，很快就还给老师了。大学开设这门课的目的是讲授概率统计的基础理论，目的并不是为大家打牢机器学习的数学基础。因此，如果我们不能有针对性地分清重点、强化相关重点内容的学习，自然会不明所以。

这么一来，仅凭借大学课程来打好机器学习概率统计的基础，恐非易事。

这个专栏将如何帮你打好概率统计基础？

《机器学习中的数学：概率统计》和其他数学课程有何不同？这里，我有必要介绍一下这个专栏的特色。

首先，我们会集中力量、紧紧围绕机器学习核心算法中所涉及到的概率统计知识展开介绍，做好精确打击。我们的讲解会结合数学的本质内涵，用浅显易懂的语言讲透深刻的数学思想，构建起整个理论体系。

然后，我们会加强基础知识与算法、应用案例之间的联系。我们在讲解概率统计内容的时候会注重延伸后续的算法应用场景，将其进行相互关联，形成学以致用的实践导向。

同时，我们会运用好 Python 工具，做到和工程应用无缝对接。整个专栏内容都以 Python 语言为工具进行教学内容的实践，利用 NumPy、SciPy、Matplotlib、Pandas 等工具强化知识的理解、提升工作效率。

另外，我们还十分重视专栏本身的写作技巧。深入浅出的讲解技巧和逻辑严密的写作文风也将助你在充满挑战的学习道路上不断前进。

专栏大纲与编排思路

专栏首先从条件、独立、联合、边缘以及贝叶斯思维入手，建立概率统计的理论基石。然后围绕单一变量和多元变量，讨论随机变量这一重点内容，详细讲解变量的分布、多元变量的独立相关性等主干知识，并揭示大数定律、中心极限定理等极限思维和实践方法。紧接着从经典统计推断和贝叶斯推断两大学派介绍统计推断的基本框架。随后讨论随机过程，重点围绕马尔科夫过程展开。并在贯穿蒙特卡洛方法的思想基础上，利用马尔科夫链进行随机采样。最后讲解典型的概率图模型隐马尔可夫模型，作为这一部分的结尾。

本专栏将围绕以下六大部分展开

让我们一起开始这段学习旅程！

万丈高楼平地起，希望《机器学习中的数学》系列专栏能陪伴大家走好机器学习的学习与实践的必经之路、梳理纷繁复杂的知识网络、构筑好算法模型的数学基础。更重要的是，我希望我们能一起形成一种思维习惯：源于理论，我们条分缕析；面向实践，我们学以致用。有了扎实的数学理论和方法基础，相信同学们都能登高望远、一往无前。

分享交流

我们为本专栏付费读者创建了微信交流群，以便更有针对性地讨论专栏相关的问题（入群方式请在第 3 篇末尾查看）。

理论基石：条件概率、独立性与贝叶斯

从概率到条件概率

条件概率的发生背景

从这一篇开始，我们就正式进入到概率统计的内容板块中了。

对于概率，相信大家都不会陌生，在各阶段的数学课上，它都是高频出现的常客，最简单的概率场景比如掷骰子：第一次掷出的点数为 $5$ 的概率为多大？你会毫不犹豫的说出答案：$\frac{1}{6}$。

这太简单了。接下来我增加一个限定条件：已知在抛出骰子是奇数的情况下，抛掷点数为 $5$ 的可能性有多大？

发现了没有，在第二个问题中我就没有直接的只问投掷出 $5$ 这个事件的概率，而是增加了一个前提条件：这次抛掷出的点数为奇数。

生活中这类场景更多，我们一般不会直接去推断一个事件发生的可能性，因为这样实际意义并不明显，而且也不容易推断出结果。比如我问你今天下雨的概率是多大？你可能是一头雾水，什么地点？什么月份？当日云层的厚度？这些条件都没有提供，这样是无法给出一个有意义、有价值的合理推断的。

而且在实际情况下，一个事件一般而言也不会是孤立的发生，它会伴随着其他事情一同出现，单独谈一个事件的概率，一般而言也是不存在的。

因此，在实际的应用中，我们更关心的是条件概率，也就是在给定部分信息的基础上对试验结果的推断。这些给定的信息就是我们附加的条件，是我们研究时关注的重点。

条件概率的具体描述

这里，我们来具体描述一下条件概率：

假设我们知道给定事件 $B$ 已经发生，在此基础上希望知道另一个事件 $A$ 发生的可能性，此时我们就需要构造出 条件概率，它需要先顾及事件 $B$ 已经发生的信息，然后再求出事件 $A$ 发生的概率。

这个条件概率描述的就是在给定事件 $B$ 发生的情况下，事件 $A$ 发生的概率，我们专门把它记作：$P(A|B)$。

那我们回到投掷骰子的问题中来，在投出奇数点数骰子的前提下，投出 $5$ 的概率有多大？奇数点数一共有 ${1,3,5 }$ 三种，其中出现 $5$ 的概率是 $\frac{1}{3}$。很明显，和单独问投出点数是 $5$ 的概率计算结果是不同的。

下面我们来抽象一下条件概率的场景。

我们再回到最简单、最容易理解的情景下来看，即在古典概率的模式下来分析：假定一个试验有 $N$ 个等可能的结果，事件 $A$ 和 $B$ 分别包含 $M1$ 个和 $M2$ 个结果，这其中有 $M_{12}$ 个结果是公共的，这就是同时发生事件 $A$ 和事件 $B$，即 $A\cap B$ 事件所包含的试验结果数。

形象的描述一下上述场景，如图所示：

那我问你，单纯的发生事件 $A$ 和事件 $B$ 的概率是多少？你肯定会脱口而出，分别是 $\frac{M1}{N}$ 和 $\frac{M2}{N}$，那进一步到条件概率中来，已知在事件 $B$ 发生的前提条件下，事件 $A$ 发生的概率是多少？

此时，我们的整体考虑范围由最开始的 $N$ 个全部的可能结果局限到现在的 $M2$ 个结果，即 $B$ 事件发生的结果范围，而这其中只有 $M{12}$ 个结果对应事件 $A$ 的发生，那么我们不难计算出，条件概率 $P(A|B)=\frac{M{12}}{M2}$ 。

条件概率的表达式分析

为了更加深入地挖掘这里面的内涵，我们进一步对条件概率的表达式 $P(A|B)=\frac{M{12}}{M2}$ 进行展开：

$$P(A|B)=\frac{M{12}}{M2}=\frac{(M{12}/N)}{(M2/N)}=\frac{P(AB)}{P(B)}$$

由此，我们得到了条件概率的一般定义：$P(A|B)=\frac{P(AB)}{P(B)}$。

两个事件的独立性

我们在上面的例子中，进一步进行分析，我们发现事件 $A$ 的无条件概率 $P(A)$ 与其在给定事件 $B$ 发生下的条件概率 $P(A|B)$ 显然是不同的，即 $P(A|B)\neq P(A)$ ，而这也是非常普遍的一种情况，这两个概率值一般都存在着差异。

其实，这反映了两个事件之间存在着一些关联，假如满足 $P(A|B)>P(A)$，则可以说事件 $B$ 的发生使得事件 $A$ 的发生可能性增大了，即事件 $B$ 促进了事件 $A$ 的发生。

但是如果 $P(A)=P(A|B)$ 呢，这种情况也是存在的，而且这是一种非常重要的情况，他意味着事件 $B$ 的发生与否对事件 $A$ 发生的可能性毫无影响。这时，我们就称 $A$ , $B$ 这两个事件独立，并由条件概率的定义式进行转换可以得到：

$$P(A|B)=\frac{P(AB)}{P(B) } \Rightarrow P(AB)=P(A|B)P(B)=P(A)P(B)$$

实际上，我们拿这个式子来刻画独立性，比单纯使用表达式 $P(A)=P(A|B)$ 要更好一些，因为 $P(AB)=P(A)P(B)$ 这个表达式不受概率 $P(B)$ 是否为 $0$ 的因素制约。

由此我们说，如果 $A$ 和 $B$ 两个事件满足 $P(AB)=P(A)P(B)$，则称事件 $A$ 和事件 $B$ 独立。

从条件概率到全概率公式

首先我们假设 $B1,B2,B3,...,Bn$ 为有限个或无限可数个事件，他们之间两两互斥且在每次试验中至少发生其中一个，我们用图直观的表示如下：

我们用表达式描述上面这幅图的含义就是：

$BiBj=\phi$

$B1+B2+B3...+Bn=\Omega$

现在我们接着引入另一个事件 $A$，如下图所示：

很明显，因为 $\Omega$ 是一个必然事件（换句话说就是事件全集），因此有 $P(A)=P(A \Omega )$，进一步进行推导有：$P(A)=P(A\Omega)=P(AB1+AB2+AB3+...+ABn)$，因为事件 $Bi,Bj$ 两两互斥，显然 $AB1,AB2,AB3,...,ABn$ 也两两互斥，因此就有：

$$P(A)=P(AB1)+P(AB2)+P(AB3)+...+P(ABn)$$

再由条件概率公式 $P(ABi)=P(Bi)P(A|B_i)$ 进行代入，将上式转换得到：

$$P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)+...+P(Bn)P(A|Bn)$$

这就是我们最终得到的全概率公式，“全”字的意义在于：全部的概率 $P(A)$ 被分解成了许多的部分概率之和。

我们再次回过头来看看全概率公式的表达式，我们从式子里可以非常直观的发现：事件 $A$ 的概率 $P(A)$ 应该处于最小的 $P(A|Bi)$ 和最大的 $P(A|Bj)$ 之间，它不是所有条件概率 $P(A|Bk)$ 的算术平均，因为他们各自被使用的机会（即 $P(Bi)$）各不相同。因此全概率 $P(A)$ 就是各 $P(A|Bk)$ 以 $P(Bk)$ 为权的加权平均值。

全概率公式的实际价值在于，很多时候，我们直接去计算事件 $A$ 的概率是比较困难的。但是如果条件概率 $P(A|B_k)$ 是已知的，或很容易被我们推导计算时，全概率公式就成了计算概率 $P(A)$ 的很好的途径。

聚焦贝叶斯公式

贝叶斯公式概述

了解了全概率公式之后，我们可以进一步的处理条件概率的表达式，得到下面这个式子：

$$P(Bi|A)=\frac{P(ABi)}{P(A)}=\frac{P(Bi)P(A|Bi)}{P(A)}$$

$$=\frac{P(Bi)P(A|Bi)}{P(B1)P(A|B1)+P(B2)P(A|B2)+...+P(Bn)P(A|Bn)}$$

这就是大名鼎鼎的贝叶斯公式。

这个式子你千万不要觉得他平淡无奇，觉得仅仅只是数学式子的推导和罗列。这一个公式里包含了全概率公式、条件概率、贝叶斯准则，我们来挖掘一下里面所蕴藏的最重要的内涵：

贝叶斯公式将条件概率 $P(A|B)$ 和条件概率 $P(B|A)$ 紧密的联系了起来，其最根本的数学基础就是因为 $P(A|B)P(B)=(B|A)P(A)$，他们都等于 $P(AB)$。

那这里面具体的深刻内涵是什么呢？我们接着往下看。

本质内涵：由因到果，由果推因

现实中，我们可以把事件 $A$ 看成是结果，把事件 $B1,B2,...,B_n$ 看成是导致这个结果的各种可能的原因。

那么，我们所介绍的全概率公式 $P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)+...+P(Bn)P(A|Bn)$ 就是由各种原因推理出结果事件发生的概率，是由因到果。

但是，更重要、更实际的应用场景是，我们在日常生活中常常是观察到某种现象，然后去反推造成这种现象的各种原因的概率。简单点说，就是由果推因。

贝叶斯公式 $P(Bi|A)=\frac{P(ABi)}{P(A)}=\frac{P(Bi)P(A|Bi)}{\sum{j}{P(Bj)P(A|Bj)}}$，最终求得的就是条件概率 $P(Bi|A)$，就是在观察到结果事件 $A$ 已经发生的情况下，我们推断结果事件 $A$ 是由原因 $B_i$ 造成的概率的大小，以支撑我们后续的判断。

那么我们可以说，单纯的概率 $P(B_i)$ 我们叫做先验概率，指的是在没有别的前提信息情况下的概率值，这个值一般需要借助我们的经验估计得到。

而条件概率 $P(Bi|A)$，我们把他叫做是 后验概率，他代表了在获得了信息 $A$ 之后 $Bi$ 出现的概率，可以说后验概率是先验概率在获取了新信息之后的一种修正。

贝叶斯公式的应用举例

比如，贝叶斯公式应用的一个常见例子就是 $X$ 光片的病理推断案例，在某个病人的 $X$ 光片中，医生看到了一个阴影，这就是结果事件 $A$，我们希望对造成这个结果的三种可能原因（原因 1：恶性肿瘤；原因 2：良性肿瘤；原因 3：其他原因）进行分析判断，推断分属于各个原因的概率，如图所示：

例如，我们想求出原因是恶性肿瘤的概率，也就是求条件概率：$P(B_1|A)$ 的值。

我们只要知道在这三种原因下出现阴影的概率，也就是 $P(A|B1)$，$P(A|B2)$，$P(A|B3)$，以及三种原因的先验概率：$P(B1)$，$P(B2)$，$P(B3)$，就能通过贝叶斯公式$P(B1|A)=\frac{P(B1)P(A|B1)}{P(B1)P(A|B1)+P(B2)P(A|B2)+P(B3)P(A|B_3)}$ 求得，而上述这些需要我们知道的值，基本上都可以通过历史统计数据得到。

全文思路梳理

这一小节里，我们从概率到条件概率，再到全概率公式，最终聚焦到贝叶斯公式，从概念的层面一路梳理过来，目的是帮助大家迅速形成一套以条件概率为基石的认识世界的视角。理解条件概率的重要性不言而喻，这个概念将贯穿我们整个概率统计专栏体系。

分享交流

我们为本专栏付费读者创建了微信交流群，以方便更有针对性地讨论专栏相关的问题（入群方式请到第 3 篇末尾查看）。

[help me with MathJax]

事件的关系：深入理解独立性

离散型随机变量：分布与数字特征

连续型随机变量：分布与数字特征

多元随机变量（上）：联合、边缘与条件

多元随机变量（下）：独立与相关

多元随机变量实践：聚焦多元正态分布

极限思维：大数定理与中心极限定理

推断未知：统计推断的基本框架

经典统计推断：寻找最大似然

贝叶斯统计推断：最大后验

由静向动：随机过程导引

状态转移：初识马尔科夫链

变与不变：马尔科夫链的极限与稳态

基于马尔科夫链的近似采样

蒙特卡洛思想与接受-拒绝采样

马尔科夫链蒙特卡洛方法：通用采样引擎

隐马尔科夫模型：明暗两条线

概率估计：隐马尔科夫模型观测序列描述

状态解码：隐马尔科夫模型隐含状态揭秘

阅读全文: http://gitbook.cn/gitchat/column/5d9efd3feb954a204f3ab13d