概率分布基本概念、描述和应用

本文是自然语言处理系列——概率&统计部分的第二篇文章，想要阅读本系列其他文章的，请移步：

自然语言处理系列：开篇
概率&统计
- 概率&统计的基本术语详解
- 概率分布基本概念、描述和关系

概率分布基本概念、描述和应用
- 1. 分布的基本概念
- - 1.1 随机变量（Random Variable）
  - 1.2 样本空间（Sample Space）
- 2. 分布的基本描述
- **概率分布函数的定义**
- - 2.1 离散分布
  - 2.2 连续分布
- **概率密度函数的定义**
- 3. 随机变量/分布的基本关系
- - 3.1 条件概率分布
  - 3.2 随机变量的独立性
  - 3.3* 随机变量函数的概率分布
  - - 3.3.1 一般讨论
    - 3.3.2 和的概率分布
    - 3.3.3 商的概率分布
  - 3.3 共轭分布
  - 3.4 大数定理
  - 3.5 中心极限定理

1. 分布的基本概念

1.1 随机变量（Random Variable）

要定义随机变量，必须首先定义随机试验。随机试验指的是结果不确定的实验。随机试验有两个基本特征，一是在试验发生之前结果是不确定的，二是实验是可以重复的。
随机变量就是代表随机试验发生的结果的变量。换句话说，随机变量的值“随机会而定”。请注意，这里的随机试验不单单是狭义上的试验，任何“发生之前或者观察到之前结果不确定的试验”都叫做随机试验。比如说抛掷一枚色子，测量一个班级中某人的身高等等。
一旦知道了随机试验的结果，那么这个值就不再称之为随机变量，比如说赌博的人会经常有侥幸心理：“我已经连续输了8次了，下一次应该会赢吧”。实际上，前八次随机试验已经发生了，它不会再对第九次的结果产生影响。但是只要赌局是随机的，那么每一次赌局（随机试验）的结果在赌局进行之前就是随机变量，后面可以看到，如果这个随机变量服从一定的分布，我们可以计算连续九次都输的可能性大小。随机变量有两种分类方法：

根据维度的不同，随机变量可以分为一维随机变量和多维随机变量（或称为随机向量）。举一个通俗的例子，抛掷一枚色子，结果就是一维随机变量；抛掷两枚色子，两枚色子分别的结果就组成二维随机变量 ( x 1 , x 2 ) (x_{1},x_{2}) (x1,x2)。
根据取值的不同，随机变量可以分为离散型随机变量和连续型随机变量（实际上，连续型随机变量的本质是它具有密度函数）。离散型随机变量的值只能取有限个或者可列无限个（即虽然取值的可能性是无限的，但是可以使用某种规则表达出来，比如服从泊松分布的随机变量。），比如随机试验抛掷一枚色子，色子的值就是离散型随机变量；连续性随机变量的值的数量是无限个，比如测量一个班级的某人的身高。

1.2 样本空间（Sample Space）

以前一看到“空间”两个字我都会头大（大概是让那些复杂的外国人名+空间的命名方法给吓得，比如希尔伯特空间等等），但是其实空间在数学里的定义大抵就是两种：一是代表某种规则的结合，比如希尔伯特空间是线性完备的内积空间，巴拿赫空间是线性完备的赋范空间等；第二种代表所有可能性的集合，样本空间就是这个意思。
因此，样本空间可以定义为随机试验的所有可能性结果组成的集合。样本空间可以是有限的，也可以是无限的。比如说抛掷一枚色子，样本空间为{1,2,3,4,5,6}，测量人的身高，样本空间为[0,人类最高身高]。表示可能性的集合的空间还有很多，比如在机器学习中的输入空间、特征空间、假设空间、版本空间、输出空间等等。

2. 分布的基本描述

样本空间规定了随机变量能取哪些值，但是我们更想知道的是取这些值的概率是多少，这时候就需要使用分布（Distribution）来刻画。在弄清楚分布之前，我们首先要搞清楚概率的两条基本特征：

概率的是介于 [ 0 , 1 ] [0,1] [0,1]之间的值；
所有样本空间的概率之和为1。

这两条基本特征在任何情况下都是成立的。
概率可以用来描述分布，除此之外，还有一种叫做分布函数（Cumulative Distribution Function, CDF）的函数也可以用来描述分布。这里只讨论一维的情况。

概率分布函数的定义

假设 X X X为一维随机变量，则函数
F ( x ) = P ( X ⩽ x ) ( − ∞ < x < ∞ ) F(x)=P(X\leqslant x) (-\infty<x<\infty) F(x)=P(X⩽x)(−∞<x<∞)>称之为随机变量 X X X的分布函数。分布函数的定义对于离散型随机变量和连续性随机变量都成立。

分布函数有以下三条常用的性质或者结论：

分布函数是单调非减的；
分布函数的极限满足以下公式： F ( x → ∞ ) = 1 F(x\rarr\infty)=1 F(x→∞)=1 F ( x → − ∞ ) = 0 F(x\rarr-\infty)=0 F(x→−∞)=0
分布函数和概率的计算满足以下公式： P ( x 1 < X ⩽ x 2 ) = F ( x 2 ) − F ( x 1 ) P(x_{1}<X\leqslant x_{2})=F(x_{2})-F(x_{1}) P(x1<X⩽x2)=F(x2)−F(x1)

2.1 离散分布

离散随机变量服从的分布称之为离散分布。对于离散分布，我们只需要简单地定义样本空间中的每一个可能取值的概率就可以了。另外我们容易得到离散分布的概率和分布函数之间的关系： F ( x ) = P ( X ⩽ x ) = ∑ { y ∣ y ⩽ x } P ( y ) F(x)=P(X \leqslant x)=\sum_{ \left\{ y|y\leqslant x \right\} }P(y) F(x)=P(X⩽x)={y∣y⩽x}∑P(y)常见的离散分布有二项分布、伯努利分布、多项分布、范畴分布、指数分布、泊松分布、超几何分布等。本部分的下一篇博客中我们将看到以上常用的离散分布的性质。
离散分布数学期望的计算公式为： E ( X ) = ∑ i = 1 m x i P ( x i ) E(X)=\sum_{i=1}^mx_{i}P(x_{i}) E(X)=i=1∑mxiP(xi)

2.2 连续分布

连续随机变量服从的分布称之为连续分布。连续分布的概率表示比较复杂，因为连续随机变量的可能取值为无穷多个，因此理论上连续分布的概率处处为零（如不为零，则对无穷多个非零数进行累加，得到的概率和将是无穷大而不是1）。为了解决这个问题，使用概率密度函数（Probability Density Function, PDF）来表示随机变量在每个可能取值处的“密度”。之所以称之为“密度”，是因为它的概念同我们日常讲的“单位体积的质量”的定义有一些相似之处。
在数学上，概率密度函数是使用概率分布函数来定义的：

概率密度函数的定义

设连续型随机变量 X X X的概率分布函数是 F ( x ) F(x) F(x)，则它的导数 f ( x ) = F ′ ( x ) f(x)=F'(x) f(x)=F′(x)称之为随机变量 X X X的概率密度函数。

通过上面的定义我们会发现，概率分布函数实际上是概率密度函数的积分。我们可以用图2.1来别表示某个连续型随机变量的概率密度函数和概率分布函数。

图 2.1 正态分布的分布函数（左）和密度函数（右）
根据概率密度函数的定义，我们能够得到它的三条性质：

概率密度函数大于等于0；
概率密度函数在所有样本空间中的积分为1，当样本空间未知时，我们可以使用： ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^\infty f(x)dx=1 ∫−∞∞f(x)dx=1
对于任何常数a<b，有： P ( a ⩽ X ⩽ b ) = F ( b ) − F ( a ) = ∫ a b f ( x ) d x P(a\leqslant X \leqslant b)=F(b)-F(a)=\int_{a}^{b}f(x)dx P(a⩽X⩽b)=F(b)−F(a)=∫abf(x)dx

3. 随机变量/分布的基本关系

3.1 条件概率分布

很多随机变量之间存在概率上的联系，比如说一个人的身高和体重存在一定的关联性：当身高超过1米8时，体重低于50公斤的可能性很小（默默地摸了下自己的肚子）。对于上述所说的概率，我们可以表示为 P ( 体重 < 50 公斤 ∣ 身高 = 1 米 8 ) P(体重<50公斤|身高=1米8) P(体重<50公斤∣身高=1米8)。
更一般地，对于随机变量 X 1 X_{1} X1和 X 2 X_{2} X2,我们将条件概率分布表示为以下形式：

对于离散型变量， P ( X 1 = a i ∣ X 2 = b j ) P(X_{1}=a_{i}|X_{2}=b_{j}) P(X1=ai∣X2=bj)表示当 X 2 取 b j 的时候， X 1 取值为 a i X_{2}取b_{j}的时候，X_{1}取值为a_{i} X2取bj的时候，X1取值为ai的概率
对于连续型变量， f ( X 1 = a i ∣ X 2 = b j ) f(X_{1}=a_{i}|X_{2}=b_{j}) f(X1=ai∣X2=bj)表示当 X 2 取 b j 的时候， X 1 取值为 a i X_{2}取b_{j}的时候，X_{1}取值为a_{i} X2取bj的时候，X1取值为ai的概率密度函数

我们很容易还会想到，当 X 2 X_{2} X2取尽所有值时， X 1 X_{1} X1的取值不再受到 X 2 X_{2} X2的影响，也就是说：

对于离散型变量， ∑ j = 1 n P ( X 1 = a i ∣ X 2 = b j ) P ( X 2 = b j ) = P ( X 1 = a i ) \sum_{j=1}^{n}P(X_{1}=a_{i}|X_{2}=b_{j})P(X_{2}=b_{j})=P(X_{1}=a_{i}) j=1∑nP(X1=ai∣X2=bj)P(X2=bj)=P(X1=ai)
对于连续型变量， ∫ − ∞ ∞ f ( X 1 = a i ∣ X 2 = b j ) f ( X 2 ) d X 2 = f ( X 1 = a i ) \int_{-\infty}^{\infty}f(X_{1}=a_{i}|X_{2}=b_{j})f(X_{2})dX_{2}=f(X_{1}=a_{i}) ∫−∞∞f(X1=ai∣X2=bj)f(X2)dX2=f(X1=ai)

这就是所谓的全概率公式。
相对于全概率公式，在条件概率中我们用到的最多的是贝叶斯公式。在认识贝叶斯公式之前，我们先来理解联合概率。前面讲的条件概率描述了已知一个随机变量的值时另一个随机变量的概率（或概率密度）大小，而联合概率描述的是两个随机变量的取值大小。不失一般性， P ( X 1 = a i , X 2 = b j ) P(X_{1}=a_{i},X_{2}=b_{j}) P(X1=ai,X2=bj)表示了随机变量 X 1 和 X 2 X_{1}和X_{2} X1和X2的联合概率，意义为 X 1 = a i 且 X 2 = b j X_{1}=a_{i}且X_{2}=b_{j} X1=ai且X2=bj的概率大小。我们也可以把这种情景推广到连续型随机变量的概率密度上(为了表达简单，以下暂时只讨论离散型情况，在不特别说明的情况下，连续型随机变量同样适用)。
贝叶斯公式实际上描述了条件概率和联合概率的关系，首先，我们有：
P ( X 1 = a i ∣ X 2 = b j ) = P ( X 1 = a i , X 2 = b 2 ) P ( X 2 = b j ) P(X_{1}=a_{i}|X_{2}=b_{j})=\frac{P(X_{1}=a_{i},X_{2}=b_{2})}{P(X_{2}=b_{j})}_{} P(X1=ai∣X2=bj)=P(X2=bj)P(X1=ai,X2=b2)
这很容易理解，想象一下联合概率是两个随机变量不确定时的概率，而条件概率是一个随机变量确定的情况下，另一个随机变量取值的概率。如果我们使用 P ( X 2 = b j ) P(X_{2}=b_{j}) P(X2=bj)做分母，实际上是把 X 2 = b j X_{2}=b_{j} X2=bj以概率的形式确定了下来，得到的自然是条件概率 P ( X 1 = a i ∣ X 2 = b j ) P(X_{1}=a_{i}|X_{2}=b_{j}) P(X1=ai∣X2=bj)。当然，以上公式有严格的证明，我们这里不做讨论。
因为随机变量 X 1 X_{1} X1和 X 2 X_{2} X2是对称的，因此我们有： P ( X 1 = a i , X 2 = b 2 ) = P ( X 1 = a i ∣ X 2 = b j ) P ( X 2 = b j ) = P ( X 2 = b j ∣ X 1 = a i ) P ( X 1 = a i ) {P(X_{1}=a_{i},X_{2}=b_{2})}=P(X_{1}=a_{i}|X_{2}=b_{j})P(X_{2}=b_{j})=P(X_{2}=b_{j}|X_{1}=a_{i})P(X_{1}=a_{i}) P(X1=ai,X2=b2)=P(X1=ai∣X2=bj)P(X2=bj)=P(X2=bj∣X1=ai)P(X1=ai)
以上公式可以转化成： P ( X 1 = a i ∣ X 2 = b j ) = P ( X 1 = a i , X 2 = b j ) P ( X 2 = b j ) P(X_{1}=a_{i}|X_{2}=b_{j})=\frac{{P(X_{1}=a_{i},X_{2}=b_{j})}}{P(X_{2}=b_{j})} P(X1=ai∣X2=bj)=P(X2=bj)P(X1=ai,X2=bj)
或者： P ( X 2 = b j ∣ X 1 = a i ) = P ( X 2 = b j , X 1 = a i ) P ( X 1 = a i ) P(X_{2}=b_{j}|X_{1}=a_{i})=\frac{{P(X_{2}=b_{j},X_{1}=a_{i})}}{P(X_{1}=a_{i})} P(X2=bj∣X1=ai)=P(X1=ai)P(X2=bj,X1=ai)
我们还可以用全概率公式将贝叶斯公式的分母表示出来，也就是 P ( X 2 = b j ) = ∑ i = 1 m P ( X 1 = a i , X 2 = b j ) P ( X 1 = a i ) P(X_{2}=b_{j})=\sum_{i=1}^{m}P(X_{1}=a_{i},X_{2}=b_{j})P(X_{1}=a_{i}) P(X2=bj)=i=1∑mP(X1=ai,X2=bj)P(X1=ai)
利用贝叶斯公式，我们知道了任何两个概率，就可以求其它概率了。

3.2 随机变量的独立性

未完待续

3.3* 随机变量函数的概率分布

未完待续

3.3.1 一般讨论

3.3.2 和的概率分布

3.3.3 商的概率分布

3.3 共轭分布

在讲述贝叶斯概率的时候，我们认识了先验分布和后验分布，在实际应用贝叶斯方法时，如果后验分布与鲜艳分布属于同类，则先验分布和后验分布被称为共轭分布。关于共轭分布的更多内容，我们将在讲解最大似然估计（MLE）和最大后验估计（MAP）时讲解。

3.4 大数定理

频率收敛于概率，未完待续

3.5 中心极限定理

简单地说，和的分布收敛于正态分布的定理叫做“中心极限定理”，未完待续

概率分布基本概念、描述和关系相关推荐

数据挖掘中的概念描述
数据挖掘一般可分为描述型数据挖掘和预测型数据挖掘,概念描述讲的就是描述型数据挖掘. 一.概念描述基本知识 1.1 两种类型的数据挖掘从数据分析角度出发,数据挖掘可分为两种类型: 描述型数据挖掘:以简 ...
NS3系列—3———NS3中文：4 概念描述
http://www.cnblogs.com/lovemo1314/archive/2011/02/12/1951867.html NS3中文:4 概念描述 4 概念概述(Conceptual Ov ...
静态分析领域中弱点、不足、缺陷、故障等概念之间的关系
在CWE范畴内,讨论的核心内容是"弱点"及"不足",而在软件静态分析范畴内,研究的核心内容是"缺陷"及"故障",CWE已 ...
用python对数据进行主成分分析、类概念描述及特征化分析-实验报告
数据挖掘课程的期中实验,仅供参考.完成时间:2022.10.29 基本要求:利用python对数据集中的数据进行主成分分析.类概念描述及特征化分析.要有相关结果的可视化结果.比如数据的分布情况. 数据 ...
【基础01】二进制、八进制、十进制、十六进制的概念及转换关系
[基础01]二进制.八进制.十进制.十六进制的概念及转换关系概述:二进制.八进制.十进制.十六进制的概念及转换关系详解一.各进制的概念常用的进制包括:二进制.八进制.十进制与十六进制,它们之间区 ...
机器学习中贝叶斯判决、概率分布、样本等概念间的关系
以下是在看模型识别,机器学习及数理统计时,对贝叶斯决策.概率分布.样本关系的总结,每想到一点就写下来,比较乱,这块需要反复学习.慢慢理解. 1. 机器学习的一些概念: 什么是机器学习? 机器学习包含哪 ...
模型描述的关系模式_框架篇：见识一下linux高性能网络IO+Reactor模型
前言网络I/O,可以理解为网络上的数据流.通常我们会基于socket与远端建立一条TCP或者UDP通道,然后进行读写.单个socket时,使用一个线程即可高效处理:然而如果是10K个socket连接 ...
大数据、云计算、物联网、数据仓库、OLAP、OLTP、等大数据你必须知道并且了解的概念及相关关系，我的一些总结
三个概念 Cloud computing-云计算: 定义: 百度百科解释: 云计算(cloud computing)是分布式计算的一种,指的是通过网络"云"将巨大的数据计算处理程序 ...
模型描述的关系模式_最常用的数据模型 - 关系模型
关系模型是目前最常用地数据模型之一.关系型数据库系统采用关系模型作为数据的组织方式,在关系模型中用表格结构表达实体集,以及实体集之间的联系,其最大特点是描述的一致性.关系模型是由若干个关系模式组成的集 ...

概率分布基本概念、描述和关系