第三章、概率论与数理统计

一、概率论基础
- 1.1 概率论基础
- 1.2 事件与概率
- 1.3 古典概型与几何概型（最简单的概率分布）
二、条件概率
- 2.1 条件概率
- 2.2 全概率公式
三、概率分布与统计量
- 3.1 概率分布类型
- 3.2 期望与方差
- 3.3 高斯分布
四、概率分布进阶
- 4.1 分布函数
- 4.2 均匀分布
- 4.3 指数分布
五、联合分布
- 5.1 二维随机变量及联合概率分布
- 5.2 边缘概率
六、主成分分析法
- 6.1 多维分布与协方差
- 6.2 主成分分析法

一、概率论基础

1.1 概率论基础

1.1.1、概率论与数理统计定义

我们知道，自然界中的现象可化为为如下两类：

确定性现象：条件完全决定结果，比如太阳东升西落
随机性现象：条件不完全决定结果（可能出现这样的结果，也可能出现那样的结果，预先无法断言），比如明天是否下雨

进一步，什么是概率论与数理统计呢？简而言之，二者都是对随机性现象进行研究的数学工具，具体来说如下：

随机性现象：具有不确定性与统计规律性
概率论：从数量上研究随机现象的统计规律性的科学
数理统计：从应用角度研究处理随机性数据，建立有效的统计方法，进行统计推理

1.1.2、随机试验定义

定义：在概率论中，将具有下述三个特点的试验称为随机试验，简称试验。随机试验常用E表示。

试验的可重复性——在相同条件下可重复进行
一次试验结果的随机性——一次试验的可能结果不止一个，且试验之前无法确定具体是哪种结果出现
全部试验结果的可知性——所有可能的结果是预先可知的，且每次试验有且仅有一个结果出现

例如：
E1E_1E1抛一枚硬币，观察正面HHH、反面TTT出现的情况
E2E_2E2掷一颗骰子，观察出现的点数

1.1.3 样本空间与样本点的定义

样本空间：试验的所有可能结果所组成的集合称为试验EEE的样本空间,记为Ω\OmegaΩ
样本点：试验的每一个可能出现的结果（样本空间中的元素）称为试验EEE的一个样本点,记为ω\omegaω。

例如：
E1E_1E1：抛一枚硬币，观察正面HHH、反面TTT出现的情况；Ω1={H,T}\Omega_1=\{H,T\}Ω1={H,T}
E2E_2E2：掷一颗骰子，观察出现的点数情况；Ω2={1,2,3,4,5,6}\Omega_2=\{1,2,3,4,5,6\}Ω2={1,2,3,4,5,6}

1.2 事件与概率

1.2.1 随机事件/基本事件/复合事件定义

随机事件：样本空间的任意一个子集称为随机事件，简称为事件，记作A,B,CA,B,CA,B,C等

例如，在试验E2E_2E2中，令AAA表示为"出现奇数点"，AAA就是一个随机事件。

基本事件：仅包含一个样本点ω\omegaω的随机事件，即单点子集{ω}\{\omega\}{ω}
复合事件：包含两个或两个以上样本的事件

1.2.2 事件的性质和运算

事件的本质是集合，而集合的一切性质和运算都适用于事件。

1.2.3 频率与概率定义

频率：在相同的条件下，进行了nnn次试验，在这nnn次试验中，事件AAA发生的次数nAn_AnA，称为事件AAA发生的频数。比值nAn\frac{n_A}{n}nnA称为事件A发生的频率，并记成fn(A)f_n(A)fn(A)
概率：在相同的条件下进行nnn次重复试验，当nnn趋于无穷大时，事件AAA发生的频率fn(A)f_n(A)fn(A)稳定于某个确定的常数ppp，称此常数ppp为事件AAA发生的概率，记作P(A)=pP(A)=pP(A)=p

注：上述概率定义属于频率学派定义，实际上学术界有两种观点，一种是频率学派，一种是贝叶斯学派。

1.2.4 概率的性质

性质1、0≤P(A)≤1,P(ϕ)=00 \le P(A) \le 1, P(\phi)=00≤P(A)≤1,P(ϕ)=0 （任何一个事件概率介于0到1之间，空事件概率为0）
性质2、P(Aˉ)=1−P(A)P(\bar{A})=1-P(A)P(Aˉ)=1−P(A)（互补性，任何事件的补事件概率=1−1-1−这个事件的概率）
性质3、P(A−B)=P(A)−P(AB)P(A-B)=P(A)-P(AB)P(A−B)=P(A)−P(AB)
性质4、对于任意事件A,BA,BA,B，有P(A+B)=P(A)+P(B)−P(AB)P(A+B)=P(A)+P(B)-P(AB)P(A+B)=P(A)+P(B)−P(AB)（加法公式）

例题

例1、设A,BA,BA,B为两个随机事件，P(A)=0.5P(A)=0.5P(A)=0.5，P(AB)=0.8P(AB)=0.8P(AB)=0.8，P(A∪B)=0.3P(A \cup B)=0.3P(A∪B)=0.3，求P(B)P(B)P(B)

答：
∵P(A+B)=P(A)+P(B)−P(AB)\because P(A+B)=P(A)+P(B)-P(AB)∵P(A+B)=P(A)+P(B)−P(AB)
∴P(B)=P(A+B)−P(A)+P(AB)=0.8−0.5+0.3=0.6\therefore P(B)=P(A+B)-P(A)+P(AB)=0.8-0.5+0.3=0.6∴P(B)=P(A+B)−P(A)+P(AB)=0.8−0.5+0.3=0.6

1.3 古典概型与几何概型（最简单的概率分布）

1.3.1 古典概型和几何概型的定义

古典概型：理论上，具有下面两个特点的随机试验的概率模型，称为古典概型（或等可能概型):
- 有限性：基本事件的总数是有限的，换句话说样本空间仅含有有限个样本点
- 等可能性：每个基本事件发生的可能性相同

把有限个样本点推广到无限个样本点的场合，人们引入了几何概型，由此形成了确定概率的另一方法——几何方法

几何概型：若对于一随机试验，具有下面三个特点的概率模型，称为几何概型：
- 每个样本点出现是等可能的
- 样本空间Ω\OmegaΩ所含的样本点个数为无穷多个
- 具有非零的，有限的几何度量，即0<m(Ω)<∞0<m(\Omega)<\infty0<m(Ω)<∞

1.3.2 古典概型和几何概型的计算公式

古典概型的概率计算公式如下：
- 设事件AAA中所含样本点个数为rrr，样本空间Ω\OmegaΩ中样本点总数为nnn，则有：P(A)=rn=A中样本点数Ω中样本点总数=A所包含的基本事件数基本事件总数P(A) = \frac {r} {n} = \frac {A中样本点数} {\Omega中样本点总数} = \frac {A所包含的基本事件数} {基本事件总数} P(A)=nr=Ω中样本点总数A中样本点数=基本事件总数A所包含的基本事件数
几何概型的概率计算公式如下：
- 当随机试验的样本空间是某个区域,并且任意一点落在度量(长度,面积,体积)相同的子区域是等可能的,则事件A的概率可定义为：P(A)=m(A)m(Ω)P(A) = \frac{m(A)}{m(\Omega)}P(A)=m(Ω)m(A) 其中，m(Ω)m(\Omega)m(Ω)是样本空间的度量，m(A)m(A)m(A)是构成事件AAA的子区域的度量

例题

例1：从1,2,….9这9个数字中任意取一个数，取后放回，而后再取一数，试求取出的两个数字不同的概率。

答：基本事件总数n=92n=9^2n=92，因为第一次取数有999种可能取法，这是可重复排列问题。设AAA表示“取出的两个数字不同”。AAA包含的基本事件数9∗89*89∗8:因为第一次取数有999中可能取法，为保证两个数不同，第二次取数应从另外的888个数中选取，有888中可能取法，r=9∗8r=9*8r=9∗8，故P(A)=rn=9∗892=89P(A) = \frac{r}{n} = \frac{9*8}{9^2} = \frac{8}{9}P(A)=nr=929∗8=98

二、条件概率

2.1 条件概率

2.1.1 前置定义

在学习条件概率定义之前，我们先介绍以下几个定义：

相互独立：事件AAA发生对事件BBB发生的概率没有影响，则称两事件是相互独立。
和事件：事件AAA与BBB至少有一个发生的事件叫做AAA与BBB的和事件，记为A∪BA \cup BA∪B或A+BA + BA+B
积事件：事件AAA与BBB都发生的事件叫做AAA与BBB的积事件，记为A∩BA \cap BA∩B或ABABAB
互斥：若ABABAB为不可能事件，则说事件AAA与BBB互斥

2.1.2 条件概率定义

一般地，设AAA、BBB为两个事件，且P(A)>0P(A)>0P(A)>0，称：P（B∣A）=P(AB)P(A)P（B|A） = \frac{P(AB)}{P(A)}P（B∣A）=P(A)P(AB)为在事件AAA发生的条件下，事件BBB发生的条件概率P(B∣A)P(B|A)P(B∣A)，读作：AAA发生的条件下，BBB的概率

2.1.3 条件概率的几何意义

P(B∣A)P(B|A)P(B∣A)相当于把AAA看作新的基本事件，求A∩BA \cap BA∩B发生的概率，如下图：

0≤P(B∣A)≤10≤P(B|A)≤10≤P(B∣A)≤1
可加性：如果BBB和CCC互斥，那么P[(BUC)∣A]=P(B∣A)+P(C∣A)P[(BUC)|A]=P(B|A)+P(C|A)P[(BUC)∣A]=P(B∣A)+P(C∣A)

2.1.4 乘法公式

乘法公式：
- 若P(B)>0P(B)>0P(B)>0，由条件概率定义，可得：P(AB)=P(B∣A)P(A)=P(A∣B)P(B)P(AB) = P(B|A)P(A) = P(A|B)P(B)P(AB)=P(B∣A)P(A)=P(A∣B)P(B) 上式成为条件事件的乘法公式。此外，若AAA、BBB事件相互独立，那么P(AB)=P(A)P(B)P(AB)=P(A)P(B)P(AB)=P(A)P(B)
条件概率下的链式法则：
- 前一个公式可以推广到设A1,A2,A3,...,AnA_1,A_2,A_3,...,A_nA1,A2,A3,...,An为任意nnn个独立事件，且 P(A1A2…An)>0P(A_1 A_2…A_n)>0P(A1A2…An)>0，则P(A1A2…An)=P(A1)P(A2∣A1)P(A3∣A1A2)...P(An∣A1A2..An−1)P(A_1 A_2…A_n)=P(A_1)P(A_2|A_1)P(A_3 | A_1 A_2)...P(A_n | A_1 A_2..A_{n-1})P(A1A2…An)=P(A1)P(A2∣A1)P(A3∣A1A2)...P(An∣A1A2..An−1)那么我们称这个公式是条件概率下的链式法则

2.2 全概率公式

2.2.1 排列与组合

三、概率分布与统计量

3.1 概率分布类型

3.2 期望与方差

3.3 高斯分布

四、概率分布进阶

4.1 分布函数

4.2 均匀分布

4.3 指数分布

五、联合分布

5.1 二维随机变量及联合概率分布

5.2 边缘概率

六、主成分分析法

6.1 多维分布与协方差

6.2 主成分分析法

【机器学习数学基础】——3、概率论与数理统计相关推荐

视频教程-机器学习数学基础--概率论与数理统计视频教学-机器学习
机器学习数学基础--概率论与数理统计视频教学北京大学计算机技术及应用专业,从事IT行业十几年,主要从事java.Linux.手机应用开发.人工智能神经网络方面的工作.曾在中国数码集团.厦门三五互联集 ...
学习笔记(01):机器学习数学基础--概率论与数理统计视频教学-矩估计和最大似然估计...
立即学习:https://edu.csdn.net/course/play/8617/177375?utm_source=blogtoedu 我觉得这个老师就是猴博士本人,因为我最近也买了猴博士的&q ...
免费教材丨第51期：数学基础课程----概率论教程、机器学习中的数学基础
小编说过去几个月里,有不少人联系我,向我表达他们对人工智能.数据科学.对利用机器学习技术探索统计规律性,开发数据驱动的产品的热情.但是,我发现他们中有些人实际上缺少为了获取有用结果的必要的数学直觉和 ...
在线阅读！！机器学习数学精华：概率论与数理统计
机器学习,需要一定的数学基础,需要掌握的数学基础知识特别多,如果从头到尾开始学,估计大部分人来不及,我建议先学习最基础的数学知识,基础知识可以分为高等数学.线性代数.概率论与数理统计三部分,我整理了相 ...
数学基础知识回顾(一):概率论与数理统计
概率论与数理统计前言一.基本概念 1.分布函数与概率密度函数 2.多个随机变量的组合 3.总体与样本,期望与方差 4.点估计与估计量的评价标准二.常见分布,大数定律,中心极限定理 1.常见分布 ...
python实践数学基础——线性代数，概率论与数理统计，基本库的使用（jupyter notebook）
<数据科学基础实践> 这是一个jupyter里python实践各种数学基础的目录,文中链接直通jupyter形式展示的代码文章,仅作为学习记录.(未完待续,内容持续更新中) 一.线性代数 ...
112页数学知识整理！机器学习-数学基础回顾.pptx
机器学习的基础是数学,数学基础决定了机器学习从业人员的上限,想要学好机器学习,就必须学好数学. 机器学习所需要的数学知识,包括了数学分析(微积分),线性代数,概率论,统计,应用统计,数值分析,常微分方 ...
【本站作品】机器学习数学基础专辑
本文推荐一份机器学习数学基础专辑,在线阅读地址:(数学基础专辑), 同时文末提供下载. 机器学习,需要一定的数学基础,也需要一定的代码能力.机器学习从业者数学基础不扎实,只会用一些工具和框架,相当于某 ...
概率论与数理统计思维导图_数学思维到底有多重要？这个学科往往影响国家实力...
原标题:<关于加强数学科学研究工作方案>日前发布--数学思维今何在密码学家王晓云日前获得了2019年未来科学大奖数学与计算机科学奖.她提出密码哈希函数的碰撞攻击理论,推动帮助新一代密码哈 ...

【机器学习数学基础】——3、概率论与数理统计