【Mark】概率论与数理统计

概率论的基本概念
随机变量及其分布
多维随机变量及其分布
随机变量的数字特征
大数定律及中心极限定理
样本及抽样分布
参数估计

链接概率论与数理统计BV15t411D7G1.
链接知乎大佬笔记.

概率论的基本概念

随机试验
样本空间、随机事件
频率与概率
等可能概型
条件概率
全概率公式与贝叶斯公式
事件独立性

什么是概率统计？

必然现象的确定性规律
随机现象虽然存在不确定性，但还是存在一定规律的 (即统计规律)

自测标准：

是否对随机有足够认识
是否对数据有兴趣、有感觉

自然界现象：确定现象，随机现象
试验，不同于实验范围比较广
随机试验，用 E 表示

性质：1.可重复，2.可观察 (结果不止一个，且知道S)，3.不确定
我们通过随机试验来研究随机现象

样本空间，用 S 表示
E 的所有可能结果组成的集合

S 中的元素是样本点，每次试验只有一个样本点

随机事件，S 的子集，通常用 A、B、C 表示

事件发生: A 中的一个样本点出现，事件 A 发生
必然事件，就是 S
不可能事件，就是空集 Φ
基本事件，其集合中只包含了一个样本点

事件的关系与运算

包含、相等
和事件，至少有一个发生，或、∪、+
积事件，同时发生，且、∩、×
互斥、逆、差
互斥事件，A、B不同时发生，没有交集（不相容）
对于不相容的事件，P(A+B) = P(A) + P(B)
互逆事件，A与A非
差事件，A发生B不发生，A - B
独立与互斥不同，若AB相互独立，P(AB) = P(A) × P(B)
A - B = (A + B) - B = A - AB
因为事件本身就是一个集合，所以满足集合的所有运算定律

频率，通过实验结果来说明事件发生的频繁程度
特征：随着实验次数n增加，频率会具有稳定性，即 f_n(A)趋于一个稳定值 p

概率，刻画随机事件在一次试验中发生可能性大小的数，即 p (概率的统计性定义)
P(A)，A 事件发生的概率
概率的公理化定义：

非负性 P(A) >= 0
规范性 P(S) = 1
可列可加性若A₁ A₂ …两两互斥，则P(A₁+ A₂ …) = P(A₁)+P(A₂)+…

可推出 P(B - A) = P(B) - P(AB) 性质4

加法公式：奇数个求和，偶数个求差

P(A U B) = P(A) + P(B) - P(AB) 20.2.17
若A、B 不相容，则P(A U B) = P(A) + P(B)
所以计算 A 和 B 至少一个发生的概率需要先知道二者之间的关系

等可能概型 (古典概型) 基本的概率模型
特征：

样本空间中样本点是有限的 (有限性 )
出现每一个样本点的概率相等 (等可能性)

古典概型中主要就是数数了，怎么把数给数对？
排列组合
组合数，Combination 排列数，Arrangement
链接：关于排列组合.

计算：共 m 项，从 n 开始递减，计算组合数C时除 m! 即可
抽样方法说明：
1.不放回抽样 2.放回抽样

不考虑顺序的话，用组合数隐藏

条件概率

P(B | A) 表示在A发生的前提下，B发生的概率
样本空间由 S 缩小为 A
定义：P(B|A) = P(AB) / P(A) 其中P(A)大于0
乘法公式：P(AB) = P(B|A) × P(A)
事件ABC…同时发生的概率 = P(A) × P(B|A) × P(C|AB)… 20.2.24
若A、B相互独立，则P(AB) = P(A) × P(B)
抽签问题
一般地，袋中有 a 只白球，b 只红球，k 个人依次在袋中取 1 球，
则不论放回还是不放回，第 i 个人取到白球的概率为 a / (a + b)

全概率公式 (全概型)

用全概率公式时，关键是构造一个合适的划分
定义 B₁ ~ B_n 互不相交，且并集为 S；称为 S 的一个划分 (完备事件组)
定理 P(A) = P(B₁)P(A|B₁) + … + P(B_n)P(A|B_n)
注：全概率公式是概率论的一个基本公式.
直接计算 P(A) 不易时，可构造一个划分 B₁ … B_n，利用这个公式来计算P(A).

Bayes公式 (贝叶斯概型)

在 A 已经发生的情况下，求 B_i 发生的概率（后验概率）
执果索因
其中利用全概率公式求得P(A) 做公式分母

独立性

若 P(AB) = P(A)P(B) ，则 A 与 B 相互独立
A事件发生与否对 B事件发生的概率完全无影响例如:下雨
相互独立与互不相容完全不同 20.3.9
A、B、C 两两独立无法推出 A、B、C 相互独立
实际问题中，常根据实际情形判断事件独立性
一旦判断事件独立，计算概率时尽可能用事件的乘积

小概率事件

实际推断原理，概率很小的事件在一次试验中几乎是不可能发生的
小概率事件在大量独立重复试验中至少发生一次几乎是必然的
千万不能轻视小概率事件

随机变量及其分布

随机变量
离散型随机变量及其分布律
随机变量的分布函数
连续型随机变量及其概率密度
均匀分布，指数分布，正态分布
随机变量的函数的分布

随机变量，将随机试验的结果数量化

名为变量，实际上是一种函数
X(e): S → R 的映射
自变量 e 具有随机性，线上的一个点
用某一变量取得各种不同的数值来描述随机试验的结果（更方便表达）
简写为 X、Y、Z
分两类：离散型和连续型

离散型随机变量

X 的取值有限个或可数个，则 X 为离散型随机变量
可数集 (可列集)：其中的元素是可以被数到的，只要肯花时间
不可数集：[0, 1]

离散型随机变量的概率分布律

简称分布律，又称概率分布，常用表格表示
内容包括：随机变量的所有可能取值 + 每个取值对应的概率
另一种表示形式：P(X = x_k) = p_k

几何分布
P(X = k) = (0.8)^k-1 • 0.2，k = 1,2,3…

常见的离散型随机变量：

最简单的退化分布 P(X = c) = 1
0-1分布 (两点分布)，X ~ B(1, p)
只有两个可能结果的试验，贝努利试验 (Bernoulli)
样本空间只包含两个元素
或仅考虑事件 A 发生与否
n重贝努利试验中 A 发生的次数 X
P(X = k) = C_n^k p^k(1 - p)^n-k
此时称 X 服从参数为 n, p 的二项分布，X ~ B(n, p)
泊松分布 (Poisson)

若概率分布已知，则随机变量对应的样本空间的任一随机事件概率可求出
离散型随机变量的分布函数是阶梯函数，跳跃点处的跳跃度就是该点概率

二项分布，将两种可能结果的试验独立重复 n 次

概率分布函数，F(x) = P(X ≤ x)，线上的一段区域，X 落入(-∞, x] 的概率
单调不减，值域 (0 ~ 1) (右连续函数)
可以定义任何随机变量

连续型随机变量，一定有一个概率密度函数 f(t)

此函数非负，单点取值概率为0，区间开闭无影响，f(t)值可以大于1
当其邻域 △x 足够小时， f(x) 与 △x 的乘积表示落在 x 点左右的概率
概率分布律，连续的随机变量有概率密度函数

泊松定理，泊松分布表，X ~ π(λ)，参数为 λ 的泊松分布

描述某段时间内，事件具体发生的概率
实际工作中，λ >= 20 即可用正态分布来处理

其中 t = 时间，n = 数量，λ = 事件发生的频率

均匀分布，X ~ U(a, b)，其概率密度函数 f(t) 值恒等于区间长度分之一，其余值为0

可简单理解为：均匀分布具有等可能性
计算概率时，可以用有效(范围内)区间长度 / 区间长度简单计算
其分布函数F(x)，落入a之前的概率P(x<a) = 0，落入ab之间的概率为 x - a / b - a，落入b之后的概率为1

指数分布，X ~ E(λ)，无记忆性，f(x) = λe^-λx

正态分布，X ~ N(μ, σ)，又叫高斯分布、误差分布，高斯在研究误差的时候发现了正态分布

σ 大于 0，关于 μ 对称，对称轴 μ 称为位置参数
σ 称为尺度参数，σ越小，越瘦长 (分散程度)
多个随机变量的和遵循正态分布 (中心极限定理)
f(x) 的积分是积不出来的，转化为标准正态，然后用标准正态分布表来求

标准正态分布，Z ~ N(0, 1)

链接泊松分布&指数分布.

多维随机变量及其分布

二维随机变量，离散型随机变量分布律
边缘分布
条件分布
- 离散型随机变量边际分布律与条件分布律
- 二元随机变量分布函数，边际分布函数与条件分布函数
二元连续型随机变量，联合概率密度
- 边际概率密度
- 条件概率密度
二元均匀分布，二元正态分布(期末不考)
相互独立的随机变量
两个随机变量的函数的分布
- Z = X + Y的分布
- max(X, Y)、min(X, Y)的分布

二元随机变量，二维随机变量

由线上的点转换成了平面上的点
离散型，有限对或可列无穷对

联合概率分布律，表格，P_ij

X、Y 所有可能的取值，列出的表格
离散型分布函数的跳跃点处的跳跃值可直接得出边际分布律
对于该表格，若X、Y相互独立，则对应点的概率等于边际分布律之积

边际分布律 P(X = x_i)，P_i•

当 X 确定为 x_i 时对应的所有的 Y 的概率之和
仅由边际分布律一般不能得到联合分布律

条件分布律，Y = y_j，条件已知，能写出很多

例：求 P(X = x_i | Y = y_j)，即 P_ij / P_·j，确定点的概率 / 条件满足的所有概率之和

联合分布函数，F(x, y) = P(X ≤ x, Y ≤ y)，坐标系中点(x, y)的左下平面，X，Y 落入该区域的概率

关于 x，y 单调不减，右连续
比一元多的性质：x₁ x₂ y₁ y₂ 围成的矩形区域，概率就是2，2减去1，2和2，1，加上重复减去的1，1

边际分布函数，令 x 趋于＋∞，得 Y 的边际函数 F_Y(y)，即 F(+∞, y)

联合概率分布在平面直角坐标系中比较好想
X、Y 其一趋于 ∞ 时，就是将对应的边延伸至无穷大，仅此而已

条件分布函数，前提 y 点概率 > 0，否则无意义 (这又是一个极小的邻域)

对于离散型的，y 点概率大于零即可，根据联合分布律写出条件分布律，再写出条件分布函数
对于连续型的，Y 在 y 极小邻域范围，仍记作 Y = y

联合概率密度(函数)，f(x, y)，以 xoy 平面为底的体积为 1 的顶曲面

其二重积分为联合分布函数，值即概率
同样的极小邻域 △x，△y，f(x, y) 与 △x△y 的乘积表示落在 (x, y) 点左右的概率
对于连续点(x, y)，F(x, y) 的二阶偏导 = f(x, y)

边际概率密度(函数)，求 F_Y(y)，对 x 在(-∞, +∞)上积分

条件概率密度，指定的条件，联合概率密度 / 边际概率密度

二元均匀分布，在面积为 A 的区域 D 中，有 f(x, y) = 1 / A，其余为 0
二元正态分布，(X，Y) ~ N(μ₁, μ₂, σ₁², σ₂², ρ) 概率密度式子不好写。。，钟形图 (这两个不考)

二元正态分布的两个边际分布都是一元正态分布，且都不依赖 ρ
条件分布仍是正态分布，依赖 ρ

随机变量的独立性

定义：若分布函数 = 边际函数之积，则 X、Y 相互独立
离散型：P_ij = P_i· P_·j ，分布律判断，需检验所有等式，一对不等即可判断不独立
连续型：f(x, y) = f(x)f(y)，密度函数判断，
若独立，则可分解为 x 的函数与 y 的函数的乘积(反之不成立)

随机变量函数的分布，对应一元的函数的分布

随机变量的数字特征

数学期望
方差
协方差及相关系数
矩、协方差矩阵

数学期望，就是平均值

随机变量的数学期望

离散型随机变量 X，期望 E(X) = ∑ x_k p_k 累加和，前提级数收敛
推的过程：1/n · ∑ x_k·n_k = ∑ x_k·n_k/n = ∑ x_k·f_k，f_k 频率稳定值为 p_k
p_k 也可理解为加权平均中的权重
连续型随机变量 X，期望 E(X) = ∫ xf(x)dx 在(-∞, +∞)上积分
参数为 λ 的泊松分布的数学期望就是 λ
参数为 μ σ 的正态分布，数学期望为 μ
参数为 λ 的指数分布，数学期望为 1/λ
参数为 n p 的二项分布，数学期望为 n·p
参数为 p 的几何分布，数学期望为 1/p

随机变量函数的数学期望

计算 E(Y) 时，不必算出 Y 的分布律或 f(Y)，
只需利用 X 的分布律或概率密度以及 Y 和 X 之间的关系就可以了，同理推广至二元
懒人定理 the Rule of the Lazy Statistacian
离散型，Y = g(X)，E(Y) = E[ g(X) ]
连续型，E(Y) = E(g(X)) = ∫_-∞^+∞ g(x)f(x)dx

数学期望的性质

E(aX + bY + c) = aE(X) + bE(Y) + c
E(XY) = E(X) E(Y)，X、Y相互独立

方差

离差：X - E(X)，平均离差 E[ X - E(X) ] = 0
方差：E{ [ X - E(X) ]²}，记作 D(X) 或 Var(X)
计算方差，通常用法：D(X) = E(X²) - [E(X)]²
标准差、均方差：方差开根号，记作 σ(X)，刻画 X 取值的波动性，衡量 X 取值的分散程度

方差的性质

常数方差 = 0，反之方差为 0，说明取值恒定为 c，E(X) = c
D(cX) = c²D(X)
D(X + Y) = D(X) + D(Y) + 2·tail，tail = E{[X-E(X)]·[Y-E(Y)]}，当X、Y相互独立时，tail = 0
D(X + c) = D(X)，等价于平移，波动性不变

常见

参数为 n，p 的二项分布B(n, p)，E(X) = np，D(X) = np(1-p)
参数为 μ σ 的正态分布N(μ, σ²)，E(X) = μ，D(X) = σ²
n 个独立正态随机变量，线性组合仍服从正态分布

协方差，是一个有量纲的数字特征 (量纲就是单位)

就是上面的 tail，记作 Cov(X, Y)
tail ≠ 0 证明 X、Y 不相互独立
tail > 0，称 X 与 Y 正相关
tail < 0，负相关
tail = 0，不相关
将其乘开再化简，得 tail = E(XY) - E(X)E(Y)，即协方差计算公式

协方差性质

代入 tail 可得证
XY可互换，无影响
Y = X，tail = D(X)
Cov(aX, bY) = ab·Cov(X, Y)
Cov(X₁ + X₂, Y) = Cov(X₁, Y) + Cov(X₂, Y)

相关系数，为消除量纲的影响 (表示线性关系密切程度)

ρ_XY = Cov(X, Y) / √D(X)·D(Y)
性质：ρ_XY 属于 (-1, 1)
|ρ_XY| = 1 时，当且仅当X、Y之间有严格的线性关系

不相关，本质意思就是 X、Y 无线性关系 (独立：二者没有关系)

ρ_XY = 0，不相关，等价条件 tail = 0 以及 E(XY) = E(X)E(Y)
独立则不相关，反之不然

矩阵暂时了解，记 n 元正态随机变量的四条重要性质

n 元正态随机变量，是一个向量，其任意子向量均服从 k 元正态分布
充要条件，其中元素 X₁ X₂ …任意线性组合均服从 1 元正态分布
正态变量的线性变换不变性
X₁ X₂ … 相互独立 <=> X₁ X₂ …两两不相关 <=> 协方差矩阵为对角矩阵 (唯对角线非0)

大数定律及中心极限定理

大数定律
中心极限定理

依概率收敛

对于随机变量序列 Y₁ Y₂ …，n 趋于正无穷时，P{ |Y_n - c| ≧ ε } = 0
称随机变量序列{Y_n, n ≧ 1} 依概率收敛于 c

切比雪夫不等式 Chebyshev，适用范围广，结果比较粗糙

贝努里大数定律：频率依概率收敛于概率
告诉我们，可以通过大量的独立重复实验来确定事件的概率

大数定律 Laws of Large Numbers

随机变量序列依概率收敛于 μ，当 E(X_i) 都相同时，μ = E(X_i)

切比雪夫大数定律的推论

前提：X_i相互独立，期望都为 μ，方差都为 σ²
算术平均依概率收敛到 μ

辛钦大数定律

前提：X_i 独立同分布
算术平均依概率收敛到 μ

独立同分布的中心极限定理 CLT

德莫弗-拉普拉斯中心极限定理

解题步骤

先根据中心极限定理，将正态分布写出，然后套用公式得出答案.

样本及抽样分布

随机样本
直方图和箱线图
抽样分布

定义

总体，全体
个体，全体中的一个
容量，总体中个体的数目
有限总体的容量足够大时可看作无限总体
样本，总体的子集，本书中皆指简单随机样本
简单随机样本的特点：独立同分布
如何得到该样本：放回抽样 (无限总体用不放回)
样本观测值，每次观测样本得到的样本值不一样
提取有效信息，构造统计量
常用统计量：样本均值，样本方差(1/(n-1))，样本矩
注：样本均值 x拔 ≠ 总体均值 μ
统计量的分布叫做抽样分布
抽样分布有三个比较重要的：卡方分布，t分布，f分布；(除正态分布外)

上α分位点，即该点右侧的概率为α（面积为α），该数值需查表
随机变量大于这个数的概率 = α

卡方 χ²，多个服从 N(0,1) 的随机变量的平方和
自由度，指随机变量的个数
χ² ~ χ²(n)
E(X) = n，D(X) = 2n
可加性：Y₁+Y₂ ~ χ²(n₁+n₂)
对一般的正态分布X，标准化 Y_i = (X_i - μ)/σ
χ² = Y_i² 的累加和

t分布
T ~ t(n)
就是 T = X / (√Y/n) ，其中Y ~ χ²(n)，X服从标准正态 N(0, 1)
即自由度为 n 的 t 分布
n趋于+∞时的 t 分布，就是标准正态分布

F分布
F ~ F(n₁, n₂)，自由度为 n₁，n₂ 的 F 分布
1/F ~ F(n₂, n₁)
就是 F = (X/n₁) / (Y/n₂)，其中X ~ χ²(n₁)，Y ~ χ²(n₂)
上α分位点：F_1-α(n₁, n₂) = 1 / F_α(n₂, n₁)

正态总体的样本均值与样本方差的分布
X拔 ~ N(μ, σ²/n)
E(S²) = σ²

链接 t分布, 卡方x分布，F分布.

参数估计

点估计
基于截尾样本的极大似然估计
估计量的评选标准
区间估计
正态总体均值与方差的区间估计
0-1分布参数的区间估计
单侧置信区间

P72