【Mark】概率论与数理统计
Contents
- 概率论的基本概念
- 随机变量及其分布
- 多维随机变量及其分布
- 随机变量的数字特征
- 大数定律及中心极限定理
- 样本及抽样分布
- 参数估计
- 链接 概率论与数理统计BV15t411D7G1.
- 链接 知乎大佬笔记.
概率论的基本概念
- 随机试验
- 样本空间、随机事件
- 频率与概率
- 等可能概型
- 条件概率
- 全概率公式与贝叶斯公式
- 事件独立性
什么是概率统计?
- 必然现象的确定性规律
随机现象虽然存在不确定性,但还是存在一定规律的 (即 统计规律)
自测标准:
- 是否对 随机 有足够认识
是否对 数据 有兴趣、有感觉
自然界现象:确定现象,随机现象
试验,不同于实验 范围比较广
随机试验,用 E 表示
- 性质:1.可重复,2.可观察 (结果不止一个,且知道S),3.不确定
我们通过随机试验来研究随机现象
样本空间,用 S 表示
E 的所有可能结果组成的集合
- S 中的元素是样本点,每次试验只有一个样本点
随机事件,S 的子集,通常用 A、B、C 表示
- 事件发生: A 中的一个样本点出现,事件 A 发生
必然事件,就是 S
不可能事件,就是空集 Φ
基本事件,其集合中只包含了一个样本点
事件的关系与运算
- 包含、相等
和事件,至少有一个发生,或、∪、+
积事件,同时发生,且、∩、× - 互斥、逆、差
互斥事件,A、B不同时发生,没有交集(不相容)
对于不相容的事件,P(A+B) = P(A) + P(B)
互逆事件,A与A非
差事件,A发生B不发生,A - B - 独立与互斥不同,若AB相互独立,P(AB) = P(A) × P(B)
A - B = (A + B) - B = A - AB
因为事件本身就是一个集合,所以满足集合的所有运算定律
频率,通过实验结果来说明事件发生的频繁程度
特征:随着实验次数n增加,频率会具有稳定性,即 fn(A)趋于一个稳定值 p
概率,刻画随机事件在一次试验中发生可能性大小的数,即 p (概率的统计性定义)
P(A),A 事件发生的概率
概率的公理化定义:
- 非负性 P(A) >= 0
- 规范性 P(S) = 1
- 可列可加性 若A1 A2 …两两互斥,则P(A1+ A2 …) = P(A1)+P(A2)+…
可推出 P(B - A) = P(B) - P(AB) 性质4
加法公式:奇数个求和,偶数个求差
- P(A U B) = P(A) + P(B) - P(AB) 20.2.17
若A、B 不相容,则P(A U B) = P(A) + P(B)
所以计算 A 和 B 至少一个发生的概率需要先知道二者之间的关系
等可能概型 (古典概型) 基本的概率模型
特征:
- 样本空间中样本点是有限的 (有限性 )
- 出现每一个样本点的概率相等 (等可能性)
古典概型中主要就是数数了,怎么把数给数对?
排列组合
组合数,Combination 排列数,Arrangement
链接:关于排列组合.
计算:共 m 项,从 n 开始递减,计算组合数C时除 m! 即可
抽样方法说明:
1.不放回抽样 2.放回抽样
不考虑顺序的话,用组合数 隐藏
条件概率
- P(B | A) 表示在A发生的前提下,B发生的概率
样本空间由 S 缩小为 A
定义:P(B|A) = P(AB) / P(A) 其中P(A)大于0
乘法公式:P(AB) = P(B|A) × P(A)
事件ABC…同时发生的概率 = P(A) × P(B|A) × P(C|AB)… 20.2.24
若A、B相互独立,则P(AB) = P(A) × P(B) - 抽签问题
一般地,袋中有 a 只白球,b 只红球,k 个人依次在袋中取 1 球,
则不论放回还是不放回,第 i 个人取到白球的概率为 a / (a + b)
全概率公式 (全概型)
- 用全概率公式时,关键是 构造一个合适的划分
定义 B1 ~ Bn 互不相交,且并集为 S;称为 S 的一个划分 (完备事件组)
定理 P(A) = P(B1)P(A|B1) + … + P(Bn)P(A|Bn)
注:全概率公式是概率论的一个基本公式.
直接计算 P(A) 不易时,可构造一个划分 B1 … Bn,利用这个公式来计算P(A).
Bayes公式 (贝叶斯概型)
- 在 A 已经发生的情况下,求 Bi 发生的概率 (后验概率)
执果索因
其中 利用全概率公式求得P(A) 做公式分母
独立性
- 若 P(AB) = P(A)P(B) ,则 A 与 B 相互独立
A事件发生与否 对 B事件发生的概率 完全无影响 例如:下雨
相互独立与互不相容完全不同 20.3.9
A、B、C 两两独立无法推出 A、B、C 相互独立 - 实际问题中,常根据实际情形判断事件独立性
一旦判断事件独立,计算概率时尽可能用事件的乘积
小概率事件
- 实际推断原理,概率很小的事件在一次试验中几乎是不可能发生的
小概率事件在大量独立重复试验中 至少发生一次 几乎是必然的 - 千万不能轻视小概率事件
随机变量及其分布
- 随机变量
- 离散型随机变量及其分布律
- 随机变量的分布函数
- 连续型随机变量及其概率密度
- 均匀分布,指数分布,正态分布
- 随机变量的函数的分布
随机变量,将随机试验的结果数量化
- 名为变量,实际上是一种函数
X(e): S → R 的映射
自变量 e 具有随机性,线上的一个点
用某一变量取得各种不同的数值来描述随机试验的结果(更方便表达)
简写为 X、Y、Z - 分两类:离散型 和 连续型
离散型随机变量
- X 的取值有限个或可数个,则 X 为离散型随机变量
- 可数集 (可列集):其中的元素是可以被数到的,只要肯花时间
不可数集:[0, 1]
离散型随机变量的概率分布律
- 简称分布律,又称概率分布,常用表格表示
内容包括:随机变量的所有可能取值 + 每个取值对应的概率
另一种表示形式:P(X = xk) = pk
几何分布
P(X = k) = (0.8)k-1 • 0.2,k = 1,2,3…
常见的离散型随机变量:
- 最简单的 退化分布 P(X = c) = 1
- 0-1分布 (两点分布),
X ~ B(1, p)
只有两个可能结果的试验,贝努利试验 (Bernoulli)
样本空间只包含两个元素
或仅考虑事件 A 发生与否
n重贝努利试验中 A 发生的次数 X
P(X = k) = Cnk pk(1 - p)n-k
此时称 X 服从 参数为 n, p 的二项分布,X ~ B(n, p)
- 泊松分布 (Poisson)
若概率分布已知,则随机变量对应的样本空间的任一随机事件概率可求出
离散型随机变量的分布函数是阶梯函数,跳跃点处的跳跃度就是该点概率
二项分布,将两种可能结果的试验 独立重复 n 次
概率分布函数,F(x) = P(X ≤ x)
,线上的一段区域,X 落入(-∞, x]
的概率
单调不减,值域 (0 ~ 1) (右连续函数)
可以定义任何随机变量
连续型随机变量,一定有一个概率密度函数 f(t)
此函数非负,单点取值概率为0,区间开闭无影响,
f(t)
值可以大于1
当其邻域 △x 足够小时,f(x)
与 △x 的乘积表示落在 x 点左右的概率概率分布律,连续的随机变量有概率密度函数
泊松定理,泊松分布表,X ~ π(λ)
,参数为 λ 的泊松分布
- 描述某段时间内,事件具体发生的概率
实际工作中,λ >= 20 即可用正态分布来处理
其中 t = 时间,n = 数量,λ = 事件发生的频率
均匀分布,X ~ U(a, b)
,其概率密度函数 f(t)
值恒等于 区间长度分之一,其余值为0
- 可简单理解为:均匀分布具有等可能性
计算概率时,可以用有效(范围内)区间长度 / 区间长度 简单计算 - 其分布函数F(x),落入a之前的概率
P(x<a)
= 0,落入ab之间的概率为 x - a / b - a,落入b之后的概率为1
指数分布,X ~ E(λ)
,无记忆性,f(x) = λe-λx
正态分布,X ~ N(μ, σ)
,又叫高斯分布、误差分布,高斯在研究误差的时候发现了正态分布
- σ 大于 0,关于 μ 对称,对称轴 μ 称为位置参数
- σ 称为尺度参数,σ越小,越瘦长 (分散程度)
- 多个随机变量的和遵循正态分布 (中心极限定理)
- f(x) 的积分是积不出来的,转化为标准正态,然后用标准正态分布表来求
标准正态分布,Z ~ N(0, 1)
链接 泊松分布&指数分布.
多维随机变量及其分布
- 二维随机变量,离散型随机变量分布律
- 边缘分布
- 条件分布
- 离散型随机变量边际分布律与条件分布律
- 二元随机变量分布函数,边际分布函数与条件分布函数
- 二元连续型随机变量,联合概率密度
- 边际概率密度
- 条件概率密度
- 二元均匀分布,二元正态分布(期末不考)
- 相互独立的随机变量
- 两个随机变量的函数的分布
- Z = X + Y的分布
- max(X, Y)、min(X, Y)的分布
二元随机变量,二维随机变量
- 由线上的点转换成了平面上的点
- 离散型,有限对或可列无穷对
联合概率分布律,表格,Pij
- X、Y 所有可能的取值,列出的表格
- 离散型分布函数的跳跃点处的跳跃值 可直接得出 边际分布律
- 对于该表格,若X、Y相互独立,则对应点的概率等于边际分布律之积
边际分布律 P(X = xi),Pi•
- 当 X 确定为 xi 时对应的 所有的 Y 的概率之和
- 仅由边际分布律一般不能得到联合分布律
条件分布律,Y = yj,条件已知,能写出很多
- 例:求 P(X = xi | Y = yj),即 Pij / P·j,确定点的概率 / 条件满足的所有概率之和
联合分布函数,F(x, y) = P(X ≤ x, Y ≤ y)
,坐标系中点(x, y)
的左下平面,X,Y 落入该区域的概率
- 关于 x,y 单调不减,右连续
比一元多的性质:x1 x2 y1 y2 围成的矩形区域,概率就是2,2减去1,2和2,1,加上重复减去的1,1
边际分布函数,令 x 趋于+∞,得 Y 的边际函数 FY(y),即 F(+∞, y)
- 联合概率分布在平面直角坐标系中比较好想
- X、Y 其一趋于 ∞ 时,就是将对应的边延伸至无穷大,仅此而已
条件分布函数,前提 y 点概率 > 0,否则无意义 (这又是一个极小的邻域)
- 对于离散型的,y 点概率大于零即可,根据联合分布律写出条件分布律,再写出条件分布函数
- 对于连续型的,Y 在 y 极小邻域范围,仍记作 Y = y
联合概率密度(函数),f(x, y)
,以 xoy 平面为底的体积为 1 的顶曲面
- 其二重积分为联合分布函数,值即概率
- 同样的极小邻域 △x,△y,
f(x, y)
与 △x△y 的乘积表示落在(x, y)
点左右的概率 - 对于连续点
(x, y)
,F(x, y)
的二阶偏导 =f(x, y)
边际概率密度(函数),求 FY(y),对 x 在(-∞, +∞)
上积分
条件概率密度,指定的条件,联合概率密度 / 边际概率密度
二元均匀分布,在面积为 A 的区域 D 中,有 f(x, y)
= 1 / A,其余为 0
二元正态分布,(X,Y) ~ N(μ1, μ2, σ12, σ22, ρ) 概率密度式子不好写。。,钟形图 (这两个不考)
- 二元正态分布的两个边际分布都是一元正态分布,且都不依赖 ρ
- 条件分布仍是正态分布,依赖 ρ
随机变量的独立性
- 定义:若分布函数 = 边际函数之积,则 X、Y 相互独立
- 离散型:Pij = Pi· P·j ,分布律判断,需检验所有等式,一对不等即可判断不独立
- 连续型:
f(x, y) = f(x)f(y)
,密度函数判断,
若独立,则可分解为 x 的函数与 y 的函数的乘积(反之不成立)
随机变量函数的分布,对应一元的函数的分布
随机变量的数字特征
- 数学期望
- 方差
- 协方差及相关系数
- 矩、协方差矩阵
数学期望,就是平均值
随机变量的数学期望
- 离散型随机变量 X,期望 E(X) = ∑ xk pk 累加和,前提 级数收敛
推的过程:1/n · ∑ xk·nk = ∑ xk·nk/n = ∑ xk·fk,fk 频率 稳定值为 pk
pk 也可理解为加权平均中的权重 - 连续型随机变量 X,期望 E(X) =
∫ xf(x)dx
在(-∞, +∞)
上积分 - 参数为 λ 的泊松分布的数学期望就是 λ
- 参数为 μ σ 的正态分布,数学期望为 μ
- 参数为 λ 的指数分布,数学期望为 1/λ
- 参数为 n p 的二项分布,数学期望为 n·p
- 参数为 p 的几何分布,数学期望为 1/p
随机变量函数的数学期望
- 计算 E(Y) 时,不必算出 Y 的分布律或 f(Y),
只需利用 X 的分布律或概率密度 以及 Y 和 X 之间的关系就可以了,同理推广至二元
懒人定理 the Rule of the Lazy Statistacian
- 离散型,Y = g(X),E(Y) = E[ g(X) ]
- 连续型,E(Y) = E(g(X)) = ∫-∞+∞
g(x)f(x)dx
数学期望的性质
- E(aX + bY + c) = aE(X) + bE(Y) + c
- E(XY) = E(X) E(Y),X、Y相互独立
方差
- 离差:X - E(X),平均离差 E[ X - E(X) ] = 0
- 方差:E{ [ X - E(X) ]2},记作 D(X) 或 Var(X)
计算方差,通常用法:D(X) = E(X2) - [E(X)]2 - 标准差、均方差:方差开根号,记作 σ(X),刻画 X 取值的波动性,衡量 X 取值的分散程度
方差的性质
- 常数方差 = 0,反之方差为 0,说明取值恒定为 c,E(X) = c
- D(cX) = c2D(X)
- D(X + Y) = D(X) + D(Y) + 2·tail,
tail = E{[X-E(X)]·[Y-E(Y)]}
,当X、Y相互独立时,tail = 0 - D(X + c) = D(X),等价于平移,波动性不变
常见
- 参数为 n,p 的二项分布
B(n, p)
,E(X) = np,D(X) = np(1-p) - 参数为 μ σ 的正态分布N(μ, σ2),E(X) = μ,D(X) = σ2
- n 个独立正态随机变量,线性组合仍服从正态分布
协方差,是一个有量纲的数字特征 (量纲就是单位)
- 就是上面的 tail,记作 Cov(X, Y)
tail ≠ 0 证明 X、Y 不相互独立
tail > 0,称 X 与 Y 正相关
tail < 0,负相关
tail = 0,不相关 - 将其乘开再化简,得 tail = E(XY) - E(X)E(Y),即协方差计算公式
协方差性质
- 代入 tail 可得证
- XY可互换,无影响
- Y = X,tail = D(X)
- Cov(aX, bY) = ab·Cov(X, Y)
- Cov(X1 + X2, Y) = Cov(X1, Y) + Cov(X2, Y)
相关系数,为消除量纲的影响 (表示线性关系密切程度)
- ρXY = Cov(X, Y) / √D(X)·D(Y)
- 性质:ρXY 属于
(-1, 1)
|ρXY| = 1 时,当且仅当X、Y之间有严格的线性关系
不相关,本质意思就是 X、Y 无线性关系 (独立:二者没有关系)
- ρXY = 0,不相关,等价条件 tail = 0 以及 E(XY) = E(X)E(Y)
- 独立则不相关,反之不然
矩阵暂时了解,记 n 元正态随机变量的四条重要性质
- n 元正态随机变量,是一个向量,其任意子向量均服从 k 元正态分布
- 充要条件,其中元素 X1 X2 …任意线性组合均服从 1 元正态分布
- 正态变量的线性变换不变性
- X1 X2 … 相互独立
<=>
X1 X2 …两两不相关<=>
协方差矩阵为对角矩阵 (唯对角线非0)
大数定律及中心极限定理
- 大数定律
- 中心极限定理
依概率收敛
- 对于 随机变量序列 Y1 Y2 …,n 趋于正无穷时,P{ |Yn - c| ≧ ε } = 0
称 随机变量序列{Yn, n ≧ 1} 依概率收敛于 c
切比雪夫不等式 Chebyshev,适用范围广,结果比较粗糙
贝努里大数定律:频率依概率收敛于概率
告诉我们,可以通过大量的独立重复实验来确定事件的概率
大数定律 Laws of Large Numbers
- 随机变量序列依概率收敛于 μ,当 E(Xi) 都相同时,μ = E(Xi)
切比雪夫大数定律的推论
- 前提:Xi相互独立,期望都为 μ,方差都为 σ2
- 算术平均依概率收敛到 μ
辛钦大数定律
- 前提:Xi 独立同分布
- 算术平均依概率收敛到 μ
独立同分布的中心极限定理 CLT
德莫弗-拉普拉斯中心极限定理
解题步骤
- 先根据中心极限定理,将正态分布写出,然后套用公式得出答案.
样本及抽样分布
- 随机样本
- 直方图和箱线图
- 抽样分布
定义
- 总体,全体
- 个体,全体中的一个
- 容量,总体中个体的数目
- 有限总体的容量足够大时可看作无限总体
- 样本,总体的子集,本书中皆指简单随机样本
简单随机样本的特点:独立同分布
如何得到该样本:放回抽样 (无限总体用不放回) - 样本观测值,每次观测样本得到的样本值不一样
- 提取有效信息,构造统计量
- 常用统计量:样本均值,样本方差(
1/(n-1)
),样本矩 - 注:样本均值 x拔 ≠ 总体均值 μ
- 统计量的分布叫做抽样分布
- 抽样分布有三个比较重要的:卡方分布,t分布,f分布;(除正态分布外)
上α分位点,即该点右侧的概率为α(面积为α),该数值需查表
随机变量大于这个数的概率 = α
卡方 χ2,多个服从 N(0,1) 的随机变量的平方和
自由度,指随机变量的个数
χ2 ~ χ2(n)
E(X) = n,D(X) = 2n
可加性:Y1+Y2 ~ χ2(n1+n2)
对一般的正态分布X,标准化 Yi = (Xi - μ)/σ
χ2 = Yi2 的累加和
t分布
T ~ t(n)
就是 T = X / (√Y/n) ,其中Y ~ χ2(n),X服从标准正态 N(0, 1)
即自由度为 n 的 t 分布
n趋于+∞时的 t 分布,就是标准正态分布
F分布
F ~ F(n1, n2),自由度为 n1,n2 的 F 分布
1/F
~ F(n2, n1)
就是 F = (X/n1) / (Y/n2),其中X ~ χ2(n1),Y ~ χ2(n2)
上α分位点:F1-α(n1, n2) = 1 / Fα(n2, n1)
正态总体的样本均值与样本方差的分布
X拔 ~ N(μ, σ2/n)
E(S2) = σ2
链接 t分布, 卡方x分布,F分布.
参数估计
- 点估计
- 基于截尾样本的极大似然估计
- 估计量的评选标准
- 区间估计
- 正态总体均值与方差的区间估计
- 0-1分布参数的区间估计
- 单侧置信区间
P72
【Mark】概率论与数理统计相关推荐
- 【概率论与数理统计】简单梳理知识框架和概数史
[概率论与数理统计]简单梳理知识框架和概数史 前言 写一下概数的知识框架.看情况补充概率论的历史帮助理解概率论的应用. 快速写一下,立一个靶子,然后后期慢慢修饰勾勒. 知识框架参考<张宇30讲2 ...
- 概率论与数理统计--第三章
文章目录 概率论与数理统计--第三章 概率论与数理统计–第三章
- 2021-08-08概率论与数理统计-第二章
文章目录 概率论与数理统计-第二章 概率论与数理统计-第二章
- 高等数学·同济七版+线性代数第六版+概率论与数理统计第四版(教材+辅导)
教材加辅导 内容简介 <高等数学>第7版是普通高等教育"十二五"国家级规划教材,在第6版的基础上作了进一步的修订.版教材在保留原教材结构严谨,逻辑清晰.叙述详细.通俗易 ...
- 数学建模 概率论与数理统计
概率论与数理统计 概率模型 统计模型 概率空间是概率论研究的起点 实际问题抽象为数学模型 常微方程 偏微方程 三元组(Ω,F,P)概率空间 Ω--样本空间 F--事件域 P--概率测度 研究随机现象由 ...
- 概率论与数理统计常用英文词汇对照
概率论与数理统计常用英文词汇对照 Probability Theory 概率论 Trial 试验 intersection交 union 并 frequency 频率 difference 差 add ...
- 某同学使用计算机求30,概率论与数理统计习题集及答案
<概率论与数理统计>作业集及答案 第1章 概率论的基本概念 §1 .1 随机试验及随机事件 1. (1) 一枚硬币连丢3次,观察正面H ﹑反面T 出现的情形. 样本空间是:S= : (2) ...
- 张宇概率论与数理统计pdf_【书籍篇】张宇概率论与数理统计9讲
[书籍篇]每篇文章分享一本高质量的考研书. 这些考研书是高清无水印的,方便大家学习使用.我们这边已和书籍的大厂商达成长期合作,所以将会更好的服务每一位考研学子. 你在外面QQ群看到的那些宣传学习资源的 ...
- 概率论与数理统计の笔记
概率论应用范围主要是人工智能,和现在大数据背景下的数据处理 概率论考前总结 数学总目录 参考教材: <概率论与数理统计浙大版> <考研数学复习全书> 第一章 随机事件与概率 第 ...
最新文章
- golang中的切片
- 美团酒店Node全栈开发实践
- php reset input,PHP reset() 函数
- haoop格式化做的工作
- SpringAop @AfterThrowing通知中获取异常信息并且在控制台打印
- 活动目录ADSI实现添加系统帐号问题!!!
- [国嵌攻略][085][共享内存通讯]
- 理解Python中的类对象、实例对象、属性、方法
- 2.2 矩阵基本运算
- python引入自己写的文件_python引入自己写的Py文件
- Tomcat启动阻塞变慢
- echars x轴单位_如何让echarts中y轴的单位位于数值的右上角
- 第一课~Django~简介
- 运算符优先级(图表)
- 怎么在html中加横条,如何在HTML中插入一行?html横线标签hr全新讲解
- Opencv图像显示
- Duplicate class com.xxx.xxx found in modules
- 再见python你好go语言_再见,Python。你好,Go语言。
- 微信公众平台开发(34)微相册
- myQNX account试用申请流程(license申请)