概率论基础知识(二) 随机变量及其分布

1、随机变量

定义:设随机试验的样本空间为S={e}, X=X(e)是定义在样本空间S上的实值单值函数。称X=X(e)为随机变量。
这样一来,样本空间可以很好的映射到一系列的实值上,方便了接下来各种性质的讨论。

  • 随机变量可以分为:离散型随机变量和非离散型随机变量,其中非离散型随机变量主要以连续型随机变量为主。
  • 离散型随机变量:随机变量可能取到的值时有限个数或可列无限多个。X=a1,a2,...X=a_1, a_2, ...X=a1​,a2​,...
  • 连续型随机变量:随机变量可能取到的值时无限个数。Y∈(a,b)Y∈(a, b)Y∈(a,b)
2、随机变量的分布函数

定义:设X是一个随机变量,x是任意实数,函数F(x)=P{X≤x}F(x)=P\{X ≤ x\}F(x)=P{X≤x}称为X的分布函数,有时也记为X ~ F(x)。

对于任意实数x1,x2(x1&lt;x2)x_1, x_2(x_1&lt;x_2)x1​,x2​(x1​<x2​),
P{x1&lt;X≤x2}=P{X≤x2}−P{X≤x1}=F(x2)−F(x1)P\{x_1&lt;X≤x_2\}=P\{X≤x_2\}-P\{X≤x_1\}=F(x_2)-F(x_1)P{x1​<X≤x2​}=P{X≤x2​}−P{X≤x1​}=F(x2​)−F(x1​)P{X&gt;x1}=1−P{X≤x}=1−F(x1)P\{X&gt;x_1\}=1-P\{X≤x\}=1-F(x_1)P{X>x1​}=1−P{X≤x}=1−F(x1​) 因此,若已知X的分布函数,就可以知道X落在任一区间上的概率,在这个意义上说,分布函数完整地描述了随机变量的统计规律性。

如果将X看成是数轴上的随机点的坐标,那么,分布函数F(x)在x处的函数值就表示x落在区间(−∞,x)(-\infty,x)(−∞,x)上的概率。

性质:(1)F(x)是不减函数;
&ThinSpace;&ThickSpace;\,\;\qquad(2)0≤F(x)≤10 \leq F(x) \leq 10≤F(x)≤1, 且 F(−inf)=0,F(inf)=1F(-inf) = 0, F(inf) = 1F(−inf)=0,F(inf)=1;
&ThinSpace;&ThickSpace;\,\;\qquad(3)F(x+0)=F(x)F(x + 0) = F(x)F(x+0)=F(x),即F(x) 右连续

3、离散型随机变量及其分布律

分布律:对于离散型随机变量X,可以取的值有 x1,...,xi,...,xnx_1, ..., x_i, ..., x_nx1​,...,xi​,...,xn​, 对应的概率为 P(x1),...,P(xi),...,P(xn)P(x_1), ..., P(x_i), ..., P(x_n)P(x1​),...,P(xi​),...,P(xn​)。

常用离散型随机分布

(1)0-1分布
事件只有发生和不发生两种可能,发生的概率为p,则不发生的概率为(1-p),那么:
P{X=k}=pk(1−p)1−k,k=0,1P\{X=k\} = p^k(1-p)^{1-k}, k = 0,1P{X=k}=pk(1−p)1−k,k=0,1

(2)伯努利试验、二项分布
伯努利试验:一次试验只有两种可能结果:发生为A,不发生为A‾\overline AA,并且P(A)=p,P(A‾)=1−pP(A) = p, P(\overline A) = 1-pP(A)=p,P(A)=1−p,n次独立重复的伯努利试验服从二项分布:设k表示事件A发生的次数,则:
b(k;n,p)=P{X=k}=Cnkpk(1−p)n−k,k=0,1,...,nb(k;n,p)=P\{X=k\} = C_n^kp^k(1-p)^{n-k}, k = 0,1,...,nb(k;n,p)=P{X=k}=Cnk​pk(1−p)n−k,k=0,1,...,n记为X~(n,p),即X服从参数为n,p的二项分布。
注意:重复是指每次试验p不变;独立是指各次结果互不影响。

例:设子弹命中目标的概率为0.01,现发射500次,则击中目标的最可能次数是多少次?并求出相应的P。
解:
命中目标最可能次数是5次
b(5;500,0.01)=C5005(0.01)5(0.99)495=0.1176b(5;500,0.01) =C_{500}^5(0.01)^5(0.99)^495 =0.1176b(5;500,0.01)=C5005​(0.01)5(0.99)495=0.1176
计算困难,方法:
(1)极限定理
(2)Poisson分布近似

注:

使b(k;n,p)取最大值的项b(m;n,p)叫中心项,m叫最可能成功次数。

(3)泊松分布
若随机变量x(x=k)只取零和正整数值0,1,2,…,且其概率分布为:
p(x=k)=λkk!e−λ,k=0,1,……p(x=k)={λ^k\over k!}e^{-λ},k=0, 1, ……p(x=k)=k!λk​e−λ,k=0,1,……其中λ>0;e=2.7182…是自然对数的底数,则称x服从参数为λ的波松分布(Poisson’s distribution),记为x~P(λ)。
波松分布作为一种离散型随机变量的概率分布有一个重要的特征:这就是它的平均数和方差相等,都等于常数λ,即μ=σ2=λμ=σ^2=λμ=σ2=λ。利用这一特征, 可以初步判断一个离散型随机变量是否服从泊松分布。

为什么∑k=0∞λkk!e−λ=1\sum_{k=0}^\infty {λ^k\over k!}e^{-λ}=1∑k=0∞​k!λk​e−λ=1 ?
由泰勒展开式ex=∑k=0∞xkk!e^x=\sum_{k=0}^\infty {x^k\over k!}ex=∑k=0∞​k!xk​
∑k=0∞λkk!e−λ=e−λ⋅∑k=0∞λkk!=e−λ⋅eλ=1\sum_{k=0}^\infty {λ^k\over k!}e^{-λ}=e^{-λ}·\sum_{k=0}^\infty {λ^k\over k!}=e^{-λ}·e^{λ}=1∑k=0∞​k!λk​e−λ=e−λ⋅∑k=0∞​k!λk​=e−λ⋅eλ=1

注:泊松分布的应用:
(1)作为二项分布的近似;
(2)服从Poisson分布的现象非常多(生活、物理学 …)
(3)“基本粒子” --> 用于构造其他分布

泊松定理:当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。事实上,泊松分布正是由二项分布推导而来的。

实际中很多事件服从泊松分布:一本书一页中的印刷错误数,某地区在一天内邮递遗失的信件数、某一医院在一天内的急诊病人数、某一地区一个时间间隔内发生交通事故的次数,在一个时间间隔内某种放射性物质发出的、经过计算机的粒子数等。
(可以发现这些例子中,都是小概率事件,从实际中与泊松定理联系起来。)

分赌本问题:
甲、乙两赌徒赌技相同,各出赌注100法郎,每局无平局。他们约定,谁先赢三局则得到全部200法郎的赌本。
当甲赢了2局,乙赢了1局时,因故要中止赌博。现问这200法郎如何分才算公平?

import randomdef Bookie(n, n1, n2):for i in range(2*n-1-n1-n2):D = random.randint(1,2)if D == 1:n1 += 1else:n2 += 1if n == n1:return 1if n == n2:return 2N = 10000
win = 0
for i in range(N):if Bookie(3, 2, 1) == 1:win += 1print("甲赢得的概率为:%f" % (float(win)/float(N)))
print("乙赢得的概率为:%f" % (1 - float(win)/float(N)))

运算结果:

甲赢得的概率为:0.741100
乙赢得的概率为:0.258900
4、连续型随机变量及其概率密度

对于随机变量x,若存在一个非负的可积函数f(x),使得对任意实数x,有F(x)=∫−∞xf(t)dtF(x)=\int^x_{-\infty} f(t)dtF(x)=∫−∞x​f(t)dt 则称x为连续性随机变量。其中f(x)为x的概率分布密度函数,简称概率密度记为x ~ f(x)。

概率密度函数的积分,即围成的面积,为随机变量落入某一区间的概率,如图所示:

性质:
(1)f(x)≥0,−∞&lt;x−&lt;+∞f(x)\geq0, \quad -\infty \lt x -\lt +\inftyf(x)≥0,−∞<x−<+∞
(2)∫−∞+∞f(t)dt=1\int^{+\infty}_{-\infty} f(t)dt=1∫−∞+∞​f(t)dt=1
(3)对任意x1≤x2,P{x1&lt;Z≤x2}=∫x1x2f(t)dt=F(x2)−F(x1)x_1 \leq x_2,P\{x_1 \lt Z \leq x_2\}=\int^{x_2}_{x_1} f(t)dt=F(x_2)-F(x_1)x1​≤x2​,P{x1​<Z≤x2​}=∫x1​x2​​f(t)dt=F(x2​)−F(x1​)
(4)若f(x)在x点连续,则F′(x)=f(x)F'(x)=f(x)F′(x)=f(x)
(5)改变f(x)在个别点处的函数值不影响F(x)
(6)对任意x,P{X=x}=∫xxf(t)dt=0P\{X=x\}=\int^x_x f(t)dt=0P{X=x}=∫xx​f(t)dt=0

约定:提到概率分布时,
\qquad\qquad离散型 <–> 分布律;
\qquad\qquad连续型 <–> 概率密度;

常见的三种连续性随机变量
(1)均匀分布
随机变量落入区间(a,b)中任意等长度的子区间内的可能性是相同的。或者说它落入(a,b)区间内的概率只依赖于子区间内的长度而与子区间的位置无关,表示为 X~U(a,b)。
P(x)={1b−a,a &lt; x &lt; b0,其它P(x)= \begin{cases} 1 \over b-a, &amp; \text {a &lt; x &lt; b} \\ 0, &amp; \text{其它} \end{cases} P(x)={b−a,1​0,​a < x < b其它​

均匀分布的概率密度:
P(x)={0,x &lt; ax−ab−a,a &lt;= x &lt; b1,x &gt;= bP(x)= \begin{cases} 0, &amp; \text {x &lt; a} \\ {x-a}\over {b-a}, &amp; \text{a &lt;= x &lt; b} \\ 1, &amp; \text{x &gt;= b}\end{cases} P(x)=⎩⎪⎨⎪⎧​0,b−a,x−a​1,​x < aa <= x < bx >= b​

理解“均匀”的含义: 等可能性

(2)指数分布

其中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数。指数分布的区间是[0,∞)。 如果一个随机变量X呈指数分布,则可以写作:X ~ E(λ)。

在不同的教材有不同的写法,θ=1/λ,因此概率密度函数,分布函数和期望方差有两种写法。

其中θ>0为常数,则称X服从参数θ的指数分布。

指数分布的分布函数:

(3)正太分布 (高斯(Gauss)分布)
若随机变量 服从一个位置参数为μ\muμ、尺度参数为σ\sigmaσ的概率分布,且其概率密度函数为:

则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作XN(μ,σ2)X~N(\mu, \sigma^2)X N(μ,σ2),读作X服从N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2),或X服从正态分布。
其中:正态分布的积分可以利用广义二重积分和极坐标。

高斯分布的不同参数的影响:

性质:



买面包问题:
·一个叫庞加莱的哥们每次买面包都回家称,并做记录,他发现他的面包一年的平均重量为0.95kg,于是他认为面包店缺斤少两,投诉了该面包店。
于是该面包店老板记住了庞加莱,叮嘱店员每次给他大的。
一年后,庞加莱又投诉面包店,说面包店继续缺斤少两,欺骗老百姓。只不过是每次故意给他大的面包。
庞加莱如何知道的?


比较两次模拟结果输出的偏度值,明显第一次处于正态,第二次处于正偏态。

偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。
表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。

  • 正态分布的偏度为0,两侧尾部长度对称。若以bs表示偏度。
  • bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;
  • bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;
  • bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。
5、随机变量的函数的分布

随机变量X的函数Y=g(X)也是一个随机变量,可以根据X的分布率或概率密度求出Y的分布率或概率密度。

概率论基础知识(二) 随机变量及其分布相关推荐

  1. 【概率论基础进阶】随机变量及其分布-随机变量及其分布函数

    文章目录 一.分布律 分布律性质 二.分布函数 分布函数的性质 三.概率密度 概率密度的性质 一.分布律 定义:在样本空间 Ω \Omega Ω上的实值函数 X = X ( ω ) X=X(\omeg ...

  2. 概率论基础知识(三) 参数估计

    概率论基础知识(三) 参数估计 1.矩 矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示. 矩是更具有一般意义的数字特征. 设有随机变量X,若 E ( ∣ X ∣ k ) < ...

  3. CV:计算机视觉技术之图像基础知识(二)—图像内核的可视化解释

    CV:计算机视觉技术之图像基础知识(二)-图像内核的可视化解释 目录 图像内核的可视化解释 测试九种卷积核 官方Demo DIY图片测试 DIY实时视频测试 相关文章 CV:计算机视觉技术之图像基础知 ...

  4. CV:计算机视觉技术之图像基础知识(二)—以python的skimage和numpy库来了解计算机视觉图像基础(图像存储原理-模糊核-锐化核-边缘检测核,进阶卷积神经网络(CNN)的必备基础)

    CV:计算机视觉技术之图像基础知识(二)-以python的skimage和numpy库来了解计算机视觉图像基础(图像存储原理-模糊核-锐化核-边缘检测核,进阶卷积神经网络(CNN)的必备基础) 目录 ...

  5. (五)JS基础知识二(通过图理解原型和原型链)【三座大山之一,必考!!!】

    JS基础知识二(原型和原型链) 提问 class 继承 类型判断(instanceof) 原型 原型关系 基于原型的执行规则 原型链 说明 提问 如何准确判断一个变量是不是数组 class的原型本质 ...

  6. oracle:oracle基础知识(二)

    oracle基础知识(二)笔记:高级查询 文章目录 分组查询 多属性分组语法: 过滤查询 group by 语句增强 sqlplus报表功能 多表查询 等值连接 外连接 自连接 子查询 子查询中的空值 ...

  7. 网络基础知识(二) HTTP

    网络基础知识(二) HTTP 黑发不知勤学早,白首方悔读书迟. 内容参考:https://www.runoob.com/http/http-content-type.html HTTP协议是Hyper ...

  8. CV:计算机视觉技术之图像基础知识(二)—图像内核的九种卷积核可视化解释(blur/bottom sobel /emboss/identity /sobel /outline/sharpen)

    CV:计算机视觉技术之图像基础知识(二)-图像内核的九种卷积核可视化解释(blur/bottom sobel /emboss/identity /left sobel /outline/right s ...

  9. scikit-learn学习基础知识二

    scikit-learn学习基础知识二 文章目录 scikit-learn学习基础知识二 一.介绍 二.代码实现 三.运行结果 四.总结 一.介绍 本文我们学习scikit-learn中的KNeigh ...

最新文章

  1. 城市“脑梗” 当前城市大脑面临的困境
  2. mongodb气势如虹
  3. 一起学习手撕包菜如何做 - 生活至上,美容至尚!
  4. nginx学习七 高级数据结构之动态数组ngx_array_t
  5. python字符串替换空格_python - 用pandas中的NaN替换空白值(空格)
  6. scanf———while(scanf (%lu,num) = =1)什么意思
  7. pandas(一)-- Series创建及索引
  8. 不得了了!Python 又爆出重大 Bug!
  9. Linux设置Oracle开机自启动
  10. 面试题:彻底理解ThreadLocal 索引的利弊 背1
  11. 踩坑 net core
  12. 迅雷加载项会导致IE9浏览器崩溃
  13. 【POJ 3281】Dining【最大匹配、拆点】
  14. 注意力稀缺的时代,写作软件如何选择?
  15. 2020德勤面试开始了吗_曝!玛氏、德勤、携程面试题新鲜出炉!2020第一波面试复盘来了......
  16. postman(一)常用的Tests方法
  17. JAVA程序设计题——英雄对战游戏,定义一个描述战斗单位的英雄(Hero)类,此类必须包含以下成员变量:名称(name),生命值(life),技能1攻击力(damage1),防御力(defence)
  18. 360浏览器用的什么内核?
  19. 【树莓派不吃灰】基础篇⑮ SSH远程访问安全,涉及/etc/hosts.allow白名单 和 /etc/hosts.deny黑名单、ufw防火墙、密钥登录
  20. ncbi查找目的基因序列_如何获得基因序列——在NCBI中查找目的基因实例.PDF

热门文章

  1. 超简单禁止迅雷下载!(分析+方法)
  2. iPhone14pro紫色“掉漆”/ 苹果英伟达拒绝台积电涨价/ DALL·E取消排队...今日更多新鲜事在此...
  3. 大数据之clickhouse_clickhouse的基础介绍及基础使用
  4. 微信公众号的二次开发(一 订阅号没有获取网页授权的解决方法)
  5. 华为推送 简介 集成 MD
  6. 腾讯AI Lab姚建华博士入选2022 AIMBE会士
  7. OSChina 周六乱弹 —— 想通过么?收费!!!
  8. 不同长度的字符串/中文串相似度对比算法
  9. 计算机网络安全课程心得,学习信息安全专业的心得体会
  10. 第一篇:关键点检测算法基础及mmpose文件夹规则