【转载请注明出处:https://leytton.blog.csdn.net/article/details/103730081】

[第17课] 随机变量介绍

离散随机变量(discrete random variable)
在一定区间内变量取值为有限个,如抛硬币,掷骰子

连续随机变量(continuous random variable)
在一定区间内变量取值为无限个,如明天下雨的概率,在(0,1)之间

random.randint()与np.random.randint()的区别
random.randint()方法里面的取值区间是前闭后闭区间,而np.random.randint()方法的取值区间是前闭后开区间

import random# 离散随机变量(discrete random variable)
# 如:抛硬币
x = random.randint(0, 1)
print(x)# 掷骰子
x = random.randint(1, 6)
print(x)# 连续随机变量(continuous random variable)
x = random.random()
print(x)
1
6
0.7703803681713864

[第18课] 随机变量介绍

摘自《统计学18:随机变量介绍》,略有修改

概率密度函数

  • 随机变量所有值发生概率和等于1
  • 概率密度函数是对连续随机变量而言的.

比如说明天下雨的概率是0.8,那么不下雨的概率是0.2;

观察密度函数的图,面积才是表示密度函数的概率值.而不是x对应y坐标.

假设曲线为f(x),概率是面积,也就是对函数f(x)的积分:

P(0.1<X<0.2)=∫0.10.2f(x)d(x)P(0.1<X<0.2)=\int_{0.1}^{0.2}f(x)d(x)P(0.1<X<0.2)=∫0.10.2​f(x)d(x)

其中 ∫−∞+∞f(x)d(x)=1\int_{-\infty }^{+\infty }{f(x)d(x)}=1∫−∞+∞​f(x)d(x)=1

离散的随机变量概率

区别于连续随机变量,离散变量的概率是可以枚举出来的,如掷骰子,有六个离散变量,每个离散变量的概率都是161\over661​

[第19课] 二项分布1

摘自《统计学19:二项分布1》,略有修改

看一下掷硬币的问题
掷一次硬币正面或者反面发生的概率都是12\frac{1}{2}21​

掷五次硬币或者一次掷五个硬币(每个硬币正反独立的,每次硬币独立的,怎么操作都一样.),记出现正面的数量为XXX.

P(X=0)P(X=0)P(X=0)(出现正面为0次的概率,也就是五次全为反面)?

全为反面只有一种情况,就是第一次投掷为反,第二次为反...

P(X=0)=12×12×12×12×12=132P(X=0)=\frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2}=\frac{1}{32}P(X=0)=21​×21​×21​×21​×21​=321​

P(X=1)P(X=1)P(X=1)(出现正面为1次的概率)?

正面为1次有5种情况,就是第一次投掷为正,其他全为反;第二次为正,其他全为反...
每中情况都是132\frac{1}{32}321​(出现正面的次数和非正面的次数都是12\frac{1}{2}21​)

P(X=1)=5×132=532P(X=1)=5 \times \frac{1}{32} = \frac{5}{32}P(X=1)=5×321​=325​
P(X=2)P(X=2)P(X=2)(出现正面为2次的概率)?

还要枚举吗?好像有点累
分析一下:

  • 先确定一个正面发生的位置,它有5种(第一次投掷为正,第二次为正...),再确定第二个正面发生的位置,第一个记录已经占走了一个位置,还有四个位置选一个为正,有4种. 5×45 \times 45×4
  • 刚刚我们先确定了,再确定,多做了排序,也就是同样第二次和第三次为正,但是我们却在刚刚把它记为了两种情况(先找到2位再发现3,和先找到3再发现2)我们要排除我们不必要的排序. 5×42\frac{5 \times 4}{2}25×4​
  • 每中情况都是132\frac{1}{32}321​

P(X=2)=5×42×132=516P(X=2)=\frac{5 \times 4}{2} \times \frac{1}{32} = \frac{5}{16}P(X=2)=25×4​×321​=165​
P(X=3)P(X=3)P(X=3)?

  • 确定第一个(5个位置选1个),第二个(4个位置选1个),第三个(3个位置选1个)5×4×35 \times 4 \times 35×4×3
  • 排除不必要的排序(3个的排序为3×23 \times 23×2). 5×4×33×2\frac{5 \times 4 \times 3}{3 \times 2}3×25×4×3​
  • 每中情况都是132\frac{1}{32}321​

P(X=3)=5×4×33×2×132=516P(X=3)=\frac{5 \times 4 \times 3}{3 \times 2} \times \frac{1}{32} = \frac{5}{16}P(X=3)=3×25×4×3​×321​=165​
P(X=4)P(X=4)P(X=4)?

  • A54=5×4×3×2A_5^4 = 5 \times 4 \times 3 \times 2A54​=5×4×3×2
  • A54A44=5×4×3×24×3×2\frac{A_5^4}{A_4^4} = \frac{5 \times 4 \times 3 \times 2}{4 \times 3 \times 2}A44​A54​​=4×3×25×4×3×2​
  • 132\frac{1}{32}321​

P(X=4)=5×4×3×24×3×2×132=532P(X=4)=\frac{5 \times 4 \times 3 \times 2}{4 \times 3 \times 2} \times \frac{1}{32} = \frac{5}{32}P(X=4)=4×3×25×4×3×2​×321​=325​
P(X=5)P(X=5)P(X=5)?
P(X=5)=C55×132=132P(X=5)=C_5^5 \times \frac{1}{32} = \frac{1}{32}P(X=5)=C55​×321​=321​

也可以把5次为正理解为0次为反,正反概率相等,那么P(X=5)=P(X=0)P(X=5)=P(X=0)P(X=5)=P(X=0)

二项分布就是重复n次独立的伯努利试验.
伯努利实验:在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变

[第20课] 二项分布2

摘自《统计学20:二项分布2》,略有修改

随机变量是一种映射关系.还是以上一节投掷硬币情况为例

X={0全为反面1有1次为正面2有2次为正面3有3次为正面4有4次为正面5全为正面X= \begin{cases} 0 & \text{全为反面}\\ 1 & \text{有$1$次为正面}\\ 2 & \text{有$2$次为正面}\\ 3 & \text{有$3$次为正面}\\ 4 & \text{有$4$次为正面}\\ 5 & \text{全为正面}\\ \end{cases}X=⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎧​012345​全为反面有1次为正面有2次为正面有3次为正面有4次为正面全为正面​

把上概率整理如下图表:

如果投掷的次数非常的多,把它们的概率值用曲线描出来,就是一根钟形曲线.在离散中是二项分布,在连续中它是正态分布.

二项分布是可以被总结出公式的.

还记得上一节我在最后的P(X=5)P(X=5)P(X=5)求解时,把系数(后面是每次独立发生的概率值)写了C55C_5^5C55​吗?

CnmC_n^mCnm​表示从nnn个元素中挑选出mmm个元素(无序)的可能.(也可以理解为从nnn次实验中发生mmm次同事件的可能)

二项式系数公式

(mn)=Cnm=n!m!(n−m)!(_m^n)=C_n^m = \frac{n!}{m!(n-m)!}(mn​)=Cnm​=m!(n−m)!n!​

也可以继续上一节那个分析,AnmAmm\frac{A_n^m}{A_m^m}Amm​Anm​​记为CnmC_n^mCnm​

其中:

有了二项式系数其实就是从nnn次实验中发生mmm次同事件的可能种类数,然后它乘一每次事件的概率就是我们求的P(X=m)P(X=m)P(X=m).

那么二项式分布X~B(n,p)X~B(n,p)X~B(n,p)的公式就来了:

P(k,n,p)=P(X=k)=Cnkpk(1−P)n−kP(k,n,p) = P(X=k) = C_n^kp^k(1-P)^{n-k}P(k,n,p)=P(X=k)=Cnk​pk(1−P)n−k

[第21课] 二项分布3

摘自《统计学21:二项分布3》,略有修改

来看上一节留下的公式
P(X=k)=Cnkpk(1−p)n−kP(X=k) = C_n^kp^k(1-p)^{n-k}P(X=k)=Cnk​pk(1−p)n−k

你可能已经明白了二项系数CnkC_n^kCnk​什么意思,这里说一下为什么是概率是pk(1−p)n−kp^k(1-p)^{n-k}pk(1−p)n−k.
可能硬币事件的两种结果让我记住了12\frac{1}{2}21​,那是一个比较特殊的情况.如果把事件转换为掷筛子呢?它就不再是12\frac{1}{2}21​,12\frac{1}{2}21​.

如果问题转换为掷筛子,点数为1或者2则甲胜出,点数为3或者4则乙胜出,点数为5或者6则丙胜出,现在寻找在n次实验中,甲胜出X次的概率?

只关心甲的概率,只需知道是甲赢了,还是输了,并不关心乙或者丙赢了他.现在就是二项分布了,甲赢(点数为1或2),甲不赢(点数不为1或2,即为3,4,5,6).则事件发生的概率分别为甲赢13\frac{1}{3}31​,甲不赢23\frac{2}{3}32​.
注意二项分布的特点,每次投掷都是独立的,不受之前实验的影响,每次结果都是甲赢13\frac{1}{3}31​,甲不赢23\frac{2}{3}32​.

那么求P(X=0)P(X=0)P(X=0),假设投掷了8次:

  • 通过上一节我们知道系数C80C_8^0C80​
  • 甲赢的次数为0,那么这种可能就是全输的概率,就是每次概率是23\frac{2}{3}32​,则 P(X=0)=C80×(23)8P(X=0)=C_8^0 \times (\frac{2}{3})^8P(X=0)=C80​×(32​)8

P(X=1)P(X=1)P(X=1):

  • 系数C81C_8^1C81​
  • 甲赢的次数为1,那么这种可能就是1次为胜,7次为输的概率.即8次事件中,发生了1次概率是13\frac{1}{3}31​事件和(8−1)(8-1)(8−1)次概率为23\frac{2}{3}32​事件,则P(X=1)=C81×(13)1×(23)8−1P(X=1)=C_8^1 \times (\frac{1}{3})^{1} \times (\frac{2}{3})^{8-1}P(X=1)=C81​×(31​)1×(32​)8−1

P(X=2)P(X=2)P(X=2):

  • 系数C82C_8^2C82​
  • 发生了2次概率是13\frac{1}{3}31​事件和(8−2)(8-2)(8−2)次概率为1−131-\frac{1}{3}1−31​事件(两种结果,总的概率为1),则P(X=2)=C82×(13)2×(1−13)8−2P(X=2)=C_8^2 \times (\frac{1}{3})^{2} \times (1-\frac{1}{3})^{8-2}P(X=2)=C82​×(31​)2×(1−31​)8−2

沿着这个方法走下去,就会发现如何去利用公式了.

[第22课] 二项分布4

这一节是介绍用Excel绘制二项分布,详情请看《统计学22:二项分布4》

[第23课] 期望值E(X)

摘自《统计学23:期望值E(X)》,略有修改

给出一个总体,一组数: 3, 3, 3, 4, 5

它的平均数是: 3+3+3+4+55=185=3.6\frac{3+3+3+4+5}{5}=\frac{18}{5}=3.653+3+3+4+5​=518​=3.6

我们可以换一种方式来看,里面有3个3,1个4,1个5:3(3)+1(4)+1(5)5=35×3+15×4+15×5=60\frac{3(3)+1(4)+1(5)}{5}=\frac{3}{5}×3+\frac{1}{5}×4+\frac{1}{5}×5 = 60%×3+20%×4+20%×553(3)+1(4)+1(5)​=53​×3+51​×4+51​×5=60

频率

观察这个式子,60%×3+20%×4+20%×5,这里没有表示每个数字出现的次数,只是它出现的频率:

3的频率是60%,4的频率是20%,5的频率是20%.计算是1.8+0.8+1=3.6

知道3,4,5每个数字相对的频率,也就是占总体额百分比,就可以计算除均值.

[第24课] 二项分布的期望值

摘自《统计学24:二项分布的期望值》,略有修改
假设随机变量X表示n次实验的次数,其中每次成功的概率是p.

E(X)=npE(X) = npE(X)=np

在二项分布中,期望值可以看成是最可能得到的那个结果.

假设投篮的命中概率为40%,投10次.
那么E(X)=np=10×40%=4E(X) = np = 10 \times 40\% =4E(X)=np=10×40%=4

可以理解为命中概率为40%,那么投10次,可能4次命中.

回顾二项式概率的公式:

P(X=k)=Cnkpk(1−p)n−kP(X=k) = C_n^kp^k(1-p)^{n-k}P(X=k)=Cnk​pk(1−p)n−k

期望值公式:

E(X)=∑k=0nkP(X=k)=∑k=0nCnkkpk(1−p)n−k=0Cn0p0(1−p)n−0+1Cn1p1(1−p)n−1+…+nCnnpn(1−p)n−n=1Cn1p1(1−p)n−1+…+nCnnpn(1−p)n−n=∑k=1nCnkpk(1−p)n−k\begin{aligned} E(X) &= \sum_{k=0}^nkP(X=k) \\ &=\sum_{k=0}^nC_n^kkp^k(1-p)^{n-k}\\ &=0C_n^0p^0(1-p)^{n-0}+1C_n^1p^1(1-p)^{n-1}+…+nC_n^np^n(1-p)^{n-n}\\ &=1C_n^1p^1(1-p)^{n-1}+…+nC_n^np^n(1-p)^{n-n} \\ &=\sum _{k=1}^nC_n^kp^k(1-p)^{n-k}\\ \end{aligned}E(X)​=k=0∑n​kP(X=k)=k=0∑n​Cnk​kpk(1−p)n−k=0Cn0​p0(1−p)n−0+1Cn1​p1(1−p)n−1+…+nCnn​pn(1−p)n−n=1Cn1​p1(1−p)n−1+…+nCnn​pn(1−p)n−n=k=1∑n​Cnk​pk(1−p)n−k​

代入二项式系数:

Cnk=n!k!(n−k)!C_n^k=\frac{n!}{k!(n-k)!}Cnk​=k!(n−k)!n!​

得到:

E(X)=∑k=1nn!k!(n−k)!kpk(1−p)n−k=∑k=1nn!k(k−1)!(n−k)!kpk(1−p)n−k=∑k=1nn!(k−1)!(n−k)!pk(1−p)n−k=∑k=1nn(n−1)!(k−1)!(n−k)!ppk−1(1−p)n−k=np∑k=1n(n−1)!(k−1)!(n−k)!pk−1(1−p)n−k\begin{aligned} E(X) &=\sum _{k=1}^n \frac{n!}{k!(n-k)!} k p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n!}{k(k-1)!(n-k)!} k p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n!}{(k-1)!(n-k)!} p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n(n-1)!}{(k-1)!(n-k)!} pp^{k-1}(1-p)^{n-k}\\ &=np\sum _{k=1}^n \frac{(n-1)!}{(k-1)!(n-k)!} p^{k-1}(1-p)^{n-k} \end{aligned}E(X)​=k=1∑n​k!(n−k)!n!​kpk(1−p)n−k=k=1∑n​k(k−1)!(n−k)!n!​kpk(1−p)n−k=k=1∑n​(k−1)!(n−k)!n!​pk(1−p)n−k=k=1∑n​(k−1)!(n−k)!n(n−1)!​ppk−1(1−p)n−k=npk=1∑n​(k−1)!(n−k)!(n−1)!​pk−1(1−p)n−k​

令a=k−1,b=n−1a=k-1,b=n-1a=k−1,b=n−1,则 n−k=b−an-k=b-an−k=b−a,得到:

E(X)=np∑a=0b(b)!a!(b−a)!pa(1−p)b−a=np∑a=0bCbapa(1−p)b−a=np\begin{aligned} E(X) &=np\sum _{a=0}^b \frac{(b)!}{a!(b-a)!} p^{a}(1-p)^{b-a}\\ &=np\sum_{a=0}^b C_b^a p^{a}(1-p)^{b-a}\\ &= np \end{aligned}E(X)​=npa=0∑b​a!(b−a)!(b)!​pa(1−p)b−a=npa=0∑b​Cba​pa(1−p)b−a=np​

∑a=0bCbapa(1−p)b−a\sum\limits_{a=0}^b C_b^a p^{a}(1-p)^{b-a}a=0∑b​Cba​pa(1−p)b−a表示一个二项分布的概率和,和应该为1

主要参考资料:

视频:《可汗学院统计学》
文章:csdn shangboerds 学习笔记
Jent’s Blog 学习笔记(后来发现的,写得很好,推荐)

可汗学院统计学17-24课笔记相关推荐

  1. 可汗学院统计学1-16课笔记

    [第1课] 均值 中位数 众数 均值(平均值) = 数据之和 / 数据个数 中位数 = 数据排序后,处在中间的数(如果两位数取平均值) 众数 = 出现次数最多的数,一组数据可以有多个众数 import ...

  2. 可汗学院统计学笔记(一)

    基本概念 1.总体(Population)与样本(Sample) 总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力.因此通过对总体进行抽样得到可以代表总体的样本.注意:采样过程应该是随机 ...

  3. 可汗学院统计学笔记1

    可汗学院:Task0 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 问题 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 均数.中位数.众数.极差.中程数(最大值和最小值的算术平均数) ...

  4. 可汗学院统计学笔记(二)

    1.中心极限定理(Central Limit Theorem) 中心极限定理:假设我们有一个分布,它有定义好的均值和方差.用X表示服从这个分布的变量.进行n次实验(n很大),每次实验得到的结果是对这个 ...

  5. 可汗学院统计学笔记 42-81集

    假设检验 假设检验是推论统计中用于检验统计假设的一种方法.而"统计假设"是可通过观察一组随机变量的模型进行检验的科学假说.一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出 ...

  6. 方差分析 可汗学院统计学 笔记

    总均值,也即几组数据的总均值,等于各组数据均值的均值. 数据的总波动可由组内波动+组间波动来描述 所有数据的离差平方和=组内的离差平方和+组间离差平方和 假设组数为m,组内数据有n个,上面的自由度分别 ...

  7. 可汗学院 统计学(12到34集)

    学习之前,需强调:概率是已知模型和参数,推数据:而统计是已知数据,推模型和参数. 第十二集:样本与总体 首先,为何需要样本呢?因为人类并不能总是获取总体数据,例如:人类的身高数据,全世界每秒都有人出生 ...

  8. 组队学习可汗学院统计学1

    12:  总体均值与样本均值,总体值不好得 13:计算了一个均值和方差 14:样本方差用S^2 表示,按照和计算总体方差一样的计算方法由于均值可能(?)与正常有偏移,使得方差的计算变小. 总体方差的无 ...

  9. 可汗学院统计学 task 3

    假设检验 假设检验(Hypothesis Testing):依据一定的假设条件由样本推断总体的一种方法. 基本思想是小概率反证法思想. 小概率思想是指小概率事件(P<0.01或P<0.05 ...

最新文章

  1. iOS之Storyboard导航大揭秘(1)
  2. Windows 下使用Git管理Github项目
  3. 如何激励用户为你的app评分?
  4. 项目管理(7):备战pmp
  5. 离开职场3年的宝妈,是该重回职场,还是自己创业呢?
  6. Struts2的OGNL标签详解
  7. C#.NET 通用权限管理系统中的数据集权限设置实现参考界面(商业化成熟权限管理系统,提供全部源码)...
  8. docker volume mysql_docker volume的理解
  9. python多线程和多进程
  10. 路由器与交换机组网性能的综合对比分析
  11. docker 批量关闭处于exited状态的container容器--shell工具
  12. XDU暑训2019 Day4 POJ2387
  13. 【C/C++】输入一个整数的二目运算式的字符串,如100+20,332-19,200*2333,44/33二目运算取”加减乘除“中的一种输出运算式的整数结果值
  14. kbhit linux windows通用,_kbhit() for Linux
  15. AI人工智能ml5.js在线实现图片变卡通图像,照片变卡通图像
  16. 云原生数据中台:架构、方法论与实践
  17. Eclipse Console 乱码
  18. 元宇宙012 | 世界人工智能大会之元宇宙论坛:技术篇
  19. 中职计算机学校名师工作室,用心耕耘——记浙江省中职名师工作室领衔人卜连英...
  20. Qt cef3 无边框程序最小化之后,再打开 hover 状态失效

热门文章

  1. Unity Application Block 1.2 学习笔记(zhuan)
  2. python编码声明问题
  3. windows环境下cmd切换不同盘目录
  4. 金庸的小说人生(1)
  5. Question Retrieval with Distributed Representations and Participant Reputation in Community QA论文笔记
  6. 线性回归的补充与变量归一化
  7. Lambda 表达式Demoo
  8. Mask R-CNN完整翻译
  9. Ubuntu 安装Trac
  10. 【深度学习实战04】——SSD tensorflow图像和视频的目标检测