可汗学院统计学17-24课笔记
【转载请注明出处:https://leytton.blog.csdn.net/article/details/103730081】
[第17课] 随机变量介绍
离散随机变量(discrete random variable)
在一定区间内变量取值为有限个,如抛硬币,掷骰子
连续随机变量(continuous random variable)
在一定区间内变量取值为无限个,如明天下雨的概率,在(0,1)之间
random.randint()与np.random.randint()的区别
random.randint()方法里面的取值区间是前闭后闭区间,而np.random.randint()方法的取值区间是前闭后开区间
import random# 离散随机变量(discrete random variable)
# 如:抛硬币
x = random.randint(0, 1)
print(x)# 掷骰子
x = random.randint(1, 6)
print(x)# 连续随机变量(continuous random variable)
x = random.random()
print(x)
1
6
0.7703803681713864
[第18课] 随机变量介绍
摘自《统计学18:随机变量介绍》,略有修改
概率密度函数
- 随机变量所有值发生概率和等于1
- 概率密度函数是对连续随机变量而言的.
比如说明天下雨的概率是0.8,那么不下雨的概率是0.2;
观察密度函数的图,面积才是表示密度函数的概率值.而不是x对应y坐标.
假设曲线为f(x),概率是面积,也就是对函数f(x)的积分:
P(0.1<X<0.2)=∫0.10.2f(x)d(x)P(0.1<X<0.2)=\int_{0.1}^{0.2}f(x)d(x)P(0.1<X<0.2)=∫0.10.2f(x)d(x)
其中 ∫−∞+∞f(x)d(x)=1\int_{-\infty }^{+\infty }{f(x)d(x)}=1∫−∞+∞f(x)d(x)=1
离散的随机变量概率
区别于连续随机变量,离散变量的概率是可以枚举出来的,如掷骰子,有六个离散变量,每个离散变量的概率都是161\over661
[第19课] 二项分布1
摘自《统计学19:二项分布1》,略有修改
看一下掷硬币的问题
掷一次硬币正面或者反面发生的概率都是12\frac{1}{2}21
掷五次硬币或者一次掷五个硬币(每个硬币正反独立的,每次硬币独立的,怎么操作都一样.),记出现正面的数量为XXX.
P(X=0)P(X=0)P(X=0)(出现正面为0次的概率,也就是五次全为反面)?
全为反面只有一种情况,就是第一次投掷为反,第二次为反...
P(X=0)=12×12×12×12×12=132P(X=0)=\frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2}=\frac{1}{32}P(X=0)=21×21×21×21×21=321
P(X=1)P(X=1)P(X=1)(出现正面为1次的概率)?
正面为1次有5种情况,就是第一次投掷为正,其他全为反;第二次为正,其他全为反...
每中情况都是132\frac{1}{32}321(出现正面的次数和非正面的次数都是12\frac{1}{2}21)
P(X=1)=5×132=532P(X=1)=5 \times \frac{1}{32} = \frac{5}{32}P(X=1)=5×321=325
P(X=2)P(X=2)P(X=2)(出现正面为2次的概率)?
还要枚举吗?好像有点累
分析一下:
- 先确定一个正面发生的位置,它有5种(第一次投掷为正,第二次为正...),再确定第二个正面发生的位置,第一个记录已经占走了一个位置,还有四个位置选一个为正,有4种. 5×45 \times 45×4
- 刚刚我们先确定了,再确定,多做了排序,也就是同样第二次和第三次为正,但是我们却在刚刚把它记为了两种情况(先找到2位再发现3,和先找到3再发现2)我们要排除我们不必要的排序. 5×42\frac{5 \times 4}{2}25×4
- 每中情况都是132\frac{1}{32}321
P(X=2)=5×42×132=516P(X=2)=\frac{5 \times 4}{2} \times \frac{1}{32} = \frac{5}{16}P(X=2)=25×4×321=165
P(X=3)P(X=3)P(X=3)?
- 确定第一个(5个位置选1个),第二个(4个位置选1个),第三个(3个位置选1个)5×4×35 \times 4 \times 35×4×3
- 排除不必要的排序(3个的排序为3×23 \times 23×2). 5×4×33×2\frac{5 \times 4 \times 3}{3 \times 2}3×25×4×3
- 每中情况都是132\frac{1}{32}321
P(X=3)=5×4×33×2×132=516P(X=3)=\frac{5 \times 4 \times 3}{3 \times 2} \times \frac{1}{32} = \frac{5}{16}P(X=3)=3×25×4×3×321=165
P(X=4)P(X=4)P(X=4)?
- A54=5×4×3×2A_5^4 = 5 \times 4 \times 3 \times 2A54=5×4×3×2
- A54A44=5×4×3×24×3×2\frac{A_5^4}{A_4^4} = \frac{5 \times 4 \times 3 \times 2}{4 \times 3 \times 2}A44A54=4×3×25×4×3×2
- 132\frac{1}{32}321
P(X=4)=5×4×3×24×3×2×132=532P(X=4)=\frac{5 \times 4 \times 3 \times 2}{4 \times 3 \times 2} \times \frac{1}{32} = \frac{5}{32}P(X=4)=4×3×25×4×3×2×321=325
P(X=5)P(X=5)P(X=5)?
P(X=5)=C55×132=132P(X=5)=C_5^5 \times \frac{1}{32} = \frac{1}{32}P(X=5)=C55×321=321
也可以把5次为正理解为0次为反,正反概率相等,那么P(X=5)=P(X=0)P(X=5)=P(X=0)P(X=5)=P(X=0)
二项分布就是重复n次独立的伯努利试验.
伯努利实验:在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变
[第20课] 二项分布2
摘自《统计学20:二项分布2》,略有修改
随机变量是一种映射关系.还是以上一节投掷硬币情况为例
X={0全为反面1有1次为正面2有2次为正面3有3次为正面4有4次为正面5全为正面X= \begin{cases} 0 & \text{全为反面}\\ 1 & \text{有$1$次为正面}\\ 2 & \text{有$2$次为正面}\\ 3 & \text{有$3$次为正面}\\ 4 & \text{有$4$次为正面}\\ 5 & \text{全为正面}\\ \end{cases}X=⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎧012345全为反面有1次为正面有2次为正面有3次为正面有4次为正面全为正面
把上概率整理如下图表:
如果投掷的次数非常的多,把它们的概率值用曲线描出来,就是一根钟形曲线.在离散中是二项分布,在连续中它是正态分布.
二项分布是可以被总结出公式的.
还记得上一节我在最后的P(X=5)P(X=5)P(X=5)求解时,把系数(后面是每次独立发生的概率值)写了C55C_5^5C55吗?
CnmC_n^mCnm表示从nnn个元素中挑选出mmm个元素(无序)的可能.(也可以理解为从nnn次实验中发生mmm次同事件的可能)
二项式系数公式
(mn)=Cnm=n!m!(n−m)!(_m^n)=C_n^m = \frac{n!}{m!(n-m)!}(mn)=Cnm=m!(n−m)!n!
也可以继续上一节那个分析,AnmAmm\frac{A_n^m}{A_m^m}AmmAnm记为CnmC_n^mCnm
其中:
有了二项式系数其实就是从nnn次实验中发生mmm次同事件的可能种类数,然后它乘一每次事件的概率就是我们求的P(X=m)P(X=m)P(X=m).
那么二项式分布X~B(n,p)X~B(n,p)X~B(n,p)的公式就来了:
P(k,n,p)=P(X=k)=Cnkpk(1−P)n−kP(k,n,p) = P(X=k) = C_n^kp^k(1-P)^{n-k}P(k,n,p)=P(X=k)=Cnkpk(1−P)n−k
[第21课] 二项分布3
摘自《统计学21:二项分布3》,略有修改
来看上一节留下的公式
P(X=k)=Cnkpk(1−p)n−kP(X=k) = C_n^kp^k(1-p)^{n-k}P(X=k)=Cnkpk(1−p)n−k
你可能已经明白了二项系数CnkC_n^kCnk什么意思,这里说一下为什么是概率是pk(1−p)n−kp^k(1-p)^{n-k}pk(1−p)n−k.
可能硬币事件的两种结果让我记住了12\frac{1}{2}21,那是一个比较特殊的情况.如果把事件转换为掷筛子呢?它就不再是12\frac{1}{2}21,12\frac{1}{2}21.
如果问题转换为掷筛子,点数为1或者2则甲胜出,点数为3或者4则乙胜出,点数为5或者6则丙胜出,现在寻找在n次实验中,甲胜出X次的概率?
只关心甲的概率,只需知道是甲赢了,还是输了,并不关心乙或者丙赢了他.现在就是二项分布了,甲赢(点数为1或2),甲不赢(点数不为1或2,即为3,4,5,6).则事件发生的概率分别为甲赢13\frac{1}{3}31,甲不赢23\frac{2}{3}32.
注意二项分布的特点,每次投掷都是独立的,不受之前实验的影响,每次结果都是甲赢13\frac{1}{3}31,甲不赢23\frac{2}{3}32.
那么求P(X=0)P(X=0)P(X=0),假设投掷了8次:
- 通过上一节我们知道系数C80C_8^0C80
- 甲赢的次数为0,那么这种可能就是全输的概率,就是每次概率是23\frac{2}{3}32,则 P(X=0)=C80×(23)8P(X=0)=C_8^0 \times (\frac{2}{3})^8P(X=0)=C80×(32)8
P(X=1)P(X=1)P(X=1):
- 系数C81C_8^1C81
- 甲赢的次数为1,那么这种可能就是1次为胜,7次为输的概率.即8次事件中,发生了1次概率是13\frac{1}{3}31事件和(8−1)(8-1)(8−1)次概率为23\frac{2}{3}32事件,则P(X=1)=C81×(13)1×(23)8−1P(X=1)=C_8^1 \times (\frac{1}{3})^{1} \times (\frac{2}{3})^{8-1}P(X=1)=C81×(31)1×(32)8−1
P(X=2)P(X=2)P(X=2):
- 系数C82C_8^2C82
- 发生了2次概率是13\frac{1}{3}31事件和(8−2)(8-2)(8−2)次概率为1−131-\frac{1}{3}1−31事件(两种结果,总的概率为1),则P(X=2)=C82×(13)2×(1−13)8−2P(X=2)=C_8^2 \times (\frac{1}{3})^{2} \times (1-\frac{1}{3})^{8-2}P(X=2)=C82×(31)2×(1−31)8−2
沿着这个方法走下去,就会发现如何去利用公式了.
[第22课] 二项分布4
这一节是介绍用Excel绘制二项分布,详情请看《统计学22:二项分布4》
[第23课] 期望值E(X)
摘自《统计学23:期望值E(X)》,略有修改
给出一个总体,一组数: 3, 3, 3, 4, 5
它的平均数是: 3+3+3+4+55=185=3.6\frac{3+3+3+4+5}{5}=\frac{18}{5}=3.653+3+3+4+5=518=3.6
我们可以换一种方式来看,里面有3个3,1个4,1个5:3(3)+1(4)+1(5)5=35×3+15×4+15×5=60\frac{3(3)+1(4)+1(5)}{5}=\frac{3}{5}×3+\frac{1}{5}×4+\frac{1}{5}×5 = 60%×3+20%×4+20%×553(3)+1(4)+1(5)=53×3+51×4+51×5=60
频率
观察这个式子,60%×3+20%×4+20%×5,这里没有表示每个数字出现的次数,只是它出现的频率:
3的频率是60%,4的频率是20%,5的频率是20%.计算是1.8+0.8+1=3.6
知道3,4,5每个数字相对的频率,也就是占总体额百分比,就可以计算除均值.
[第24课] 二项分布的期望值
摘自《统计学24:二项分布的期望值》,略有修改
假设随机变量X表示n次实验的次数,其中每次成功的概率是p.
E(X)=npE(X) = npE(X)=np
在二项分布中,期望值可以看成是最可能得到的那个结果.
假设投篮的命中概率为40%,投10次.
那么E(X)=np=10×40%=4E(X) = np = 10 \times 40\% =4E(X)=np=10×40%=4
可以理解为命中概率为40%,那么投10次,可能4次命中.
回顾二项式概率的公式:
P(X=k)=Cnkpk(1−p)n−kP(X=k) = C_n^kp^k(1-p)^{n-k}P(X=k)=Cnkpk(1−p)n−k
期望值公式:
E(X)=∑k=0nkP(X=k)=∑k=0nCnkkpk(1−p)n−k=0Cn0p0(1−p)n−0+1Cn1p1(1−p)n−1+…+nCnnpn(1−p)n−n=1Cn1p1(1−p)n−1+…+nCnnpn(1−p)n−n=∑k=1nCnkpk(1−p)n−k\begin{aligned} E(X) &= \sum_{k=0}^nkP(X=k) \\ &=\sum_{k=0}^nC_n^kkp^k(1-p)^{n-k}\\ &=0C_n^0p^0(1-p)^{n-0}+1C_n^1p^1(1-p)^{n-1}+…+nC_n^np^n(1-p)^{n-n}\\ &=1C_n^1p^1(1-p)^{n-1}+…+nC_n^np^n(1-p)^{n-n} \\ &=\sum _{k=1}^nC_n^kp^k(1-p)^{n-k}\\ \end{aligned}E(X)=k=0∑nkP(X=k)=k=0∑nCnkkpk(1−p)n−k=0Cn0p0(1−p)n−0+1Cn1p1(1−p)n−1+…+nCnnpn(1−p)n−n=1Cn1p1(1−p)n−1+…+nCnnpn(1−p)n−n=k=1∑nCnkpk(1−p)n−k
代入二项式系数:
Cnk=n!k!(n−k)!C_n^k=\frac{n!}{k!(n-k)!}Cnk=k!(n−k)!n!
得到:
E(X)=∑k=1nn!k!(n−k)!kpk(1−p)n−k=∑k=1nn!k(k−1)!(n−k)!kpk(1−p)n−k=∑k=1nn!(k−1)!(n−k)!pk(1−p)n−k=∑k=1nn(n−1)!(k−1)!(n−k)!ppk−1(1−p)n−k=np∑k=1n(n−1)!(k−1)!(n−k)!pk−1(1−p)n−k\begin{aligned} E(X) &=\sum _{k=1}^n \frac{n!}{k!(n-k)!} k p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n!}{k(k-1)!(n-k)!} k p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n!}{(k-1)!(n-k)!} p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n(n-1)!}{(k-1)!(n-k)!} pp^{k-1}(1-p)^{n-k}\\ &=np\sum _{k=1}^n \frac{(n-1)!}{(k-1)!(n-k)!} p^{k-1}(1-p)^{n-k} \end{aligned}E(X)=k=1∑nk!(n−k)!n!kpk(1−p)n−k=k=1∑nk(k−1)!(n−k)!n!kpk(1−p)n−k=k=1∑n(k−1)!(n−k)!n!pk(1−p)n−k=k=1∑n(k−1)!(n−k)!n(n−1)!ppk−1(1−p)n−k=npk=1∑n(k−1)!(n−k)!(n−1)!pk−1(1−p)n−k
令a=k−1,b=n−1a=k-1,b=n-1a=k−1,b=n−1,则 n−k=b−an-k=b-an−k=b−a,得到:
E(X)=np∑a=0b(b)!a!(b−a)!pa(1−p)b−a=np∑a=0bCbapa(1−p)b−a=np\begin{aligned} E(X) &=np\sum _{a=0}^b \frac{(b)!}{a!(b-a)!} p^{a}(1-p)^{b-a}\\ &=np\sum_{a=0}^b C_b^a p^{a}(1-p)^{b-a}\\ &= np \end{aligned}E(X)=npa=0∑ba!(b−a)!(b)!pa(1−p)b−a=npa=0∑bCbapa(1−p)b−a=np
∑a=0bCbapa(1−p)b−a\sum\limits_{a=0}^b C_b^a p^{a}(1-p)^{b-a}a=0∑bCbapa(1−p)b−a表示一个二项分布的概率和,和应该为1
主要参考资料:
视频:《可汗学院统计学》
文章:csdn shangboerds 学习笔记
Jent’s Blog 学习笔记(后来发现的,写得很好,推荐)
可汗学院统计学17-24课笔记相关推荐
- 可汗学院统计学1-16课笔记
[第1课] 均值 中位数 众数 均值(平均值) = 数据之和 / 数据个数 中位数 = 数据排序后,处在中间的数(如果两位数取平均值) 众数 = 出现次数最多的数,一组数据可以有多个众数 import ...
- 可汗学院统计学笔记(一)
基本概念 1.总体(Population)与样本(Sample) 总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力.因此通过对总体进行抽样得到可以代表总体的样本.注意:采样过程应该是随机 ...
- 可汗学院统计学笔记1
可汗学院:Task0 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 问题 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 均数.中位数.众数.极差.中程数(最大值和最小值的算术平均数) ...
- 可汗学院统计学笔记(二)
1.中心极限定理(Central Limit Theorem) 中心极限定理:假设我们有一个分布,它有定义好的均值和方差.用X表示服从这个分布的变量.进行n次实验(n很大),每次实验得到的结果是对这个 ...
- 可汗学院统计学笔记 42-81集
假设检验 假设检验是推论统计中用于检验统计假设的一种方法.而"统计假设"是可通过观察一组随机变量的模型进行检验的科学假说.一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出 ...
- 方差分析 可汗学院统计学 笔记
总均值,也即几组数据的总均值,等于各组数据均值的均值. 数据的总波动可由组内波动+组间波动来描述 所有数据的离差平方和=组内的离差平方和+组间离差平方和 假设组数为m,组内数据有n个,上面的自由度分别 ...
- 可汗学院 统计学(12到34集)
学习之前,需强调:概率是已知模型和参数,推数据:而统计是已知数据,推模型和参数. 第十二集:样本与总体 首先,为何需要样本呢?因为人类并不能总是获取总体数据,例如:人类的身高数据,全世界每秒都有人出生 ...
- 组队学习可汗学院统计学1
12: 总体均值与样本均值,总体值不好得 13:计算了一个均值和方差 14:样本方差用S^2 表示,按照和计算总体方差一样的计算方法由于均值可能(?)与正常有偏移,使得方差的计算变小. 总体方差的无 ...
- 可汗学院统计学 task 3
假设检验 假设检验(Hypothesis Testing):依据一定的假设条件由样本推断总体的一种方法. 基本思想是小概率反证法思想. 小概率思想是指小概率事件(P<0.01或P<0.05 ...
最新文章
- iOS之Storyboard导航大揭秘(1)
- Windows 下使用Git管理Github项目
- 如何激励用户为你的app评分?
- 项目管理(7):备战pmp
- 离开职场3年的宝妈,是该重回职场,还是自己创业呢?
- Struts2的OGNL标签详解
- C#.NET 通用权限管理系统中的数据集权限设置实现参考界面(商业化成熟权限管理系统,提供全部源码)...
- docker volume mysql_docker volume的理解
- python多线程和多进程
- 路由器与交换机组网性能的综合对比分析
- docker 批量关闭处于exited状态的container容器--shell工具
- XDU暑训2019 Day4 POJ2387
- 【C/C++】输入一个整数的二目运算式的字符串,如100+20,332-19,200*2333,44/33二目运算取”加减乘除“中的一种输出运算式的整数结果值
- kbhit linux windows通用,_kbhit() for Linux
- AI人工智能ml5.js在线实现图片变卡通图像,照片变卡通图像
- 云原生数据中台:架构、方法论与实践
- Eclipse Console 乱码
- 元宇宙012 | 世界人工智能大会之元宇宙论坛:技术篇
- 中职计算机学校名师工作室,用心耕耘——记浙江省中职名师工作室领衔人卜连英...
- Qt cef3 无边框程序最小化之后,再打开 hover 状态失效
热门文章
- Unity Application Block 1.2 学习笔记(zhuan)
- python编码声明问题
- windows环境下cmd切换不同盘目录
- 金庸的小说人生(1)
- Question Retrieval with Distributed Representations and Participant Reputation in Community QA论文笔记
- 线性回归的补充与变量归一化
- Lambda 表达式Demoo
- Mask R-CNN完整翻译
- Ubuntu 安装Trac
- 【深度学习实战04】——SSD tensorflow图像和视频的目标检测