【转载请注明出处：https://leytton.blog.csdn.net/article/details/103730081】

[第17课] 随机变量介绍

离散随机变量（discrete random variable）
在一定区间内变量取值为有限个，如抛硬币，掷骰子

连续随机变量（continuous random variable）
在一定区间内变量取值为无限个，如明天下雨的概率，在(0,1)之间

random.randint()与np.random.randint()的区别
random.randint()方法里面的取值区间是前闭后闭区间，而np.random.randint()方法的取值区间是前闭后开区间

import random# 离散随机变量（discrete random variable）
# 如：抛硬币
x = random.randint(0, 1)
print(x)# 掷骰子
x = random.randint(1, 6)
print(x)# 连续随机变量（continuous random variable）
x = random.random()
print(x)

1
6
0.7703803681713864

[第18课] 随机变量介绍

摘自《统计学18：随机变量介绍》,略有修改

概率密度函数

随机变量所有值发生概率和等于1
概率密度函数是对连续随机变量而言的．

比如说明天下雨的概率是0.8，那么不下雨的概率是0.2；

观察密度函数的图，面积才是表示密度函数的概率值．而不是x对应y坐标．

假设曲线为f(x)，概率是面积，也就是对函数f(x)的积分：

P(0.1<X<0.2)=∫0.10.2f(x)d(x)P(0.1<X<0.2)=\int_{0.1}^{0.2}f(x)d(x)P(0.1<X<0.2)=∫0.10.2f(x)d(x)

其中 ∫−∞+∞f(x)d(x)=1\int_{-\infty }^{+\infty }{f(x)d(x)}=1∫−∞+∞f(x)d(x)=1

离散的随机变量概率

区别于连续随机变量，离散变量的概率是可以枚举出来的，如掷骰子，有六个离散变量，每个离散变量的概率都是161\over661

[第19课] 二项分布1

摘自《统计学19：二项分布1》,略有修改

看一下掷硬币的问题
掷一次硬币正面或者反面发生的概率都是12\frac{1}{2}21

掷五次硬币或者一次掷五个硬币（每个硬币正反独立的，每次硬币独立的，怎么操作都一样．），记出现正面的数量为XXX.

P(X=0)P(X=0)P(X=0)（出现正面为0次的概率，也就是五次全为反面）？

全为反面只有一种情况，就是第一次投掷为反，第二次为反．．．

P(X=0)=12×12×12×12×12=132P(X=0)=\frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2}=\frac{1}{32}P(X=0)=21×21×21×21×21=321

P(X=1)P(X=1)P(X=1)（出现正面为1次的概率）？

正面为1次有5种情况，就是第一次投掷为正，其他全为反；第二次为正，其他全为反．．．
每中情况都是132\frac{1}{32}321（出现正面的次数和非正面的次数都是12\frac{1}{2}21）

P(X=1)=5×132=532P(X=1)=5 \times \frac{1}{32} = \frac{5}{32}P(X=1)=5×321=325
P(X=2)P(X=2)P(X=2)（出现正面为2次的概率）？

还要枚举吗？好像有点累
分析一下：

先确定一个正面发生的位置，它有5种（第一次投掷为正，第二次为正．．．），再确定第二个正面发生的位置，第一个记录已经占走了一个位置，还有四个位置选一个为正，有4种．　5×45 \times 45×4
刚刚我们先确定了，再确定，多做了排序，也就是同样第二次和第三次为正，但是我们却在刚刚把它记为了两种情况（先找到2位再发现3，和先找到3再发现2）我们要排除我们不必要的排序．　5×42\frac{5 \times 4}{2}25×4
每中情况都是132\frac{1}{32}321

P(X=2)=5×42×132=516P(X=2)=\frac{5 \times 4}{2} \times \frac{1}{32} = \frac{5}{16}P(X=2)=25×4×321=165
P(X=3)P(X=3)P(X=3)？

确定第一个（5个位置选1个），第二个（4个位置选1个），第三个（3个位置选1个）5×4×35 \times 4 \times 35×4×3
排除不必要的排序（3个的排序为3×23 \times 23×2）．　5×4×33×2\frac{5 \times 4 \times 3}{3 \times 2}3×25×4×3
每中情况都是132\frac{1}{32}321

P(X=3)=5×4×33×2×132=516P(X=3)=\frac{5 \times 4 \times 3}{3 \times 2} \times \frac{1}{32} = \frac{5}{16}P(X=3)=3×25×4×3×321=165
P(X=4)P(X=4)P(X=4)？

A54=5×4×3×2A_5^4 = 5 \times 4 \times 3 \times 2A54=5×4×3×2
A54A44=5×4×3×24×3×2\frac{A_5^4}{A_4^4} = \frac{5 \times 4 \times 3 \times 2}{4 \times 3 \times 2}A44A54=4×3×25×4×3×2
132\frac{1}{32}321

P(X=4)=5×4×3×24×3×2×132=532P(X=4)=\frac{5 \times 4 \times 3 \times 2}{4 \times 3 \times 2} \times \frac{1}{32} = \frac{5}{32}P(X=4)=4×3×25×4×3×2×321=325
P(X=5)P(X=5)P(X=5)？
P(X=5)=C55×132=132P(X=5)=C_5^5 \times \frac{1}{32} = \frac{1}{32}P(X=5)=C55×321=321

也可以把5次为正理解为0次为反，正反概率相等，那么P(X=5)＝P(X=0)P(X=5)＝P(X=0)P(X=5)＝P(X=0)

二项分布就是重复n次独立的伯努利试验.
伯努利实验:在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变

[第20课] 二项分布2

摘自《统计学20：二项分布2》,略有修改

随机变量是一种映射关系．还是以上一节投掷硬币情况为例

X={0全为反面1有1次为正面2有2次为正面3有3次为正面4有4次为正面5全为正面X= \begin{cases} 0 & \text{全为反面}\\ 1 & \text{有$1$次为正面}\\ 2 & \text{有$2$次为正面}\\ 3 & \text{有$3$次为正面}\\ 4 & \text{有$4$次为正面}\\ 5 & \text{全为正面}\\ \end{cases}X=⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎧012345全为反面有1次为正面有2次为正面有3次为正面有4次为正面全为正面

把上概率整理如下图表：

如果投掷的次数非常的多，把它们的概率值用曲线描出来，就是一根钟形曲线．在离散中是二项分布，在连续中它是正态分布．

二项分布是可以被总结出公式的．

还记得上一节我在最后的P(X=5)P(X=5)P(X=5)求解时，把系数（后面是每次独立发生的概率值）写了C55C_5^5C55吗？

CnmC_n^mCnm表示从nnn个元素中挑选出mmm个元素（无序）的可能．（也可以理解为从nnn次实验中发生mmm次同事件的可能）

二项式系数公式

(mn)=Cnm=n!m!(n−m)!(_m^n)=C_n^m = \frac{n!}{m!(n-m)!}(mn)=Cnm=m!(n−m)!n!

也可以继续上一节那个分析，AnmAmm\frac{A_n^m}{A_m^m}AmmAnm记为CnmC_n^mCnm

其中：

有了二项式系数其实就是从nnn次实验中发生mmm次同事件的可能种类数，然后它乘一每次事件的概率就是我们求的P(X=m)P(X=m)P(X=m)．

那么二项式分布X～B(n,p)X～B(n,p)X～B(n,p)的公式就来了：

P(k,n,p)=P(X=k)=Cnkpk(1−P)n−kP(k,n,p) = P(X=k) = C_n^kp^k(1-P)^{n-k}P(k,n,p)=P(X=k)=Cnkpk(1−P)n−k

[第21课] 二项分布3

摘自《统计学21：二项分布3》,略有修改

来看上一节留下的公式
P(X=k)=Cnkpk(1−p)n−kP(X=k) = C_n^kp^k(1-p)^{n-k}P(X=k)=Cnkpk(1−p)n−k

你可能已经明白了二项系数CnkC_n^kCnk什么意思，这里说一下为什么是概率是pk(1−p)n−kp^k(1-p)^{n-k}pk(1−p)n−k．
可能硬币事件的两种结果让我记住了12\frac{1}{2}21,那是一个比较特殊的情况．如果把事件转换为掷筛子呢？它就不再是12\frac{1}{2}21,12\frac{1}{2}21．

如果问题转换为掷筛子，点数为1或者2则甲胜出，点数为3或者4则乙胜出，点数为5或者6则丙胜出，现在寻找在n次实验中，甲胜出X次的概率？

只关心甲的概率，只需知道是甲赢了，还是输了，并不关心乙或者丙赢了他．现在就是二项分布了，甲赢（点数为1或2），甲不赢（点数不为1或2，即为3，4，5，6）．则事件发生的概率分别为甲赢13\frac{1}{3}31，甲不赢23\frac{2}{3}32．
注意二项分布的特点，每次投掷都是独立的，不受之前实验的影响，每次结果都是甲赢13\frac{1}{3}31，甲不赢23\frac{2}{3}32．

那么求P(X=0)P(X=0)P(X=0),假设投掷了8次：

通过上一节我们知道系数C80C_8^0C80
甲赢的次数为0，那么这种可能就是全输的概率，就是每次概率是23\frac{2}{3}32，则 P(X=0)=C80×(23)8P(X=0)=C_8^0 \times (\frac{2}{3})^8P(X=0)=C80×(32)8

P(X=1)P(X=1)P(X=1)：

系数C81C_8^1C81
甲赢的次数为1，那么这种可能就是1次为胜，7次为输的概率.即8次事件中，发生了1次概率是13\frac{1}{3}31事件和(8−1)(8-1)(8−1)次概率为23\frac{2}{3}32事件，则P(X=1)=C81×(13)1×(23)8−1P(X=1)=C_8^1 \times (\frac{1}{3})^{1} \times (\frac{2}{3})^{8-1}P(X=1)=C81×(31)1×(32)8−1

P(X=2)P(X=2)P(X=2)：

系数C82C_8^2C82
发生了2次概率是13\frac{1}{3}31事件和(8−2)(8-2)(8−2)次概率为1−131-\frac{1}{3}1−31事件（两种结果，总的概率为1），则P(X=2)=C82×(13)2×(1−13)8−2P(X=2)=C_8^2 \times (\frac{1}{3})^{2} \times (1-\frac{1}{3})^{8-2}P(X=2)=C82×(31)2×(1−31)8−2

沿着这个方法走下去，就会发现如何去利用公式了．

[第22课] 二项分布4

这一节是介绍用Excel绘制二项分布，详情请看《统计学22：二项分布4》

[第23课] 期望值E(X)

摘自《统计学23：期望值E(X)》，略有修改

给出一个总体，一组数： 3, 3, 3, 4, 5

它的平均数是：　3+3+3+4+55=185=3.6\frac{3+3+3+4+5}{5}=\frac{18}{5}=3.653+3+3+4+5=518=3.6

我们可以换一种方式来看，里面有3个3，1个4，1个5：3(3)+1(4)+1(5)5=35×3+15×4+15×5=60\frac{3(3)+1(4)+1(5)}{5}=\frac{3}{5}×3+\frac{1}{5}×4+\frac{1}{5}×5 = 60%×3+20%×4+20%×553(3)+1(4)+1(5)=53×3+51×4+51×5=60

频率

观察这个式子，60%×3+20%×4+20%×5，这里没有表示每个数字出现的次数，只是它出现的频率：

3的频率是60%,4的频率是20%,5的频率是20%.计算是1.8+0.8+1＝3.6

知道3，4，5每个数字相对的频率，也就是占总体额百分比，就可以计算除均值．

[第24课] 二项分布的期望值

摘自《统计学24：二项分布的期望值》，略有修改
假设随机变量X表示n次实验的次数，其中每次成功的概率是p.

E(X)=npE(X) = npE(X)=np

在二项分布中，期望值可以看成是最可能得到的那个结果．

假设投篮的命中概率为40％，投10次．
那么E(X)=np=10×40%=4E(X) = np = 10 \times 40\% =4E(X)=np=10×40%=4

可以理解为命中概率为40％，那么投10次，可能4次命中．

回顾二项式概率的公式：

P(X=k)=Cnkpk(1−p)n−kP(X=k) = C_n^kp^k(1-p)^{n-k}P(X=k)=Cnkpk(1−p)n−k

期望值公式：

E(X)=∑k=0nkP(X=k)=∑k=0nCnkkpk(1−p)n−k=0Cn0p0(1−p)n−0+1Cn1p1(1−p)n−1+…+nCnnpn(1−p)n−n=1Cn1p1(1−p)n−1+…+nCnnpn(1−p)n−n=∑k=1nCnkpk(1−p)n−k\begin{aligned} E(X) &= \sum_{k=0}^nkP(X=k) \\ &=\sum_{k=0}^nC_n^kkp^k(1-p)^{n-k}\\ &=0C_n^0p^0(1-p)^{n-0}+1C_n^1p^1(1-p)^{n-1}+…+nC_n^np^n(1-p)^{n-n}\\ &=1C_n^1p^1(1-p)^{n-1}+…+nC_n^np^n(1-p)^{n-n} \\ &=\sum _{k=1}^nC_n^kp^k(1-p)^{n-k}\\ \end{aligned}E(X)=k=0∑nkP(X=k)=k=0∑nCnkkpk(1−p)n−k=0Cn0p0(1−p)n−0+1Cn1p1(1−p)n−1+…+nCnnpn(1−p)n−n=1Cn1p1(1−p)n−1+…+nCnnpn(1−p)n−n=k=1∑nCnkpk(1−p)n−k

代入二项式系数：

Cnk=n!k!(n−k)!C_n^k=\frac{n!}{k!(n-k)!}Cnk=k!(n−k)!n!

得到：

E(X)=∑k=1nn!k!(n−k)!kpk(1−p)n−k=∑k=1nn!k(k−1)!(n−k)!kpk(1−p)n−k=∑k=1nn!(k−1)!(n−k)!pk(1−p)n−k=∑k=1nn(n−1)!(k−1)!(n−k)!ppk−1(1−p)n−k=np∑k=1n(n−1)!(k−1)!(n−k)!pk−1(1−p)n−k\begin{aligned} E(X) &=\sum _{k=1}^n \frac{n!}{k!(n-k)!} k p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n!}{k(k-1)!(n-k)!} k p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n!}{(k-1)!(n-k)!} p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n(n-1)!}{(k-1)!(n-k)!} pp^{k-1}(1-p)^{n-k}\\ &=np\sum _{k=1}^n \frac{(n-1)!}{(k-1)!(n-k)!} p^{k-1}(1-p)^{n-k} \end{aligned}E(X)=k=1∑nk!(n−k)!n!kpk(1−p)n−k=k=1∑nk(k−1)!(n−k)!n!kpk(1−p)n−k=k=1∑n(k−1)!(n−k)!n!pk(1−p)n−k=k=1∑n(k−1)!(n−k)!n(n−1)!ppk−1(1−p)n−k=npk=1∑n(k−1)!(n−k)!(n−1)!pk−1(1−p)n−k

令a=k−1,b=n−1a=k-1,b=n-1a=k−1,b=n−1，则 n−k=b−an-k=b-an−k=b−a，得到：

E(X)=np∑a=0b(b)!a!(b−a)!pa(1−p)b−a=np∑a=0bCbapa(1−p)b−a=np\begin{aligned} E(X) &=np\sum _{a=0}^b \frac{(b)!}{a!(b-a)!} p^{a}(1-p)^{b-a}\\ &=np\sum_{a=0}^b C_b^a p^{a}(1-p)^{b-a}\\ &= np \end{aligned}E(X)=npa=0∑ba!(b−a)!(b)!pa(1−p)b−a=npa=0∑bCbapa(1−p)b−a=np

∑a=0bCbapa(1−p)b−a\sum\limits_{a=0}^b C_b^a p^{a}(1-p)^{b-a}a=0∑bCbapa(1−p)b−a表示一个二项分布的概率和，和应该为1

主要参考资料：

视频：《可汗学院统计学》
文章：csdn shangboerds 学习笔记
Jent’s Blog 学习笔记（后来发现的，写得很好，推荐）

可汗学院统计学17-24课笔记相关推荐

可汗学院统计学1-16课笔记
[第1课] 均值中位数众数均值(平均值) = 数据之和 / 数据个数中位数 = 数据排序后,处在中间的数(如果两位数取平均值) 众数 = 出现次数最多的数,一组数据可以有多个众数 import ...
可汗学院统计学笔记（一）
基本概念 1.总体(Population)与样本(Sample) 总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力.因此通过对总体进行抽样得到可以代表总体的样本.注意:采样过程应该是随机 ...
可汗学院统计学笔记1
可汗学院:Task0 学习内容1:统计学基本知识.二项及泊松分布内容梗概问题学习内容1:统计学基本知识.二项及泊松分布内容梗概均数.中位数.众数.极差.中程数(最大值和最小值的算术平均数) ...
可汗学院统计学笔记（二）
1.中心极限定理(Central Limit Theorem) 中心极限定理:假设我们有一个分布,它有定义好的均值和方差.用X表示服从这个分布的变量.进行n次实验(n很大),每次实验得到的结果是对这个 ...
可汗学院统计学笔记 42-81集
假设检验假设检验是推论统计中用于检验统计假设的一种方法.而"统计假设"是可通过观察一组随机变量的模型进行检验的科学假说.一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出 ...
方差分析可汗学院统计学笔记
总均值,也即几组数据的总均值,等于各组数据均值的均值. 数据的总波动可由组内波动+组间波动来描述所有数据的离差平方和=组内的离差平方和+组间离差平方和假设组数为m,组内数据有n个,上面的自由度分别 ...
可汗学院统计学（12到34集)
学习之前,需强调:概率是已知模型和参数,推数据:而统计是已知数据,推模型和参数. 第十二集:样本与总体首先,为何需要样本呢?因为人类并不能总是获取总体数据,例如:人类的身高数据,全世界每秒都有人出生 ...
组队学习可汗学院统计学1
12: 总体均值与样本均值,总体值不好得 13:计算了一个均值和方差 14:样本方差用S^2 表示,按照和计算总体方差一样的计算方法由于均值可能(?)与正常有偏移,使得方差的计算变小. 总体方差的无 ...
可汗学院统计学 task 3
假设检验假设检验(Hypothesis Testing):依据一定的假设条件由样本推断总体的一种方法. 基本思想是小概率反证法思想. 小概率思想是指小概率事件(P<0.01或P<0.05 ...

可汗学院统计学17-24课笔记