文章目录

可汗学院统计学
- 集中趋势
- - 均值
  - 众数
  - 中位数
  - 随机变量
  - 期望
- P24 二项分布的期望值
- - 二项分布
- P25 P26 泊松过程
- P27 大数定律
- P28 29 正态分布
- - 标准z分数
  - 正态分布
- P35 36 37 38 中心极限定理
- - 中心极限定理
  - 偏度
  - 峰度
  - 样本均值的抽样分布的方差与原来的分布的方差关系
- P42 伯努利分布
- P44
- P45 46
- P47 48 49 假设检验
- P50 第一型错误
- P51 52
- P53
- P54 随机变量的和与差
- P55-P61
- P62-P66
- P68 线性回归的决定系数
- P71 协方差
- P72 卡方分布
- P73-74 卡方分布的假设检验例题
- P75-77
- P78 相关性和因果性
- P79 演绎推理和归纳推理
- P80-85 演绎推理和归纳推理的例题

可汗学院统计学

https://www.bilibili.com/video/BV1i4411e7sT?p=24&spm_id_from=pageDriver

集中趋势

描述一组数据在哪个区间出现更多

均值

一般指算数平均数

众数

出现最多的数，可以有多个

中位数

排序后位于中间或中间两个数的算数平均数的数

随机变量

更像是把随机过程映射成具体的数值的函数。例如
X={1for明天下雨0for明天不下雨X=\left\{ \begin{array}{rcl} 1&\mathrm{for}&明天下雨\\ 0&\mathrm{for}&明天不下雨\\ \end{array} \right. X={10forfor明天下雨明天不下雨

期望

用于描述总体数量无穷时的均值。例如随机变量可以做无数次试验，有无数次取值，因此用有限样本去估计总体的均值，本质和均值是一样的。

P24 二项分布的期望值

二项分布

每次试验相互独立互不干扰

XXX遵从二项分布，取111的概率为ppp，取000的概率为1−p1-p1−p。做nnn次试验，XXX的期望是E(X)=npE(X)=npE(X)=np
P(X=k)=Cnkpk(1−p)n−kE(X)=∑k=0nk∗P(X=k)=∑k=1nkn!k!(n−k)!pk(1−p)n−k=np∑k=1n(n−1)!(k−1)!(n−k)!pk−1(1−p)n−k令a=k−1,b=n−1=np∑a=0bb!a!(b−a)!pa(1−p)b−a=np(p+1−p)b=np\begin{aligned} P(X=k)&=C_{n}^{k}p^k(1-p)^{n-k}\\ E(X)&=\sum_{k=0}^{n}k*P(X=k)\\ &=\sum_{k=1}^{n}k\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}\\ &=np\sum_{k=1}^{n}\frac{(n-1)!}{(k-1)!(n-k)!}p^{k-1}(1-p)^{n-k}\\ 令a=k-1,b=n-1\\ &=np\sum_{a=0}^{b}\frac{b!}{a!(b-a)!}p^a(1-p)^{b-a}\\ &=np(p+1-p)^b\\ &=np\\ \end{aligned} P(X=k)E(X)令a=k−1,b=n−1=Cnkpk(1−p)n−k=k=0∑nk∗P(X=k)=k=1∑nkk!(n−k)!n!pk(1−p)n−k=npk=1∑n(k−1)!(n−k)!(n−1)!pk−1(1−p)n−k=npa=0∑ba!(b−a)!b!pa(1−p)b−a=np(p+1−p)b=np
实际上用a,ba,ba,b代换后求和各项也是二项分布取做bbb次试验取各个值的概率，概率和自然为111。

P25 P26 泊松过程

令n=axlim⁡n→∞(1+an)n=lim⁡x→∞(1+1x)xa=(lim⁡x→∞(1+1x)x)a=ea\begin{aligned} 令n=ax\\ \lim_{n\rightarrow\infin}{(1+\frac{a}{n})^n} &=\lim_{x\rightarrow\infin}{(1+\frac{1}{x})^{xa}}\\ &=(\lim_{x\rightarrow\infin}{(1+\frac{1}{x})^{x}})^a\\ &=e^a\\ \end{aligned} 令n=axn→∞lim(1+na)n=x→∞lim(1+x1)xa=(x→∞lim(1+x1)x)a=ea

随机变量XXX表示一小时内经过的车辆次数，此处假设每个时刻的车流量互不影响相互独立。

用二项分布建模，假设数学期望E(X)=λ=npE(X)=\lambda=npE(X)=λ=np，即每小时有λ\lambdaλ辆车经过，则每分钟有一辆车经过的概率为λ60\frac{\lambda}{60}60λ，相当于每一分钟做一次试验（有车经过为成功否则失败），每小时做60次试验。由此推得每小时有kkk辆车经过的概率为
P(X=k)=C60k(λ60)k(1−λ60)60−kP(X=k)=C_{60}^k(\frac{\lambda}{60})^k(1-\frac{\lambda}{60})^{60-k}\\ P(X=k)=C60k(60λ)k(1−60λ)60−k
即60分钟内有k分钟有车经过。

这样并没有解决每分钟有多辆车经过的问题，解决方法是把分钟细化成秒、时刻。

把分钟细分为无限多时刻，二项分布就变成泊松分布。
P(X=k)=lim⁡n→∞Cnk(λn)k(1−λn)n−k=lim⁡n→∞n(n−1)⋯(n−k+1)nkλkk!(1−λn)n(1−λn)−k=λkk!lim⁡n→∞n(n−1)⋯(n−k+1)nklim⁡n→∞(1+−λn)nlim⁡n→∞(1−λn)−k=λkk!e−λ\begin{aligned} P(X=k)&=\lim_{n\rightarrow\infin}{C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}}\\ &=\lim_{n\rightarrow\infin}{\frac{n(n-1)\cdots(n-k+1)}{n^k}\frac{\lambda^k}{k!}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k}}\\ &=\frac{\lambda^k}{k!}\lim_{n\rightarrow\infin}{\frac{n(n-1)\cdots(n-k+1)}{n^k}}\lim_{n\rightarrow\infin}{(1+\frac{-\lambda}{n})^n}\lim_{n\rightarrow\infin}{(1-\frac{\lambda}{n})^{-k}}\\ &=\frac{\lambda^k}{k!}\mathrm{e}^{-\lambda}\\ \end{aligned} P(X=k)=n→∞limCnk(nλ)k(1−nλ)n−k=n→∞limnkn(n−1)⋯(n−k+1)k!λk(1−nλ)n(1−nλ)−k=k!λkn→∞limnkn(n−1)⋯(n−k+1)n→∞lim(1+n−λ)nn→∞lim(1−nλ)−k=k!λke−λ
实际应用如，测得每小时有9辆车经过，则期望为9，倒推有k辆车经过的概率。

P27 大数定律

随机变量XXX的期望，即总体的均值为E(X)=μE(X)=\muE(X)=μ。做n次观测，得到n次观测的均值Xnˉ\bar{X_n}Xnˉ，随着n→∞,Xnˉ→μn\rightarrow\infin,\bar{X_n}\rightarrow\mun→∞,Xnˉ→μ。

在有限次观测中，前面的均值高于期望，不代表后面的均值就会低于期望。每一次的观测，概率都是独立的。大数定律的重点在于无限次观测，因此前面有限次的观测可以忽略不计，有限次高于期望的观测值和无限次趋近于期望值的观测值取平均，最后均值一定会趋近于期望值。

P28 29 正态分布

标准z分数

x−μσ\frac{x-\mu}{\sigma}σx−μ，表示离均值相差几个标准差

正态分布

二项分布是正态分布的一个很好的近似，试验次数越多越接近。

p(x)=1σ2πe−12(x−μσ)2p(x)=\frac{1}{\sigma\sqrt{2\pi}}\mathrm{e}^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}p(x)=σ2π1e−21(σx−μ)2

概率是曲线下方的面积，通过定积分求。一般不容易求解析解，用数值解近似。

实际中常用累积分布函数（CDF）计算，CDF(x)=∫−∞xp(t)dtCDF(x)=\int_{-\infin}^{x}{p(t)\mathrm{d}{t}}CDF(x)=∫−∞xp(t)dt

P35 36 37 38 中心极限定理

中心极限定理

任何具有良好定义的均值和标准差的分布，样本均值的抽样分布，在抽样次数足够多后，都会近似于正态分布。

例如概率分布不均匀的骰子，一次取样得到一个样本，一个样本有n=4个样本值，每个样本值为投掷骰子的点数。计算每个样本的均值（这里也可以是其他统计量），当取样次数足够多后，均值出现的频率分布近似于正态分布。n越大，近似越快，近似的分布标准差越小（中间更尖，向中间靠拢）。n趋近于无穷时，得到真正的正态分布。反过来，n=1或2显然是不行的。现实中n=10或15就可以很好近似，收敛很快。n趋近无穷且取样次数趋近无穷时，近似分布的均值与原来的概率分布均值一样。

偏度

完美正态分布（偏度=0，峰度=0）的图形关于均值对称，如果不对称，右边尾部较长，称为正偏态（右偏态）分布，偏度为正；反之称为负偏态（左偏态）分布，偏度为负。

峰度

相对于完美正态分布的图形，峰度为正，峰度越高，峰顶更尖，两侧更厚，称为正峰态分布；峰度为负，峰度越小，峰顶更平，两侧更扁，称为负峰态分布。

样本均值的抽样分布的方差与原来的分布的方差关系

样本均值的抽样分布的标准差=均值分布标准差=均值标准误差
σxˉ2=σ2n\sigma_{\bar{x}}^2=\frac{\sigma^2}{n}\\ σxˉ2=nσ2
n是样本容量

抽样的均值用Xˉ\bar{X}Xˉ表示，方差用S2S^2S2表示（分母n−1n-1n−1），是对总体统计量的最好估计。

总体均值μ\muμ，方差σ2\sigma^2σ2。

注意样本均值的抽样分布和单次对总体抽样是不同的。

P42 伯努利分布

进行一次试验,成功概率为ppp,失败概率为1−p1-p1−p，称为伯努利试验。

伯努利试验的结果的分布，称为伯努利分布，也是二项分布在n=1n=1n=1的特例。设试验成功记作111，失败记作000，XXX表示试验结果
μ=E(X)=p∗1+(1−p)∗0=pσ2=D(X)=p(1−p)2+(1−p)(0−p)2=p(1−p)\mu=E(X)=p*1+(1-p)*0=p\\ \sigma^2=D(X)=p(1-p)^2+(1-p)(0-p)^2=p(1-p)\\ μ=E(X)=p∗1+(1−p)∗0=pσ2=D(X)=p(1−p)2+(1−p)(0−p)2=p(1−p)
二项分布是进行nnn次相互独立的伯努利试验的结果的分布。

P44

用数字说明了为什么样本容量越大，估计出来的误差越小。

P45 46

通常在样本容量大于30的时候可以假设样本均值抽样分布是正态分布，否则假设为ttt分布。ttt分布两侧尾部更肥，防止样本容量过小低估了标准差。（即假设：抽样分布的值更分散）

t分布的自由度为n−1n-1n−1，nnn是样本容量

P47 48 49 假设检验

药物试验，药物无效做零假设，有效做备择假设。零假设成立的情况下，得到当前结果的概率称为p值。

零假设通常记作H0H_0H0，备择假设记作H1H_1H1或HaH_aHa

例如用药前反应时间均值为1.2秒，零假设是用药后反应时间均值仍为1.2秒，备择假设是用药后反应时间均值小于或大于1.2秒。这称为双侧检验。备择假设为反应时间均值小于1.2秒，称为单侧检验。

样本容量大于等于30时，统计量一般服从正态分布，用z分数计算概率。小于30尤其是小于30很多时，服从t分布，使用t分数。

P50 第一型错误

Type I Error，即拒绝了正确的零假设。

通常假设检验从假设零假设成立出发，零假设成立，通常均值等于某个值，有另外一个统计量来检验零假设，计算另一个统计量如此极端或者更加极端的概率，如果概率低于某个阈值则拒绝零假设。

也就是说，上述概率不为0，假设为0.5%，则有0.5%的概率，正确的统计量确实处于极端区间，即小概率事件真的发生，即有0.5%的概率零假设正确，拒绝了零假设即为有0.5%的概率犯第一型错误。

P51 52

常用的求总体均值落在某个区间内，使得总体均值的置信度有95%，思路有

抽样分布的样本均值=总体均值，它是总体均值的最好估计

抽样的结果可以视为在样本容量nnn下进行的随机抽样

随机抽样的样本均值落在抽样分布的样本均值左右某个区间内（计算z分数或者t分数）的概率有95%=随机抽样样本均值落在总体均值左右某个区间内的概率有95%=总体均值落在随机抽样样本均值左右某个区间内的概率有95%=总体均值落在本次抽样的样本均值左右某个区间内的概率有95%（本次抽样是样本容量nnn下进行的随机抽样）

P53

美国家庭接入网络占比的例题

nnn为样本容量，ppp为样本值取1的概率或者占比，当np>5np>5np>5且n(1−p)>5n(1-p)>5n(1−p)>5时可以假定样本占比的分布为正态分布。

P54 随机变量的和与差

X和Y是相互独立的随机变量
E(X)=μXVar(X)=E((X−μX)2)=σX2E(Y)=μYVar(Y)=E((Y−μY)2)=σY2E(X+Y)=E(X)+E(Y)Var(X+Y)=σX+Y2=σX2+σY2E(X−Y)=E(X+(−Y))=E(X)+E(−Y)=E(X)−E(Y)σX−Y2=σX+(−Y)2=σX2+σ−Y2=σX2+σY2E(X)=\mu_X\\ Var(X)=E((X-\mu_X)^2)=\sigma_X^2\\ E(Y)=\mu_Y\\ Var(Y)=E((Y-\mu_Y)^2)=\sigma_Y^2\\ E(X+Y)=E(X)+E(Y)\\ Var(X+Y)=\sigma_{X+Y}^2=\sigma_X^2+\sigma_Y^2\\ E(X-Y)=E(X+(-Y))=E(X)+E(-Y)=E(X)-E(Y)\\ \sigma_{X-Y}^2=\sigma_{X+(-Y)}^2=\sigma_X^2+\sigma_{-Y}^2=\sigma_X^2+\sigma_Y^2\\ E(X)=μXVar(X)=E((X−μX)2)=σX2E(Y)=μYVar(Y)=E((Y−μY)2)=σY2E(X+Y)=E(X)+E(Y)Var(X+Y)=σX+Y2=σX2+σY2E(X−Y)=E(X+(−Y))=E(X)+E(−Y)=E(X)−E(Y)σX−Y2=σX+(−Y)2=σX2+σ−Y2=σX2+σY2

P55-P61

涉及随机变量和与差的假设检验例题

P62-P66

二维空间nnn个点线性回归直线表达式的推导
y=mx+bm=x‾y‾−xy‾(x‾)2−x2‾b=y‾−mx‾y=mx+b\\ m=\frac{\overline{x}\ \overline{y}-\overline{xy}}{(\overline{x})^2-\overline{x^2}}\\ b=\overline{y}-m\overline{x}\\ y=mx+bm=(x)2−x2x y−xyb=y−mx

P68 线性回归的决定系数

SE(squared error)平方误差

SELINESE_{LINE}SELINE表示拟合的直线上的点与原来的点的竖直距离的和，即
SELINE=∑i=1n(yi−(mxi+b))2SE_{LINE}=\sum_{i=1}^{n}{(y_i-(mx_i+b))^2}\\ SELINE=i=1∑n(yi−(mxi+b))2
SEy‾SE_{\overline{y}}SEy表示原来的点到代表yyy均值的直线的竖直距离的和，即
SEy‾=∑i=1n(yi−y‾)2SE_{\overline{y}}=\sum_{i=1}^{n}{(y_i-\overline{y})^2}\\ SEy=i=1∑n(yi−y)2
决定系数（判定系数）r2=1−SELINESEy‾r^2=1-\frac{SE_{LINE}}{SE_{\overline{y}}}r2=1−SEySELINE，表示yyy的总波动有多少被xxx的波动（或者说拟合的直线）所描述，右边的分式表示yyy的总波动有多少没有被xxx的波动（或者说拟合的直线）所描述。

如果拟合得非常好，则SELINESE_{LINE}SELINE非常小，r2r^2r2接近1，反之接近0。

P71 协方差

两个随机变量的协方差
COV(X,Y)=E[(X−E[X])(Y−E[Y])]COV(X,Y)=E[(X-E[X])(Y-E[Y])]\\ COV(X,Y)=E[(X−E[X])(Y−E[Y])]
协方差表示两个变量多大程度上一同变化

将括号内展开
COV(X,Y)=E[XY]−E[X]E[Y]COV(X,Y)=E[XY]-E[X]E[Y]\\ COV(X,Y)=E[XY]−E[X]E[Y]
用样本值对总体做估计，得到
COV(X,Y)=XY‾−X‾Y‾COV(X,Y)=\overline{XY}-\overline{X}\ \overline{Y}\\ COV(X,Y)=XY−X Y
上式就是线性回归斜率的分子

如果在总体中取一部分样本，做线性回归，得到的是总体的近似回归线，斜率是对总体回归线斜率的估计
m^=XY‾−X‾Y‾X2‾−(X‾)2=COV(X,Y)COV(X,X)=COV(X,Y)VAR(X)\hat{m}=\frac{\overline{XY}-\overline{X}\ \overline{Y}}{\overline{X^2}-(\overline{X})^2}=\frac{COV(X,Y)}{COV(X,X)}=\frac{COV(X,Y)}{VAR(X)}\\ m^=X2−(X)2XY−X Y=COV(X,X)COV(X,Y)=VAR(X)COV(X,Y)
由定义可以知道一个变量和它自身的协方差就是它自身的方差。

P72 卡方分布

χ2\chi^2χ2分布，它的随机变量由nnn个相互独立的服从标准正态分布的变量的平方和构成，其分布规律称为χ2\chi^2χ2分布

χn2\chi_n^2χn2表示由nnn个变量的平方和构成，自由度为nnn

用于衡量理想分布和实际取值的误差

如果有kkk个限制条件，则自由度为n−kn-kn−k

P73-74 卡方分布的假设检验例题

经验法则，列联表的自由度是(行数-1)*(列数-1)

P75-77

总波动=组内波动+组间波动

自由度同理

涉及到F分布的例题

P78 相关性和因果性

因果性是A导致B

相关性是观测到A和B同时发生，发生A则很有可能同时发生B，或发生B很有可能同时发生A

区别两者很重要，由相关性可能可以得出完全相反的因果性结论，研究中要注意到潜在的原因

P79 演绎推理和归纳推理

归纳推理是找出规律或者趋势然后外推，并不一定外推之后规律还是对的，只是假设它正确

演绎推理是从一个事实开始演绎（逻辑运算、计算等）得到其他事实，一定是正确的。没有估计，没有推广，没有假设未来的趋势。

估计人口数，是估计未来的事情，不能得到一个真实准确的值，需要找出规律外推，是归纳推理

P80-85 演绎推理和归纳推理的例题

完结撒花。