文章目录

  • 可汗学院 统计学
    • 集中趋势
      • 均值
      • 众数
      • 中位数
      • 随机变量
      • 期望
    • P24 二项分布的期望值
      • 二项分布
    • P25 P26 泊松过程
    • P27 大数定律
    • P28 29 正态分布
      • 标准z分数
      • 正态分布
    • P35 36 37 38 中心极限定理
      • 中心极限定理
      • 偏度
      • 峰度
      • 样本均值的抽样分布的方差与原来的分布的方差关系
    • P42 伯努利分布
    • P44
    • P45 46
    • P47 48 49 假设检验
    • P50 第一型错误
    • P51 52
    • P53
    • P54 随机变量的和与差
    • P55-P61
    • P62-P66
    • P68 线性回归的决定系数
    • P71 协方差
    • P72 卡方分布
    • P73-74 卡方分布的假设检验例题
    • P75-77
    • P78 相关性和因果性
    • P79 演绎推理和归纳推理
    • P80-85 演绎推理和归纳推理的例题

可汗学院 统计学

https://www.bilibili.com/video/BV1i4411e7sT?p=24&spm_id_from=pageDriver

集中趋势

描述一组数据在哪个区间出现更多

均值

一般指算数平均数

众数

出现最多的数,可以有多个

中位数

排序后位于中间或中间两个数的算数平均数的数

随机变量

更像是把随机过程映射成具体的数值的函数。例如
X={1for明天下雨0for明天不下雨X=\left\{ \begin{array}{rcl} 1&\mathrm{for}&明天下雨\\ 0&\mathrm{for}&明天不下雨\\ \end{array} \right. X={10​forfor​明天下雨明天不下雨​

期望

用于描述总体数量无穷时的均值。例如随机变量可以做无数次试验,有无数次取值,因此用有限样本去估计总体的均值,本质和均值是一样的。

P24 二项分布的期望值

二项分布

每次试验相互独立互不干扰

XXX遵从二项分布,取111的概率为ppp,取000的概率为1−p1-p1−p。做nnn次试验,XXX的期望是E(X)=npE(X)=npE(X)=np
P(X=k)=Cnkpk(1−p)n−kE(X)=∑k=0nk∗P(X=k)=∑k=1nkn!k!(n−k)!pk(1−p)n−k=np∑k=1n(n−1)!(k−1)!(n−k)!pk−1(1−p)n−k令a=k−1,b=n−1=np∑a=0bb!a!(b−a)!pa(1−p)b−a=np(p+1−p)b=np\begin{aligned} P(X=k)&=C_{n}^{k}p^k(1-p)^{n-k}\\ E(X)&=\sum_{k=0}^{n}k*P(X=k)\\ &=\sum_{k=1}^{n}k\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}\\ &=np\sum_{k=1}^{n}\frac{(n-1)!}{(k-1)!(n-k)!}p^{k-1}(1-p)^{n-k}\\ 令a=k-1,b=n-1\\ &=np\sum_{a=0}^{b}\frac{b!}{a!(b-a)!}p^a(1-p)^{b-a}\\ &=np(p+1-p)^b\\ &=np\\ \end{aligned} P(X=k)E(X)令a=k−1,b=n−1​=Cnk​pk(1−p)n−k=k=0∑n​k∗P(X=k)=k=1∑n​kk!(n−k)!n!​pk(1−p)n−k=npk=1∑n​(k−1)!(n−k)!(n−1)!​pk−1(1−p)n−k=npa=0∑b​a!(b−a)!b!​pa(1−p)b−a=np(p+1−p)b=np​
实际上用a,ba,ba,b代换后求和各项也是二项分布取做bbb次试验取各个值的概率,概率和自然为111。

P25 P26 泊松过程

令n=axlim⁡n→∞(1+an)n=lim⁡x→∞(1+1x)xa=(lim⁡x→∞(1+1x)x)a=ea\begin{aligned} 令n=ax\\ \lim_{n\rightarrow\infin}{(1+\frac{a}{n})^n} &=\lim_{x\rightarrow\infin}{(1+\frac{1}{x})^{xa}}\\ &=(\lim_{x\rightarrow\infin}{(1+\frac{1}{x})^{x}})^a\\ &=e^a\\ \end{aligned} 令n=axn→∞lim​(1+na​)n​=x→∞lim​(1+x1​)xa=(x→∞lim​(1+x1​)x)a=ea​

随机变量XXX表示一小时内经过的车辆次数,此处假设每个时刻的车流量互不影响相互独立。

用二项分布建模,假设数学期望E(X)=λ=npE(X)=\lambda=npE(X)=λ=np,即每小时有λ\lambdaλ辆车经过,则每分钟有一辆车经过的概率为λ60\frac{\lambda}{60}60λ​,相当于每一分钟做一次试验(有车经过为成功否则失败),每小时做60次试验。由此推得每小时有kkk辆车经过的概率为
P(X=k)=C60k(λ60)k(1−λ60)60−kP(X=k)=C_{60}^k(\frac{\lambda}{60})^k(1-\frac{\lambda}{60})^{60-k}\\ P(X=k)=C60k​(60λ​)k(1−60λ​)60−k
即60分钟内有k分钟有车经过。

这样并没有解决每分钟有多辆车经过的问题,解决方法是把分钟细化成秒、时刻。

把分钟细分为无限多时刻,二项分布就变成泊松分布。
P(X=k)=lim⁡n→∞Cnk(λn)k(1−λn)n−k=lim⁡n→∞n(n−1)⋯(n−k+1)nkλkk!(1−λn)n(1−λn)−k=λkk!lim⁡n→∞n(n−1)⋯(n−k+1)nklim⁡n→∞(1+−λn)nlim⁡n→∞(1−λn)−k=λkk!e−λ\begin{aligned} P(X=k)&=\lim_{n\rightarrow\infin}{C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}}\\ &=\lim_{n\rightarrow\infin}{\frac{n(n-1)\cdots(n-k+1)}{n^k}\frac{\lambda^k}{k!}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k}}\\ &=\frac{\lambda^k}{k!}\lim_{n\rightarrow\infin}{\frac{n(n-1)\cdots(n-k+1)}{n^k}}\lim_{n\rightarrow\infin}{(1+\frac{-\lambda}{n})^n}\lim_{n\rightarrow\infin}{(1-\frac{\lambda}{n})^{-k}}\\ &=\frac{\lambda^k}{k!}\mathrm{e}^{-\lambda}\\ \end{aligned} P(X=k)​=n→∞lim​Cnk​(nλ​)k(1−nλ​)n−k=n→∞lim​nkn(n−1)⋯(n−k+1)​k!λk​(1−nλ​)n(1−nλ​)−k=k!λk​n→∞lim​nkn(n−1)⋯(n−k+1)​n→∞lim​(1+n−λ​)nn→∞lim​(1−nλ​)−k=k!λk​e−λ​
实际应用如,测得每小时有9辆车经过,则期望为9,倒推有k辆车经过的概率。

P27 大数定律

随机变量XXX的期望,即总体的均值为E(X)=μE(X)=\muE(X)=μ。做n次观测,得到n次观测的均值Xnˉ\bar{X_n}Xn​ˉ​,随着n→∞,Xnˉ→μn\rightarrow\infin,\bar{X_n}\rightarrow\mun→∞,Xn​ˉ​→μ。

在有限次观测中,前面的均值高于期望,不代表后面的均值就会低于期望。每一次的观测,概率都是独立的。大数定律的重点在于无限次观测,因此前面有限次的观测可以忽略不计,有限次高于期望的观测值和无限次趋近于期望值的观测值取平均,最后均值一定会趋近于期望值。

P28 29 正态分布

标准z分数

x−μσ\frac{x-\mu}{\sigma}σx−μ​,表示离均值相差几个标准差

正态分布

二项分布是正态分布的一个很好的近似,试验次数越多越接近。

p(x)=1σ2πe−12(x−μσ)2p(x)=\frac{1}{\sigma\sqrt{2\pi}}\mathrm{e}^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}p(x)=σ2π​1​e−21​(σx−μ​)2

概率是曲线下方的面积,通过定积分求。一般不容易求解析解,用数值解近似。

实际中常用累积分布函数(CDF)计算,CDF(x)=∫−∞xp(t)dtCDF(x)=\int_{-\infin}^{x}{p(t)\mathrm{d}{t}}CDF(x)=∫−∞x​p(t)dt

P35 36 37 38 中心极限定理

中心极限定理

任何具有良好定义的均值和标准差的分布,样本均值的抽样分布,在抽样次数足够多后,都会近似于正态分布。

例如概率分布不均匀的骰子,一次取样得到一个样本,一个样本有n=4个样本值,每个样本值为投掷骰子的点数。计算每个样本的均值(这里也可以是其他统计量),当取样次数足够多后,均值出现的频率分布近似于正态分布。n越大,近似越快,近似的分布标准差越小(中间更尖,向中间靠拢)。n趋近于无穷时,得到真正的正态分布。反过来,n=1或2显然是不行的。现实中n=10或15就可以很好近似,收敛很快。n趋近无穷且取样次数趋近无穷时,近似分布的均值与原来的概率分布均值一样。

偏度

完美正态分布(偏度=0,峰度=0)的图形关于均值对称,如果不对称,右边尾部较长,称为正偏态(右偏态)分布,偏度为正;反之称为负偏态(左偏态)分布,偏度为负。

峰度

相对于完美正态分布的图形,峰度为正,峰度越高,峰顶更尖,两侧更厚,称为正峰态分布;峰度为负,峰度越小,峰顶更平,两侧更扁,称为负峰态分布。

样本均值的抽样分布的方差与原来的分布的方差关系

样本均值的抽样分布的标准差=均值分布标准差=均值标准误差
σxˉ2=σ2n\sigma_{\bar{x}}^2=\frac{\sigma^2}{n}\\ σxˉ2​=nσ2​
n是样本容量

抽样的均值用Xˉ\bar{X}Xˉ表示,方差用S2S^2S2表示(分母n−1n-1n−1),是对总体统计量的最好估计。

总体均值μ\muμ,方差σ2\sigma^2σ2。

注意样本均值的抽样分布和单次对总体抽样是不同的。

P42 伯努利分布

进行一次试验,成功概率为ppp,失败概率为1−p1-p1−p,称为伯努利试验。

伯努利试验的结果的分布,称为伯努利分布,也是二项分布在n=1n=1n=1的特例。设试验成功记作111,失败记作000,XXX表示试验结果
μ=E(X)=p∗1+(1−p)∗0=pσ2=D(X)=p(1−p)2+(1−p)(0−p)2=p(1−p)\mu=E(X)=p*1+(1-p)*0=p\\ \sigma^2=D(X)=p(1-p)^2+(1-p)(0-p)^2=p(1-p)\\ μ=E(X)=p∗1+(1−p)∗0=pσ2=D(X)=p(1−p)2+(1−p)(0−p)2=p(1−p)
二项分布是进行nnn次相互独立的伯努利试验的结果的分布。

P44

用数字说明了为什么样本容量越大,估计出来的误差越小。

P45 46

通常在样本容量大于30的时候可以假设样本均值抽样分布是正态分布,否则假设为ttt分布。ttt分布两侧尾部更肥,防止样本容量过小低估了标准差。(即假设:抽样分布的值更分散)

t分布的自由度为n−1n-1n−1,nnn是样本容量

P47 48 49 假设检验

药物试验,药物无效做零假设,有效做备择假设。零假设成立的情况下,得到当前结果的概率称为p值。

零假设通常记作H0H_0H0​,备择假设记作H1H_1H1​或HaH_aHa​

例如用药前反应时间均值为1.2秒,零假设是用药后反应时间均值仍为1.2秒,备择假设是用药后反应时间均值小于或大于1.2秒。这称为双侧检验。备择假设为反应时间均值小于1.2秒,称为单侧检验。

样本容量大于等于30时,统计量一般服从正态分布,用z分数计算概率。小于30尤其是小于30很多时,服从t分布,使用t分数。

P50 第一型错误

Type I Error,即拒绝了正确的零假设。

通常假设检验从假设零假设成立出发,零假设成立,通常均值等于某个值,有另外一个统计量来检验零假设,计算另一个统计量如此极端或者更加极端的概率,如果概率低于某个阈值则拒绝零假设。

也就是说,上述概率不为0,假设为0.5%,则有0.5%的概率,正确的统计量确实处于极端区间,即小概率事件真的发生,即有0.5%的概率零假设正确,拒绝了零假设即为有0.5%的概率犯第一型错误。

P51 52

常用的求总体均值落在某个区间内,使得总体均值的置信度有95%,思路有

抽样分布的样本均值=总体均值,它是总体均值的最好估计

抽样的结果可以视为在样本容量nnn下进行的随机抽样

随机抽样的样本均值落在抽样分布的样本均值左右某个区间内(计算z分数或者t分数)的概率有95%=随机抽样样本均值落在总体均值左右某个区间内的概率有95%=总体均值落在随机抽样样本均值左右某个区间内的概率有95%=总体均值落在本次抽样的样本均值左右某个区间内的概率有95%(本次抽样是样本容量nnn下进行的随机抽样)

P53

美国家庭接入网络占比的例题

nnn为样本容量,ppp为样本值取1的概率或者占比,当np>5np>5np>5且n(1−p)>5n(1-p)>5n(1−p)>5时可以假定样本占比的分布为正态分布。

P54 随机变量的和与差

X和Y是相互独立的随机变量
E(X)=μXVar(X)=E((X−μX)2)=σX2E(Y)=μYVar(Y)=E((Y−μY)2)=σY2E(X+Y)=E(X)+E(Y)Var(X+Y)=σX+Y2=σX2+σY2E(X−Y)=E(X+(−Y))=E(X)+E(−Y)=E(X)−E(Y)σX−Y2=σX+(−Y)2=σX2+σ−Y2=σX2+σY2E(X)=\mu_X\\ Var(X)=E((X-\mu_X)^2)=\sigma_X^2\\ E(Y)=\mu_Y\\ Var(Y)=E((Y-\mu_Y)^2)=\sigma_Y^2\\ E(X+Y)=E(X)+E(Y)\\ Var(X+Y)=\sigma_{X+Y}^2=\sigma_X^2+\sigma_Y^2\\ E(X-Y)=E(X+(-Y))=E(X)+E(-Y)=E(X)-E(Y)\\ \sigma_{X-Y}^2=\sigma_{X+(-Y)}^2=\sigma_X^2+\sigma_{-Y}^2=\sigma_X^2+\sigma_Y^2\\ E(X)=μX​Var(X)=E((X−μX​)2)=σX2​E(Y)=μY​Var(Y)=E((Y−μY​)2)=σY2​E(X+Y)=E(X)+E(Y)Var(X+Y)=σX+Y2​=σX2​+σY2​E(X−Y)=E(X+(−Y))=E(X)+E(−Y)=E(X)−E(Y)σX−Y2​=σX+(−Y)2​=σX2​+σ−Y2​=σX2​+σY2​

P55-P61

涉及随机变量和与差的假设检验例题

P62-P66

二维空间nnn个点线性回归直线表达式的推导
y=mx+bm=x‾y‾−xy‾(x‾)2−x2‾b=y‾−mx‾y=mx+b\\ m=\frac{\overline{x}\ \overline{y}-\overline{xy}}{(\overline{x})^2-\overline{x^2}}\\ b=\overline{y}-m\overline{x}\\ y=mx+bm=(x)2−x2x y​−xy​​b=y​−mx

P68 线性回归的决定系数

SE(squared error)平方误差

SELINESE_{LINE}SELINE​表示拟合的直线上的点与原来的点的竖直距离的和,即
SELINE=∑i=1n(yi−(mxi+b))2SE_{LINE}=\sum_{i=1}^{n}{(y_i-(mx_i+b))^2}\\ SELINE​=i=1∑n​(yi​−(mxi​+b))2
SEy‾SE_{\overline{y}}SEy​​表示原来的点到代表yyy均值的直线的竖直距离的和,即
SEy‾=∑i=1n(yi−y‾)2SE_{\overline{y}}=\sum_{i=1}^{n}{(y_i-\overline{y})^2}\\ SEy​​=i=1∑n​(yi​−y​)2
决定系数(判定系数)r2=1−SELINESEy‾r^2=1-\frac{SE_{LINE}}{SE_{\overline{y}}}r2=1−SEy​​SELINE​​,表示yyy的总波动有多少被xxx的波动(或者说拟合的直线)所描述,右边的分式表示yyy的总波动有多少没有被xxx的波动(或者说拟合的直线)所描述。

如果拟合得非常好,则SELINESE_{LINE}SELINE​非常小,r2r^2r2接近1,反之接近0。

P71 协方差

两个随机变量的协方差
COV(X,Y)=E[(X−E[X])(Y−E[Y])]COV(X,Y)=E[(X-E[X])(Y-E[Y])]\\ COV(X,Y)=E[(X−E[X])(Y−E[Y])]
协方差表示两个变量多大程度上一同变化

将括号内展开
COV(X,Y)=E[XY]−E[X]E[Y]COV(X,Y)=E[XY]-E[X]E[Y]\\ COV(X,Y)=E[XY]−E[X]E[Y]
用样本值对总体做估计,得到
COV(X,Y)=XY‾−X‾Y‾COV(X,Y)=\overline{XY}-\overline{X}\ \overline{Y}\\ COV(X,Y)=XY−X Y
上式就是线性回归斜率的分子

如果在总体中取一部分样本,做线性回归,得到的是总体的近似回归线,斜率是对总体回归线斜率的估计
m^=XY‾−X‾Y‾X2‾−(X‾)2=COV(X,Y)COV(X,X)=COV(X,Y)VAR(X)\hat{m}=\frac{\overline{XY}-\overline{X}\ \overline{Y}}{\overline{X^2}-(\overline{X})^2}=\frac{COV(X,Y)}{COV(X,X)}=\frac{COV(X,Y)}{VAR(X)}\\ m^=X2−(X)2XY−X Y​=COV(X,X)COV(X,Y)​=VAR(X)COV(X,Y)​
由定义可以知道一个变量和它自身的协方差就是它自身的方差。

P72 卡方分布

χ2\chi^2χ2分布,它的随机变量由nnn个相互独立的服从标准正态分布的变量的平方和构成,其分布规律称为χ2\chi^2χ2分布

χn2\chi_n^2χn2​表示由nnn个变量的平方和构成,自由度为nnn

用于衡量理想分布和实际取值的误差

如果有kkk个限制条件,则自由度为n−kn-kn−k

P73-74 卡方分布的假设检验例题

经验法则,列联表的自由度是(行数-1)*(列数-1)

P75-77

总波动=组内波动+组间波动

自由度同理

涉及到F分布的例题

P78 相关性和因果性

因果性是A导致B

相关性是观测到A和B同时发生,发生A则很有可能同时发生B,或发生B很有可能同时发生A

区别两者很重要,由相关性可能可以得出完全相反的因果性结论,研究中要注意到潜在的原因

P79 演绎推理和归纳推理

归纳推理是找出规律或者趋势然后外推,并不一定外推之后规律还是对的,只是假设它正确

演绎推理是从一个事实开始演绎(逻辑运算、计算等)得到其他事实,一定是正确的。没有估计,没有推广,没有假设未来的趋势。

估计人口数,是估计未来的事情,不能得到一个真实准确的值,需要找出规律外推,是归纳推理

P80-85 演绎推理和归纳推理的例题

完结撒花。

可汗学院-统计学-学习笔记相关推荐

  1. 可汗学院统计学1-16课笔记

    [第1课] 均值 中位数 众数 均值(平均值) = 数据之和 / 数据个数 中位数 = 数据排序后,处在中间的数(如果两位数取平均值) 众数 = 出现次数最多的数,一组数据可以有多个众数 import ...

  2. 可汗学院统计学17-24课笔记

    [转载请注明出处:https://leytton.blog.csdn.net/article/details/103730081] [第17课] 随机变量介绍 离散随机变量(discrete rand ...

  3. 2022 最新 Android 基础教程,从开发入门到项目实战【b站动脑学院】学习笔记——第三章:简单控件

    第 3 章 简单控件 本章介绍了App开发常见的几类简单控件的用法,主要包括:显示文字的文本视图.容纳视图的常用布局.响应点击的按钮控件.显示图片的图像视图等.然后结合本章所学的知识,演示了一个实战项 ...

  4. 2022 最新 Android 基础教程,从开发入门到项目实战【b站动脑学院】学习笔记——第六章:数据存储

    第 6 章 数据存储 本章介绍Android 4种存储方式的用法,包括共享参数SharedPreferences.数据库SQLite.存储卡文 件.App的全局内存,另外介绍Android重要组件-应 ...

  5. 2022 最新 Android 基础教程,从开发入门到项目实战【b站动脑学院】学习笔记——第五章:中级控件

    第 5 章 中级控件 本章介绍App开发常见的几类中级控件的用法,主要包括:如何定制几种简单的图形.如何使用几种选择按钮.如何高效地输入文本.如何利用对话框获取交互信息等,然后结合本章所学的知识,演示 ...

  6. 可汗学院统计学笔记1

    可汗学院:Task0 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 问题 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 均数.中位数.众数.极差.中程数(最大值和最小值的算术平均数) ...

  7. 可汗学院统计学笔记(一)

    基本概念 1.总体(Population)与样本(Sample) 总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力.因此通过对总体进行抽样得到可以代表总体的样本.注意:采样过程应该是随机 ...

  8. 可汗学院统计学笔记(二)

    1.中心极限定理(Central Limit Theorem) 中心极限定理:假设我们有一个分布,它有定义好的均值和方差.用X表示服从这个分布的变量.进行n次实验(n很大),每次实验得到的结果是对这个 ...

  9. 数据分析知识——统计学学习笔记(拉勾数据分析训练营)

    模块1 统计学基本概念 1 测量尺度 人文社科中的分类尺度 1定类尺度 功能:分类作用,比如性别.英文:Norminal 2定序尺度 功能:分类.排序作用,比如喜欢的艺人.年级.英文:Ordinal ...

  10. 可汗学院统计学笔记 42-81集

    假设检验 假设检验是推论统计中用于检验统计假设的一种方法.而"统计假设"是可通过观察一组随机变量的模型进行检验的科学假说.一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出 ...

最新文章

  1. C和C++安全编码笔记:并发
  2. Algorithms_二叉树的层次遍历(广度优先)
  3. hdu5375(格雷码问题+简单DP)
  4. 【html】【19】高级篇--大事件时间轴
  5. Steve Yegge -Execution in the Kingdom of Nouns
  6. 21岁雅虎卖身引发一波怀旧 市值曾高达1250亿美元
  7. 程序员年纪大了干什么
  8. 2 Bitbake执行
  9. sql怎么发音mysql_[原创]SQL发音考证(搜寻SQL-86标准)
  10. 容器技术介绍之docker核心技术概述
  11. 十天内提高单词量到20000! (Vocabulary 10000)
  12. Failed to introspect Class [com.github.pagehelper.autoconfigure.PageHelperAutoConfiguration]
  13. 微信公众号教程-注册发布文章
  14. 2021年中国造林面积及造林方式情况分析[图]
  15. mac夜神模拟器与mac数据共享设置
  16. 合并两个或者多个select结果集
  17. 阜阳有儿童计算机编程吗,终于明白儿童有必要学编程吗
  18. RobotStudio教程:ABB机器人拆垛与码垛应用示教编程与虚拟仿真
  19. c语言如何标志置1与置0,c语言对于文本的基本操作
  20. nyoj892买牛奶

热门文章

  1. 服务器代理跳过上网限制策略
  2. 他是年薪几十万的微软工程师,现在却在成都街头收破烂......
  3. 获取打开的记事本中的内容 - 回复 ymg1103 的问题
  4. itext修改pdf文字
  5. 在pdf上进行修改文字,PDF文字修改方法
  6. echarts结合百度地图实现迁徙图效果
  7. EMI、EMS和EMC
  8. 几部科幻小说的评价和感想
  9. windows10获取超级管理员权限
  10. 易优CMS插件-站长必备易优CMS插件