可汗学院-统计学-学习笔记
文章目录
- 可汗学院 统计学
- 集中趋势
- 均值
- 众数
- 中位数
- 随机变量
- 期望
- P24 二项分布的期望值
- 二项分布
- P25 P26 泊松过程
- P27 大数定律
- P28 29 正态分布
- 标准z分数
- 正态分布
- P35 36 37 38 中心极限定理
- 中心极限定理
- 偏度
- 峰度
- 样本均值的抽样分布的方差与原来的分布的方差关系
- P42 伯努利分布
- P44
- P45 46
- P47 48 49 假设检验
- P50 第一型错误
- P51 52
- P53
- P54 随机变量的和与差
- P55-P61
- P62-P66
- P68 线性回归的决定系数
- P71 协方差
- P72 卡方分布
- P73-74 卡方分布的假设检验例题
- P75-77
- P78 相关性和因果性
- P79 演绎推理和归纳推理
- P80-85 演绎推理和归纳推理的例题
可汗学院 统计学
https://www.bilibili.com/video/BV1i4411e7sT?p=24&spm_id_from=pageDriver
集中趋势
描述一组数据在哪个区间出现更多
均值
一般指算数平均数
众数
出现最多的数,可以有多个
中位数
排序后位于中间或中间两个数的算数平均数的数
随机变量
更像是把随机过程映射成具体的数值的函数。例如
X={1for明天下雨0for明天不下雨X=\left\{ \begin{array}{rcl} 1&\mathrm{for}&明天下雨\\ 0&\mathrm{for}&明天不下雨\\ \end{array} \right. X={10forfor明天下雨明天不下雨
期望
用于描述总体数量无穷时的均值。例如随机变量可以做无数次试验,有无数次取值,因此用有限样本去估计总体的均值,本质和均值是一样的。
P24 二项分布的期望值
二项分布
每次试验相互独立互不干扰
XXX遵从二项分布,取111的概率为ppp,取000的概率为1−p1-p1−p。做nnn次试验,XXX的期望是E(X)=npE(X)=npE(X)=np
P(X=k)=Cnkpk(1−p)n−kE(X)=∑k=0nk∗P(X=k)=∑k=1nkn!k!(n−k)!pk(1−p)n−k=np∑k=1n(n−1)!(k−1)!(n−k)!pk−1(1−p)n−k令a=k−1,b=n−1=np∑a=0bb!a!(b−a)!pa(1−p)b−a=np(p+1−p)b=np\begin{aligned} P(X=k)&=C_{n}^{k}p^k(1-p)^{n-k}\\ E(X)&=\sum_{k=0}^{n}k*P(X=k)\\ &=\sum_{k=1}^{n}k\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}\\ &=np\sum_{k=1}^{n}\frac{(n-1)!}{(k-1)!(n-k)!}p^{k-1}(1-p)^{n-k}\\ 令a=k-1,b=n-1\\ &=np\sum_{a=0}^{b}\frac{b!}{a!(b-a)!}p^a(1-p)^{b-a}\\ &=np(p+1-p)^b\\ &=np\\ \end{aligned} P(X=k)E(X)令a=k−1,b=n−1=Cnkpk(1−p)n−k=k=0∑nk∗P(X=k)=k=1∑nkk!(n−k)!n!pk(1−p)n−k=npk=1∑n(k−1)!(n−k)!(n−1)!pk−1(1−p)n−k=npa=0∑ba!(b−a)!b!pa(1−p)b−a=np(p+1−p)b=np
实际上用a,ba,ba,b代换后求和各项也是二项分布取做bbb次试验取各个值的概率,概率和自然为111。
P25 P26 泊松过程
令n=axlimn→∞(1+an)n=limx→∞(1+1x)xa=(limx→∞(1+1x)x)a=ea\begin{aligned} 令n=ax\\ \lim_{n\rightarrow\infin}{(1+\frac{a}{n})^n} &=\lim_{x\rightarrow\infin}{(1+\frac{1}{x})^{xa}}\\ &=(\lim_{x\rightarrow\infin}{(1+\frac{1}{x})^{x}})^a\\ &=e^a\\ \end{aligned} 令n=axn→∞lim(1+na)n=x→∞lim(1+x1)xa=(x→∞lim(1+x1)x)a=ea
随机变量XXX表示一小时内经过的车辆次数,此处假设每个时刻的车流量互不影响相互独立。
用二项分布建模,假设数学期望E(X)=λ=npE(X)=\lambda=npE(X)=λ=np,即每小时有λ\lambdaλ辆车经过,则每分钟有一辆车经过的概率为λ60\frac{\lambda}{60}60λ,相当于每一分钟做一次试验(有车经过为成功否则失败),每小时做60次试验。由此推得每小时有kkk辆车经过的概率为
P(X=k)=C60k(λ60)k(1−λ60)60−kP(X=k)=C_{60}^k(\frac{\lambda}{60})^k(1-\frac{\lambda}{60})^{60-k}\\ P(X=k)=C60k(60λ)k(1−60λ)60−k
即60分钟内有k分钟有车经过。
这样并没有解决每分钟有多辆车经过的问题,解决方法是把分钟细化成秒、时刻。
把分钟细分为无限多时刻,二项分布就变成泊松分布。
P(X=k)=limn→∞Cnk(λn)k(1−λn)n−k=limn→∞n(n−1)⋯(n−k+1)nkλkk!(1−λn)n(1−λn)−k=λkk!limn→∞n(n−1)⋯(n−k+1)nklimn→∞(1+−λn)nlimn→∞(1−λn)−k=λkk!e−λ\begin{aligned} P(X=k)&=\lim_{n\rightarrow\infin}{C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}}\\ &=\lim_{n\rightarrow\infin}{\frac{n(n-1)\cdots(n-k+1)}{n^k}\frac{\lambda^k}{k!}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k}}\\ &=\frac{\lambda^k}{k!}\lim_{n\rightarrow\infin}{\frac{n(n-1)\cdots(n-k+1)}{n^k}}\lim_{n\rightarrow\infin}{(1+\frac{-\lambda}{n})^n}\lim_{n\rightarrow\infin}{(1-\frac{\lambda}{n})^{-k}}\\ &=\frac{\lambda^k}{k!}\mathrm{e}^{-\lambda}\\ \end{aligned} P(X=k)=n→∞limCnk(nλ)k(1−nλ)n−k=n→∞limnkn(n−1)⋯(n−k+1)k!λk(1−nλ)n(1−nλ)−k=k!λkn→∞limnkn(n−1)⋯(n−k+1)n→∞lim(1+n−λ)nn→∞lim(1−nλ)−k=k!λke−λ
实际应用如,测得每小时有9辆车经过,则期望为9,倒推有k辆车经过的概率。
P27 大数定律
随机变量XXX的期望,即总体的均值为E(X)=μE(X)=\muE(X)=μ。做n次观测,得到n次观测的均值Xnˉ\bar{X_n}Xnˉ,随着n→∞,Xnˉ→μn\rightarrow\infin,\bar{X_n}\rightarrow\mun→∞,Xnˉ→μ。
在有限次观测中,前面的均值高于期望,不代表后面的均值就会低于期望。每一次的观测,概率都是独立的。大数定律的重点在于无限次观测,因此前面有限次的观测可以忽略不计,有限次高于期望的观测值和无限次趋近于期望值的观测值取平均,最后均值一定会趋近于期望值。
P28 29 正态分布
标准z分数
x−μσ\frac{x-\mu}{\sigma}σx−μ,表示离均值相差几个标准差
正态分布
二项分布是正态分布的一个很好的近似,试验次数越多越接近。
p(x)=1σ2πe−12(x−μσ)2p(x)=\frac{1}{\sigma\sqrt{2\pi}}\mathrm{e}^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}p(x)=σ2π1e−21(σx−μ)2
概率是曲线下方的面积,通过定积分求。一般不容易求解析解,用数值解近似。
实际中常用累积分布函数(CDF)计算,CDF(x)=∫−∞xp(t)dtCDF(x)=\int_{-\infin}^{x}{p(t)\mathrm{d}{t}}CDF(x)=∫−∞xp(t)dt
P35 36 37 38 中心极限定理
中心极限定理
任何具有良好定义的均值和标准差的分布,样本均值的抽样分布,在抽样次数足够多后,都会近似于正态分布。
例如概率分布不均匀的骰子,一次取样得到一个样本,一个样本有n=4个样本值,每个样本值为投掷骰子的点数。计算每个样本的均值(这里也可以是其他统计量),当取样次数足够多后,均值出现的频率分布近似于正态分布。n越大,近似越快,近似的分布标准差越小(中间更尖,向中间靠拢)。n趋近于无穷时,得到真正的正态分布。反过来,n=1或2显然是不行的。现实中n=10或15就可以很好近似,收敛很快。n趋近无穷且取样次数趋近无穷时,近似分布的均值与原来的概率分布均值一样。
偏度
完美正态分布(偏度=0,峰度=0)的图形关于均值对称,如果不对称,右边尾部较长,称为正偏态(右偏态)分布,偏度为正;反之称为负偏态(左偏态)分布,偏度为负。
峰度
相对于完美正态分布的图形,峰度为正,峰度越高,峰顶更尖,两侧更厚,称为正峰态分布;峰度为负,峰度越小,峰顶更平,两侧更扁,称为负峰态分布。
样本均值的抽样分布的方差与原来的分布的方差关系
样本均值的抽样分布的标准差=均值分布标准差=均值标准误差
σxˉ2=σ2n\sigma_{\bar{x}}^2=\frac{\sigma^2}{n}\\ σxˉ2=nσ2
n是样本容量
抽样的均值用Xˉ\bar{X}Xˉ表示,方差用S2S^2S2表示(分母n−1n-1n−1),是对总体统计量的最好估计。
总体均值μ\muμ,方差σ2\sigma^2σ2。
注意样本均值的抽样分布和单次对总体抽样是不同的。
P42 伯努利分布
进行一次试验,成功概率为ppp,失败概率为1−p1-p1−p,称为伯努利试验。
伯努利试验的结果的分布,称为伯努利分布,也是二项分布在n=1n=1n=1的特例。设试验成功记作111,失败记作000,XXX表示试验结果
μ=E(X)=p∗1+(1−p)∗0=pσ2=D(X)=p(1−p)2+(1−p)(0−p)2=p(1−p)\mu=E(X)=p*1+(1-p)*0=p\\ \sigma^2=D(X)=p(1-p)^2+(1-p)(0-p)^2=p(1-p)\\ μ=E(X)=p∗1+(1−p)∗0=pσ2=D(X)=p(1−p)2+(1−p)(0−p)2=p(1−p)
二项分布是进行nnn次相互独立的伯努利试验的结果的分布。
P44
用数字说明了为什么样本容量越大,估计出来的误差越小。
P45 46
通常在样本容量大于30的时候可以假设样本均值抽样分布是正态分布,否则假设为ttt分布。ttt分布两侧尾部更肥,防止样本容量过小低估了标准差。(即假设:抽样分布的值更分散)
t分布的自由度为n−1n-1n−1,nnn是样本容量
P47 48 49 假设检验
药物试验,药物无效做零假设,有效做备择假设。零假设成立的情况下,得到当前结果的概率称为p值。
零假设通常记作H0H_0H0,备择假设记作H1H_1H1或HaH_aHa
例如用药前反应时间均值为1.2秒,零假设是用药后反应时间均值仍为1.2秒,备择假设是用药后反应时间均值小于或大于1.2秒。这称为双侧检验。备择假设为反应时间均值小于1.2秒,称为单侧检验。
样本容量大于等于30时,统计量一般服从正态分布,用z分数计算概率。小于30尤其是小于30很多时,服从t分布,使用t分数。
P50 第一型错误
Type I Error,即拒绝了正确的零假设。
通常假设检验从假设零假设成立出发,零假设成立,通常均值等于某个值,有另外一个统计量来检验零假设,计算另一个统计量如此极端或者更加极端的概率,如果概率低于某个阈值则拒绝零假设。
也就是说,上述概率不为0,假设为0.5%,则有0.5%的概率,正确的统计量确实处于极端区间,即小概率事件真的发生,即有0.5%的概率零假设正确,拒绝了零假设即为有0.5%的概率犯第一型错误。
P51 52
常用的求总体均值落在某个区间内,使得总体均值的置信度有95%,思路有
抽样分布的样本均值=总体均值,它是总体均值的最好估计
抽样的结果可以视为在样本容量nnn下进行的随机抽样
随机抽样的样本均值落在抽样分布的样本均值左右某个区间内(计算z分数或者t分数)的概率有95%=随机抽样样本均值落在总体均值左右某个区间内的概率有95%=总体均值落在随机抽样样本均值左右某个区间内的概率有95%=总体均值落在本次抽样的样本均值左右某个区间内的概率有95%(本次抽样是样本容量nnn下进行的随机抽样)
P53
美国家庭接入网络占比的例题
nnn为样本容量,ppp为样本值取1的概率或者占比,当np>5np>5np>5且n(1−p)>5n(1-p)>5n(1−p)>5时可以假定样本占比的分布为正态分布。
P54 随机变量的和与差
X和Y是相互独立的随机变量
E(X)=μXVar(X)=E((X−μX)2)=σX2E(Y)=μYVar(Y)=E((Y−μY)2)=σY2E(X+Y)=E(X)+E(Y)Var(X+Y)=σX+Y2=σX2+σY2E(X−Y)=E(X+(−Y))=E(X)+E(−Y)=E(X)−E(Y)σX−Y2=σX+(−Y)2=σX2+σ−Y2=σX2+σY2E(X)=\mu_X\\ Var(X)=E((X-\mu_X)^2)=\sigma_X^2\\ E(Y)=\mu_Y\\ Var(Y)=E((Y-\mu_Y)^2)=\sigma_Y^2\\ E(X+Y)=E(X)+E(Y)\\ Var(X+Y)=\sigma_{X+Y}^2=\sigma_X^2+\sigma_Y^2\\ E(X-Y)=E(X+(-Y))=E(X)+E(-Y)=E(X)-E(Y)\\ \sigma_{X-Y}^2=\sigma_{X+(-Y)}^2=\sigma_X^2+\sigma_{-Y}^2=\sigma_X^2+\sigma_Y^2\\ E(X)=μXVar(X)=E((X−μX)2)=σX2E(Y)=μYVar(Y)=E((Y−μY)2)=σY2E(X+Y)=E(X)+E(Y)Var(X+Y)=σX+Y2=σX2+σY2E(X−Y)=E(X+(−Y))=E(X)+E(−Y)=E(X)−E(Y)σX−Y2=σX+(−Y)2=σX2+σ−Y2=σX2+σY2
P55-P61
涉及随机变量和与差的假设检验例题
P62-P66
二维空间nnn个点线性回归直线表达式的推导
y=mx+bm=x‾y‾−xy‾(x‾)2−x2‾b=y‾−mx‾y=mx+b\\ m=\frac{\overline{x}\ \overline{y}-\overline{xy}}{(\overline{x})^2-\overline{x^2}}\\ b=\overline{y}-m\overline{x}\\ y=mx+bm=(x)2−x2x y−xyb=y−mx
P68 线性回归的决定系数
SE(squared error)平方误差
SELINESE_{LINE}SELINE表示拟合的直线上的点与原来的点的竖直距离的和,即
SELINE=∑i=1n(yi−(mxi+b))2SE_{LINE}=\sum_{i=1}^{n}{(y_i-(mx_i+b))^2}\\ SELINE=i=1∑n(yi−(mxi+b))2
SEy‾SE_{\overline{y}}SEy表示原来的点到代表yyy均值的直线的竖直距离的和,即
SEy‾=∑i=1n(yi−y‾)2SE_{\overline{y}}=\sum_{i=1}^{n}{(y_i-\overline{y})^2}\\ SEy=i=1∑n(yi−y)2
决定系数(判定系数)r2=1−SELINESEy‾r^2=1-\frac{SE_{LINE}}{SE_{\overline{y}}}r2=1−SEySELINE,表示yyy的总波动有多少被xxx的波动(或者说拟合的直线)所描述,右边的分式表示yyy的总波动有多少没有被xxx的波动(或者说拟合的直线)所描述。
如果拟合得非常好,则SELINESE_{LINE}SELINE非常小,r2r^2r2接近1,反之接近0。
P71 协方差
两个随机变量的协方差
COV(X,Y)=E[(X−E[X])(Y−E[Y])]COV(X,Y)=E[(X-E[X])(Y-E[Y])]\\ COV(X,Y)=E[(X−E[X])(Y−E[Y])]
协方差表示两个变量多大程度上一同变化
将括号内展开
COV(X,Y)=E[XY]−E[X]E[Y]COV(X,Y)=E[XY]-E[X]E[Y]\\ COV(X,Y)=E[XY]−E[X]E[Y]
用样本值对总体做估计,得到
COV(X,Y)=XY‾−X‾Y‾COV(X,Y)=\overline{XY}-\overline{X}\ \overline{Y}\\ COV(X,Y)=XY−X Y
上式就是线性回归斜率的分子
如果在总体中取一部分样本,做线性回归,得到的是总体的近似回归线,斜率是对总体回归线斜率的估计
m^=XY‾−X‾Y‾X2‾−(X‾)2=COV(X,Y)COV(X,X)=COV(X,Y)VAR(X)\hat{m}=\frac{\overline{XY}-\overline{X}\ \overline{Y}}{\overline{X^2}-(\overline{X})^2}=\frac{COV(X,Y)}{COV(X,X)}=\frac{COV(X,Y)}{VAR(X)}\\ m^=X2−(X)2XY−X Y=COV(X,X)COV(X,Y)=VAR(X)COV(X,Y)
由定义可以知道一个变量和它自身的协方差就是它自身的方差。
P72 卡方分布
χ2\chi^2χ2分布,它的随机变量由nnn个相互独立的服从标准正态分布的变量的平方和构成,其分布规律称为χ2\chi^2χ2分布
χn2\chi_n^2χn2表示由nnn个变量的平方和构成,自由度为nnn
用于衡量理想分布和实际取值的误差
如果有kkk个限制条件,则自由度为n−kn-kn−k
P73-74 卡方分布的假设检验例题
经验法则,列联表的自由度是(行数-1)*(列数-1)
P75-77
总波动=组内波动+组间波动
自由度同理
涉及到F分布的例题
P78 相关性和因果性
因果性是A导致B
相关性是观测到A和B同时发生,发生A则很有可能同时发生B,或发生B很有可能同时发生A
区别两者很重要,由相关性可能可以得出完全相反的因果性结论,研究中要注意到潜在的原因
P79 演绎推理和归纳推理
归纳推理是找出规律或者趋势然后外推,并不一定外推之后规律还是对的,只是假设它正确
演绎推理是从一个事实开始演绎(逻辑运算、计算等)得到其他事实,一定是正确的。没有估计,没有推广,没有假设未来的趋势。
估计人口数,是估计未来的事情,不能得到一个真实准确的值,需要找出规律外推,是归纳推理
P80-85 演绎推理和归纳推理的例题
完结撒花。
可汗学院-统计学-学习笔记相关推荐
- 可汗学院统计学1-16课笔记
[第1课] 均值 中位数 众数 均值(平均值) = 数据之和 / 数据个数 中位数 = 数据排序后,处在中间的数(如果两位数取平均值) 众数 = 出现次数最多的数,一组数据可以有多个众数 import ...
- 可汗学院统计学17-24课笔记
[转载请注明出处:https://leytton.blog.csdn.net/article/details/103730081] [第17课] 随机变量介绍 离散随机变量(discrete rand ...
- 2022 最新 Android 基础教程,从开发入门到项目实战【b站动脑学院】学习笔记——第三章:简单控件
第 3 章 简单控件 本章介绍了App开发常见的几类简单控件的用法,主要包括:显示文字的文本视图.容纳视图的常用布局.响应点击的按钮控件.显示图片的图像视图等.然后结合本章所学的知识,演示了一个实战项 ...
- 2022 最新 Android 基础教程,从开发入门到项目实战【b站动脑学院】学习笔记——第六章:数据存储
第 6 章 数据存储 本章介绍Android 4种存储方式的用法,包括共享参数SharedPreferences.数据库SQLite.存储卡文 件.App的全局内存,另外介绍Android重要组件-应 ...
- 2022 最新 Android 基础教程,从开发入门到项目实战【b站动脑学院】学习笔记——第五章:中级控件
第 5 章 中级控件 本章介绍App开发常见的几类中级控件的用法,主要包括:如何定制几种简单的图形.如何使用几种选择按钮.如何高效地输入文本.如何利用对话框获取交互信息等,然后结合本章所学的知识,演示 ...
- 可汗学院统计学笔记1
可汗学院:Task0 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 问题 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 均数.中位数.众数.极差.中程数(最大值和最小值的算术平均数) ...
- 可汗学院统计学笔记(一)
基本概念 1.总体(Population)与样本(Sample) 总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力.因此通过对总体进行抽样得到可以代表总体的样本.注意:采样过程应该是随机 ...
- 可汗学院统计学笔记(二)
1.中心极限定理(Central Limit Theorem) 中心极限定理:假设我们有一个分布,它有定义好的均值和方差.用X表示服从这个分布的变量.进行n次实验(n很大),每次实验得到的结果是对这个 ...
- 数据分析知识——统计学学习笔记(拉勾数据分析训练营)
模块1 统计学基本概念 1 测量尺度 人文社科中的分类尺度 1定类尺度 功能:分类作用,比如性别.英文:Norminal 2定序尺度 功能:分类.排序作用,比如喜欢的艺人.年级.英文:Ordinal ...
- 可汗学院统计学笔记 42-81集
假设检验 假设检验是推论统计中用于检验统计假设的一种方法.而"统计假设"是可通过观察一组随机变量的模型进行检验的科学假说.一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出 ...
最新文章
- C和C++安全编码笔记:并发
- Algorithms_二叉树的层次遍历(广度优先)
- hdu5375(格雷码问题+简单DP)
- 【html】【19】高级篇--大事件时间轴
- Steve Yegge -Execution in the Kingdom of Nouns
- 21岁雅虎卖身引发一波怀旧 市值曾高达1250亿美元
- 程序员年纪大了干什么
- 2 Bitbake执行
- sql怎么发音mysql_[原创]SQL发音考证(搜寻SQL-86标准)
- 容器技术介绍之docker核心技术概述
- 十天内提高单词量到20000! (Vocabulary 10000)
- Failed to introspect Class [com.github.pagehelper.autoconfigure.PageHelperAutoConfiguration]
- 微信公众号教程-注册发布文章
- 2021年中国造林面积及造林方式情况分析[图]
- mac夜神模拟器与mac数据共享设置
- 合并两个或者多个select结果集
- 阜阳有儿童计算机编程吗,终于明白儿童有必要学编程吗
- RobotStudio教程:ABB机器人拆垛与码垛应用示教编程与虚拟仿真
- c语言如何标志置1与置0,c语言对于文本的基本操作
- nyoj892买牛奶