第五次任务之三大抽样分布
转载处:https://www.cnblogs.com/Belter/p/8280492.html
目录
- 分位点/分位数(Fractile)
- 卡方分布(χ2\chi ^{2}χ2)
- t分布
- F分布
- 三大抽样分布之间的联系
抽样分布就是统计量的分布,统计量包括均值、方差、比例,分布包括正态分布(样本容量n>30)、t分布(样本容量n<30)、卡方分布、F分布。下面从分位数、定义、性质和函数图像来介绍三大分布—卡方分布、t分布、F分布。
分位点/分位数(Fractile)
分位数是一个非常重要的概念,首先要明确的一点是分位数分的是面积。更准确的是,分位数分的是某个特定分布的概率密度函数曲线下的面积,每给定一个分位数,概率密度函数就会被该分位数一分为二。
在英语中,表示分位数的有两个词,区别如下:
As nouns the difference between fractile and quantile is that fractile is (statistics) the value of a distribution for which some fraction of the sample lies below while quantile is (statistics) one of the class of values of a variate which divides the members of a batch or sample into equal-sized subgroups of adjacent values or a probability distribution into distributions of equal probability.
来自https://wikidiff.com/fractile/quantile
四分位数(Quartiles)
四分位数是统计学里用的比较多的概念,属于quantile的一种,四分位数就是将一组数据按照从小到大排序后,均分为四部分的三个位置。
- 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
- 第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
- 第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
- 第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。
确定四分位数的位置:
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示项数
举个小栗子:一组数据:1,2,3,4,5,6,先求第二四分位数Q2,如果数据个数n为奇数,取中间的那个数n+1/2,公式:如果数据个数n为偶数,取中间的两个数除以2,公式:n/2;然后求第一四分位数,(6+1)/4=1.75,Q1=10.25+20.75=1.75,;最后求第三四分位数,(6+1)×0.75=5.25,Q3=50.75+60.25=5.25
卡方分布(χ2\chi ^{2}χ2)
卡方分布是由服从标准正态分布的随机变量的平方和组成的
- 定义
设随机变量X1,X2,⋯ ,XnX_{1},X_{2},\cdots ,X_{n}X1,X2,⋯,Xn相互独立,都服从N(0,1),则称,χ2=∑i=1nXi2\chi^{2}=\sum_{i=1}^{n}X_{i}^{2}χ2=i=1∑nXi2服从自由度为n的χ2\chi ^{2}χ2分布,记为χ2∼χ2(n)\chi^{2}\sim \chi^{2}(n)χ2∼χ2(n)。 - 性质
设χ2∼χ2(n)\chi^{2}\sim \chi^{2}(n)χ2∼χ2(n),则 - E(χ2)=nE(\chi^{2})=nE(χ2)=n,D(χ2)=2nD(\chi^{2})=2nD(χ2)=2n
- χ2\chi ^{2}χ2的可加性:Y1∼χ2(n1)Y_{1}\sim \chi ^{2}(n_{1})Y1∼χ2(n1),Y2∼χ2(n2)Y_{2}\sim \chi ^{2}(n_{2})Y2∼χ2(n2),且Y1Y_{1}Y1与Y2Y_{2}Y2相互独立,则Y1+Y2∼χ2(n1+(n2)Y_{1}+Y_{2}\sim \chi ^{2}(n_{1}+(n_{2})Y1+Y2∼χ2(n1+(n2),该性质可推广到有限个随机变量的情形,设Y1,Y2,⋯ ,YnY_{1},Y_{2},\cdots ,Y_{n}Y1,Y2,⋯,Yn相互独立,Yi∼χ2(ni)Y_{i}\sim \chi ^{2}(n_{i})Yi∼χ2(ni),∑i=1mYi=χ2(∑i=1mni)\sum_{i=1}^{m}Y_{i}=\chi ^{2}(\sum_{i=1}^{m}n_{i})∑i=1mYi=χ2(∑i=1mni)。
- 函数图像
卡方分布的概率密度曲线如下:
密度函数的支撑集 (即使密度函数为正的自变量的集合) 为(0, +∞), 从上图可见当自由度 n 越大, 的密度曲线越趋于对称, n 越小, 曲线越不对称. 当 n = 1, 2 时曲线是单调下降趋于 0. 当 n ≥ 3时曲线有单峰, 从 0 开始先单调上升, 在一定位置达到峰值, 然后单下降趋向于 0。
t分布
t分布的推导最早由大地测量学家Friedrich Robert Helmert于1876年提出,并由数学家Lüroth证明。英国人威廉·戈塞(Willam S. Gosset)于1908年再次发现并发表了t分布,当时他还在爱尔兰都柏林的吉尼斯(Guinness)啤酒酿酒厂工作。酒厂虽然禁止员工发表一切与酿酒研究有关的成果,但允许他在不提到酿酒的前提下,以笔名发表t分布的发现,所以论文使用了“学生”(Student)这一笔名。之后t检验以及相关理论经由罗纳德·费雪(Sir Ronald Aylmer Fisher)发扬光大,为了感谢戈塞的功劳,费雪将此分布命名为学生t分布(Student's t)。
当样本容量较小,n<30时,用t统计量
- 定义
设X∼N(0,1)X\sim N(0,1)X∼N(0,1),Y∼χ2(n)Y\sim \chi ^{2}(n)Y∼χ2(n),且X和Y相互独立,则称随机变量T=XYnT=\frac{X}{\sqrt{\frac{Y}{n}}}T=nYX服从自由度n的t分布,记为T∼t(n)T\sim t(n)T∼t(n)。当n=1时,就是柯西分布。 - 性质
设T∼t(n)T\sim t(n)T∼t(n),则 - 当n>1时,E(T)=0,当n=1时,期望不存在(参考柯西分布的期望,link)
- 当n>2时,D(T)=nn−2\frac{n}{n-2}n−2n,当n≤2n\leq 2n≤2时,方差不存在
- 函数图像
从图6中可以看到,t(1)与标准正态分布之间的差别还是比较大的,但是当自由度n趋近于无穷大时,t分布与标准正态分布没有差别(公式上的形式将变得完全相同,这里没有列出概率密度函数的公式)。较大的区别在于,当自由度n较小时,t分布比标准正态分布的尾部更宽(fatter tails),因此也比正态分布更慢的趋近于0。关于这两类分布的异同将会在后面的假设检验部分详细阐述。
F分布
F分布是由两个卡方分布组成
- 定义
设X∼χ2(n1)X\sim \chi ^{2}(n_{1})X∼χ2(n1),Y∼χ2(n1)Y\sim \chi ^{2}(n_{1})Y∼χ2(n1),且X与Y相互独立,则称随机变量F=Xn1Yn2F=\frac{\frac{X}{n_{1}}}{\frac{Y}{n_{2}}}F=n2Yn1X服从自由度为(n1n_{1}n1,n2n_{2}n2)的F分布,记为F∼F(n1,n2)F\sim F(n_{1},n_{2})F∼F(n1,n2)其中,n1n_{1}n1为第一自由度,n2n_{2}n2为第二自由度。 - 性质
设F∼F(n1,n2)F\sim F(n_{1},n_{2})F∼F(n1,n2),则 - 函数图像
三大抽样分布之间的联系
可以展示这三大抽样分布于标准正态分布的联系,以及它们自身之间的联系:
X,Y,Z相互独立,且都服从N(0,1)分布,那么:
- X2+Y2+Z2∼χ2(3)X^{2}+Y^{2}+Z^{2}\sim \chi ^{2}(3)X2+Y2+Z2∼χ2(3)
- X(X2+Z2)/2∼t(2)\frac{X}{\sqrt{(X^{2}+Z^{2})/2}}\sim t(2)(X2+Z2)/2X∼t(2)
- 2X2Y2+Z2∼F(1,2)\frac{2X^2}{Y^{2}+Z^{2}}\sim F(1,2)Y2+Z22X2∼F(1,2)
- 若t∼t(n)t\sim t(n)t∼t(n),t2∼F(1,n)t^{2}\sim F(1,n)t2∼F(1,n)
从图9可以看到,t分布和标准正态分布都是左右对称的,偏度为0(偏度为0也可能不对称),但是卡方分布和F分布都不对称,呈正偏态(右侧的尾部更长,分布的主体集中在左侧)。
也可参考:https://blog.csdn.net/anshuai_aw1/article/details/82735201
第五次任务之三大抽样分布相关推荐
- 【概率论与数理统计】小结8 - 三大抽样分布
注:抽样分布就是统计量的分布,其特点是不包含未知参数且尽可能多的概括了样本信息.除了常见的正态分布之外,还有卡方分布.t分布和F分布为最常见的描述抽样分布的分布函数.这几个分布函数在数理统计中也非常有 ...
- 五个案例,三大心得,深度学习的实践应用之路
原文链接:http://geek.csdn.net/news/detail/202622 这篇文章对深度学习在工程级别应用上遇到的问题进行了很好地总结,并且提出一些有建设性的解决方案,很有实际意义. ...
- Java学习笔记二十五:Java面向对象的三大特性之多态
Java面向对象的三大特性之多态 一:什么是多态: 多态是同一个行为具有多个不同表现形式或形态的能力. 多态就是同一个接口,使用不同的实例而执行不同操作. 多态性是对象多种表现形式的体现. 现实中,比 ...
- 第五章数理统计--样本和抽样分布
从今天开始要学习数理统计. 概率论:是专门研究随机现象的一门学科,定量描述随机现象及其规律. 数理统计:数理统计的研究对象是数据,包括对数据的采集.整理.分析.建模.主要任务是获取样本.描述样本,从样 ...
- 详解三大抽样分布的构造原理,以及随机数的产生
抽样分布定理及随机数的产生 1 四种常用统计分布及构造原理 1.1 标准正态分布 1.2 χ 2 \chi^{2} χ2
- 统计学名词解释 —— 6. 三大抽样分布(卡方分布、t分布、F分布)
文章目录 x2x^2x2 分布 基本概念 函数密度图像 基本性质 例题 ttt 分布 基本概念 函数密度图像 例题 FFF 分布 基本概念 函数密度图像 例题 从经验可知,大部分的样本分布服从或近似服 ...
- 数理统计-5.4 三大抽样分布
X^2分布(卡方分布) 定义:设X1.X2.--.Xn独立同分布于标准正态分布N(0,1) 则X^2= X12+X22+--+Xn2的分布称为称为自由度为n的X2分布 记为X2-X2(n) 若随机变量 ...
- 五个问题,三大策略,手把手教你定制App性能监控方案
作者:友盟+U-APM团队 Why? 为什么要做应用性能监控? 首先,我们要知道应用性能监控具体指什么?以及目的: 监控是一套完整的"监视+报警"的系统.对于像我们这样的App开发 ...
- 正态分布的概率密度函数python_python绘制正态分布及三大抽样分布的概率密度图像...
目录 1.scipy库中各分布对应的方法 2.stats中各分布的常用方法及其功能 3.正态分布的概率密度函数及其图象 1)正态分布的概率密度函数及其图象 2)python绘制正态分布的概率密度函数图 ...
最新文章
- 人类如何接近“宇宙无限”?微积分的力量无处不在
- hdu 2962 最短路+二分
- 台式电脑cpu排行榜_台式电脑CPU性能天梯图 AMD性能首次反超intel
- java的class和object_Java中Class/Object/T的关系
- python 脚本学习(二)
- docker Harbor2.3.4 http 搭建镜像仓库
- 即将步入2020年,程序员如何在新的一年更进一步?你需要这样做
- 程序猿bug修改名句
- kafka 可视化工具_Kafka集群在马蜂窝大数据平台的优化与应用扩展
- python函数局部变量_Python局部函数– functoolspartial()
- 正切函数半角定理推导
- android 自定义menu菜单按键功能
- 【Maven】Idea搭建多Module项目修修补补
- 如何在Ubuntu上安装Couch DB 1.5
- 陪女朋友逛街花了一块钱,真心痛! 笑死我了
- Python操作MySQL将文件信息制作成表(以裁判文书为例)
- shell从服务器复制文件夹,关于shell:如何使用scp将文件夹从远程复制到本地?...
- sybase用户权限管理3 _角色授予
- java微信获取openId和sessionKey
- 7-5 输出倒三角图案
热门文章
- SBR笔记:Self-Supervised Hypergraph Convolutional Networks for Session-based Recommendation
- 通过注册表查看电脑是否安装office和查看本电脑安装office版本
- 网络安全下用c语言写蠕虫病毒,神经网络在计算机网络安全管理中的应用
- Image-to-Image Translation with Text Guidance
- 【基础知识】~ LUT、CLB、面积/速度问题
- 微信小程序学习第6周————模块化
- Swift 参数可选和必选的区别
- 关掉Windows10的计划自动重启行之有效的方法
- AC-PEG-NH2,Acrylate-PEG-Amine,丙烯酸酯PEG氨基含有PEG间隔基
- 马化腾: 你想想不充钱能不能玩这游戏? 丁磊:你仔细想想不充钱能不能玩这游戏? 张栋:CNM我就问你不充钱能玩我运营的游戏吗?