当对海量数据进行数据分析,查看数据分布情况的时候比较困难。就需要对样本进行抽样,通过抽样样本分布情况来反映总体样本的分布情况。

目录

1.统计量

2.由正态分布导出的几个重要分布

3.样本均值分布与中心极限定理

4.样本比例/均值之差/方差的分布

一、统计量

定义:x1,x2,....xn是从总体中抽取的容量为n的一个样本,如果由这些样本构造一个函数

T(x1,x2,...xn)不依赖于任何参数,则称函数T(x1,x2,...xn)为一个统计量

例如:样本均值  x均 = 1/n · Σxi     用样本均值 来反映总体数据的信息

 样本方差  S² = 1/n ·Σ(xi - x均)      用样本方差来反映总体方差的信息

样本变异系数:V =  S / X均值  ,反映总体变异系数的信息

它反映出随机变量在以它的均值为单位时取值的离散程度,常用来刻画均值不同的不同总体的离散程度

样本K阶矩: 反映出总体k阶矩的信息。当k为1是 为样本均值

样本偏度:反映了总体样本偏度信息。偏度代表随机变量密度曲线在众数两边的对称偏斜性

s是样本的标准差,m3是样本的3阶中心距

样本峰度:反映了总体样本峰度信息。峰度代表密度函数曲线在众数附近的“峰”的尖峭程度

m4是样本四阶平均距,m2是样本二阶平均距

次序统计量:设 X1,X2, …, Xn是取自总体X的样本,X(i) 称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2),…,x(n),则称X(1),X(2), …,X(n)为顺序统计量

R(n)=x(n) - x(1)为样本极差,极差反映了样本中最大值与最小值之间的差

充分统计量:对于给定的统计推断问题,包含了原样本中关于该问题的全部有用信息的统计量

二、由正态分布导出的重要分布

有很多统计推断是基于正态分布的假设,以标准正态分布变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有显式表达式,它们被称为统计中的“三大抽样分布”。这三大抽样分布即为著名的卡方分布,t分布和F分布

卡方分布

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布

卡方分布性质:分布的形状取决于其自由度n的大小,通常为不对称的正偏态分布,但随着自由度的增大逐渐趋近与对称,期望为E = n ,方差为D =2n;若U和V为两个独立的卡方分布 U的自由度为n1

V的自由度为n2,U+V的自由度为n1+n2

t分布

说起t分布,首先要提一句u分布,正态分布(normal distribution)是许多统计方法的理论基础。正态分布的两个参数μ和σ决定了正态分布的位置和形态。为了应用方便,常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布(standard normaldistribution),亦称u分布。根据中心极限定理,通过抽样模拟试验表明,在正态分布总体中以固定 n 抽取若干个样本时,样本均数的分布仍服从正态分布,即N(μ,σ)。所以,对样本均数的分布进行u变换,也可变换为标准正态分布N (0,1)。

由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。

设随机变量T ~ tn,则其密度函数为

该密度函数的图形如下:

若T ∼ tn,记p(|T|>c)=a,则c=tn(a/2)为自由度为n的t分布的双侧a分位数(如上图所示). 当给定a时,tn(a),tn(a/2)等可通过查表求出. 例如t12(0.05)=1.782,t9(0.025)=2.262 等。

t变量具有下列的性质:

1)若随机变量T~tn,则当n>=2时,E(T)=0;当n>=3时,Var(T) =n/(n-2)

2)当n-> ∞ 时,t变量的极限分布为N(0,1)

F分布

建立在卡方分布之上,两个卡方分布比值即为F分布。

U为自由度为n1的卡方分布,V为自由度为n2的卡方分布

F =(U/n1)/(V/n2)

设随机变量x服从F(m,n)分布,则数学期望和方差分别为

E(x) =n/(n-2),n>2

D(x) =2n²(m+n-2) / m(n-2)(n-4) , n >4

三、样本均值抽样分布与中心极限定理

样本均值的抽样分布是所有的样本均值形成的分布,即μ的概率分布。样本均值的抽样分布在形状上却是对称的。随着样本量n的增大,不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值μ,方差为总体方差的1/n。这就是中心极限定理

四、样本比例/均值之差/方差的分布

样本比例的抽样分布

在重复选取容量为n的样本时,由样本比例所有可能取值形成的相对频数分布

当样本容量很大时,样本比例的抽样分布可用正态分布近似

样本比例的期望 E(p)= π

样本比例的方差

重复抽样   σ² = π(1-π) / n

不重复抽样 σ² = π(1-π) / n [(N-n) / (N-1) ]

两个样本均值之差的抽样分布

两个总体都为正态分布,即X1,X2;两个样本均值之差x1均值- x2均值的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差

E(x1均值- x2均值) = u1 - u2

方差为各自的方差之和    σ  =σ1² / n1  + σ2² /n2

样本方差的分布

在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布

对于来自正态总体的简单随机样本,则比值  (n-1)s² / σ ² 的抽样分布服从自由度为(n-1)的卡方分布

(n-1)s²/σ²  ~X²(n-1)

两个样本方差比的分布

两个总体都为正态分布,即X1~N(u1,σ1²) ,X2~N(u2,σ2² )

从两个总体中分别抽取容量为n1和n2的独立样本,两个样本方差比的抽样分布,服从分子自由度为(n1 -1),分母自由度为(n2-1)的F分布

S1² / S2² ~F(n1-1,n2-1)

往期精选

机器学习|梯度下降法

机器学习|逻辑回归

机器学习|决策树

机器学习|随机森林

机器学习|Adaboost

数据分析|数据的整理&展示

数据分析|数据分布特征的描述

数据分析|概率分布

关注公众号,加小编微信即可拉入线上交流群

python 卡方分布值_数据分析|抽样分布相关推荐

  1. python 卡方分布值_重温统计学--抽样分布

    小文 | 公众号 小文的数据之旅 推断统计学的重要作用就是通过从总体中抽取样本构造适当的统计量,由样本性质去推断关于总体的性质.统计量是样本的函数,它不依赖于任何未知参数.常用的统计量包括样本均值.方 ...

  2. python 卡方分布值_python数据分析探索变量之间的关系

    探索变量之间的关系 引言 深入探索分析数据价值有几个重要步骤:①变量的分布检验,②探索变量间的关系,③建立关系模型,④评估,⑤总结结论与建议.接下来看看数据分析的重要一环–「探索变量间的关系」. 1 ...

  3. python 卡方分布值_饱和模型与偏差计算R方与p值

    引言:logistic回归中,我们了解到R2和P值的计算方法.但josh starmer老师指出,广义线性模型中R2更常见的计算方法还包括饱和模型(参考:Logistic回归:R2与P-value的计 ...

  4. python 卡方分布值_用Python进行最最最基础的统计检定

    记得之前再写关于Python绘制统计图的时候就说过,准备写一篇关于数理统计的. 一直都在忙论文,忙完后也比较懒散.就一直拖到了现在. 虽然时隔的比较久远,但还是准备把这个总结出来了. 所需要的Pyth ...

  5. python 卡方分布值_卡方新动力2020高校算法建模挑战赛

    [比赛名称]卡方新动力2020高校算法建模挑战赛 [主办单位]上海卡方信息科技有限公司.杭州华软新动力资产管理有限公司 上海卡方信息科技有限公司成立于2017年,已拥有近20项专利著作权.卡方科技主要 ...

  6. python 卡方分布函数_卡方检验2-python代码实现

    统计学,风控建模经常遇到卡方分箱算法ChiMerge.卡方分箱在金融信贷风控领域是逻辑回归评分卡的核心,让分箱具有统计学意义(单调性).卡方分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别 ...

  7. python sklearn 归一化_数据分析|Python特征工程(5)

    OX00 引言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的地位.在实际应用当中,可以说特征工程是机器学习成功的关键. 特征做不好,调 ...

  8. python 文件格式转换_数据分析:基于Python的自定义文件格式转换系统

    ( 白宁超 2018年7月16日14:47:41 ) 导读:随着大数据的快速发展,自然语言处理.数据挖掘.机器学习技术应用愈加广泛.针对大数据的预处理工作是一项庞杂.棘手的工作.首先数据采集和存储,尤 ...

  9. python cox回归_数据分析|回归分析(RPython)

    0X01 前言 变量之间关系可以分为两类: 函数关系:反映了事务之间某种确定性关系 相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的:反映了事务间不完全确定关系:相关系数(r)可以衡量这 ...

  10. python 求均值_数据分析:寻找Python最优计算性能

    1.场景描述 在数据统计分析过程中,求累计值(总和)是最常用的统计指标之一,市面上的各种流行数据库均支持的查询方式基本如下: select sum(c) from table_name; 当数据量在小 ...

最新文章

  1. 简单介绍 ghost封装过程
  2. vs code vue插件_干货分享 | Vue框架常见问题浅谈
  3. java--模板方法模式
  4. 【C语言简单说】二十:指针基础
  5. 你好,请查收这封元旦祝福,CSDN云计算改版啦!
  6. linux 7 nano,Linux初學(CnetOS Linux7)之文本編輯器nano以及關機
  7. 阿里强化学习入选MIT十大突破 “新技术”
  8. 大数据学习笔记12:搭建伪分布式Spark
  9. 鸿蒙服务卡片-哔哩哔哩弹幕姬
  10. (四)将容器部署到Azure上的Kubernetes
  11. UNIX环境高级编程(第三版)关于apue.h的用法
  12. 蓝桥杯 ALGO-150 算法训练 6-1 递归求二项式系数值 java版
  13. C# MP3操作类,能播放指定的mp3文件,或播放嵌入的资源中的Mp3文件
  14. 大数据最佳实践-spark
  15. 如何将文档转换为一个链接
  16. api文档 luci_开发OpenWrt路由器上LuCI的模块
  17. 关于在JS中引入JS文件的JQ方法
  18. 关于如何在mac系统上安装Git并在码市上建立项目
  19. python1到100奇数相加_如何使用while语句求1到100的奇数和
  20. 千纸鹤(小纸片)全套源码

热门文章

  1. php 判断某一天是周几,php如何判断一个日期是周几
  2. 作为运营,如何在职场上野蛮生长
  3. 【美】纳西姆·尼古拉斯·塔勒布 - 随机漫步的傻瓜(2013年7月8日)
  4. 大学物理实验空气比热容比的计算
  5. 小酥的Python学习日记 2022.7.3
  6. HTML中abbr标记,HTML abbr标记
  7. dpdk 驱动移植叩开 kni 模块那些黑暗的角落
  8. 范畴论-一个单子(Monad)说白了不过就是自函子范畴上的一个幺半群而已
  9. 为什么有的python内置函数怎么就一个pass?
  10. 让人心静的七十五条经典修心格言