如何理解总体标准差、样本标准差与标准误

1 总体标准差

已知随机变量 XXX 的数学期望为 μ\muμ,标准差为 σ\sigmaσ,则其方差为:
σ2=E[(X−μ)2]\sigma^2=E[(X-\mu)^2] σ2=E[(X−μ)2]此处 σ\sigmaσ 即为随机变量 XXX 的总体标准差

2 样本标准差

上面的式子中,我们需要准确的了解随机变量 XXX 的总体分布,从而可以计算出其总体的期望和标准差。

但在一般情况下,对总体的每一个个体都进行观察或试验是不可能的。因此,必须对总体进行抽样观察(采样)。由于我们是利用抽样来对总体的分布进行推断,所以抽样必须是随机的,抽样值 (X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)(X1​,X2​,⋯,Xn​) 应视为一组随机变量。由于抽样的目的是为了对总体的分布进行统计推断,为了使抽取的样本能很好地反映总体信息,必须考虑抽样方法。最常用的一种抽样方法叫作 “简单随机抽样”,得到的样本称为简单随机样本,它要求抽取的样本满足以下两点:

  • 代表性:X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1​,X2​,⋯,Xn​ 中每一个与所考察的总体有相同的分布;
  • 独立性:X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1​,X2​,⋯,Xn​ 是相互独立的随机变量。

此外,满足以上两点要求的样本一般被称为 i.i.d.样本,即独立同分布(independent and identically distributed)样本。 在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。 在西瓜书中的解释是:输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。

所以在实践中采样得到i.i.d.样本之后,可以用样本方差 S2S^2S2 来近似总体方差 σ2\sigma^2σ2:
S2=1n−1∑i=1n(Xi−X‾)2S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 S2=n−11​i=1∑n​(Xi​−X)2其中,nnn 为样本容量,X‾\overline{X}X 为样本均值。

上述公式的证明请参考: 为什么样本方差(sample variance)的分母是 n-1?

3 标准误

实例:已知某学校有初三学生共200名,这200名学生的平均身高为160cm.我们以这200名初三学生作为总体,欲通过抽样调查来了解所有初三学生的平均身高。现在假定我们共做了10次抽样,每次抽样量都是100人。此时我们可以分别计算出每次抽样样本的身高均数和标准差,可以得到10个均数和标准差。这里10个均数和标准差都是样本统计量,如果我们把10个样本的均数作为原始数据,然后计算这10个值的标准差,那么我们得到的指标就是标准误。

即:标准误是样本统计量的标准差,它反映了每次抽样样本之间的差异。如果标准误较小,则说明多次重复抽样得到的统计量差别不大,提示抽样误差小;反之,如果标准误较大,则说明样本统计量之间差别较大,提示抽样误差较大。标准误和标准差的区别主要体现在以下几个方面:

  1. 标准误的英文是Standard Error,是一种误差;而标准差的英文是Standard Deviation,只是一种对均数的偏离而已。偏离和误差根本不是一个概念。
  2. 标准差只是一个描述性指标,只是描述原始数据的波动情况;而标准误是跟统计推断有关的指标。描述性指标和推断性指标根本不是一个层次上的概念。
  3. 它们针对计算的对象不同。标准差是根据某次抽样的原始数据计算的;而标准误是根据多次抽样的样本统计量(如均数、率等)计算的。理论上,计算标准差只需要一个样本,而计算标准误需要多个样本。

尽管从理论上来讲,标准误的计算是通过多次抽样的多个样本统计量而获得的,但在实际中仅依靠一次抽样来计算标准误也是可行的。事实上,在绝大多数情况下,我们也别无选择,只能利用一次抽样数据来计算标准误。此时标准误的计算公式为:
Se=SnSe=\frac{S}{\sqrt{n}} Se=n​S​ 其中,s表示样本标准差,n为样本的例数。不难看出,样本例数越大,标准误越小,即抽样误差越小。
上述公式可由中心极限定理证明得到。

如何理解总体标准差、样本标准差与标准误相关推荐

  1. 总体标准差-样本标准差

    总体标准差和样本标准差公式: 解释: 1,求一组数据的标准差,该组数据就是总体,此时是求总体标准差,公式中分母为n: 2,总体太大或未知,只能每次抽取样本,此时是求样本标准差,分母为n-1. 图片来源 ...

  2. 【Python】统计数据标准差(总体标准差,样本标准差)

    前言 最近做实验需要统计实验结果的均值,标准差,mark一下,方便查阅! 总体标准差 样本标准差 有的也叫无偏样本标准差,就是自由度为 n-1 代码 imimport numpy as np each ...

  3. 总体标准差、样本标准差、标准误差

    我们之前学的标准差,指的是总体标准差,但是在现实中,由于样本数量很大,且都具有随机性,我们不可能得到全部的样本,所以要计算出总体标准差是不现实的. 通常情况下,我们只能从某个事物中进行抽样,然后从抽样 ...

  4. C语言实现总体方差,总体标准差,样本方差,样本标准差

    /**方差计算 *****注意数据类型 *参数 data[] 数据 *使用注意 需要重定义数据类型 typedef unsigned char uint8; typedef unsigned int ...

  5. 假设检验 - 区间估计 (总体标准差σ已知)

    标准正态分布表(带x) 1.所谓的正态分布表都是标准正态分布表(n(0,1) [标准差=1,平均值=0],通过查找实数x的位置,从而得到p(z<=x). 2.表的纵向代表x的整数部分和小数点后第 ...

  6. 假设检验 - 区间估计(总体标准差未知)

    背景知识: u分布:指标准正态分布,是以0为平均值,以1为标准差的正态分布 z分布:泛指正态分布,是以u为平均值,以西格玛为标准差的正态分布.对于z分布中的所有变量X,转换为(X-U)/西格玛时,其服 ...

  7. pandas中计算总体标准差

    标准差(或方差),分为 总体标准差(方差)和 样本标准差(方差). 前者分母为n,后者为n-1.后者是无偏的. pandas里的 .std() 和 .var() 都是算的无偏的. 而numpy是有偏的 ...

  8. 总体标准差和标准差的区别

    总体标准差和标准差都是用来衡量数据集合中数据值的离散程度.但是它们在计算上有所不同. 标准差(sample standard deviation)是在一个样本中计算,用来反映样本数据值分布程度.公式为 ...

  9. R计算已知 总体标准差 ,均值 , N 求 置信区间

    葡萄酒进口商需要报告某国葡萄酒瓶中酒的平均度数.根据以往葡萄酒的经验,进口商认为酒的度数呈正态分布,总体标准差为12%.进口商随机抽取了60瓶新酒,得出样本均值X=93%.给出所有新酒瓶中酒的度数的9 ...

  10. 样本标准差个除以n-1与总体标准差除以n 数学意义是什么?

    如是总体,标准差公式根号内除以n  如是样本,标准差公式根号内除以(n-1)  (样本至少比总体的个数少一)因为我们大量接触的是样本,所以普遍使用根号内除以(n-1)  除以n-1是为了保证样本方差是 ...

最新文章

  1. sudo spctl --master-disable_Φ560加长哈夫节--南宫哈夫节定做厂家
  2. curl 视频vip接口 php,php中CURL的使用方法及详解教程
  3. svn trunk branches tags 的用法
  4. 从单体到混乱的微服务,阿里云托管式服务网格是如何诞生的?
  5. 关于Dictionary字典和List列表
  6. Codeforces-gym-101020 problem C. Rectangles
  7. MySQL高级 - SQL技巧 - 数字函数与字符串函数
  8. java虚拟机和javaGC_Java虚拟机(三):GC算法和种类
  9. 11月TIOBE编程语言排行榜,OC已经掉出前十
  10. 【Python系列】之python2.7.6离线安装Matplotlib
  11. 攻防世界 pwn 二进制漏洞简单题练习区 答题(1-10题解)
  12. pip更新导致ImportError: cannot import name ‘InvalidSchemeCombination‘ from ‘pip._internal.exceptions‘
  13. 当synchronized遇上integer
  14. 土方计算软件FastTFT V15.1.0更新说明(支持AutoCAD2020平台)
  15. 计算机按键截图,截图按什么键,电脑按哪个键是截屏
  16. 球员题(查询+添加+排序)
  17. 手机视频如何投屏到电脑 手机投屏电脑
  18. 数据结构(严蔚敏)【一元多项式的运算】【C语言】
  19. 基于域适应的弱监督学习的物体检测:
  20. SUSE LINUX 10.0 软硬件的安装和设置(转)

热门文章

  1. 【游戏客户端】制作节奏大师Like音游(全)
  2. 中国计量大学计算机考研难吗,去中国计量大学读研好吗 考研题难吗_
  3. 21受限玻尔兹曼机RBM
  4. 【图像分类】2021-Twins NeurIPS
  5. ​单页应用程序是如何打破网页设计的?
  6. openwrt 使用自定义 DNS
  7. strcmp, strcasecmp, memcmp
  8. 太空大战--声音与特效
  9. 为何干电池是1.5v?而充电电池是1.2v?
  10. 恶搞-Mac 让电脑说话